2020年年初,新冠疫情突然暴发起来之后,在这时,全球大家的目光都聚在了数据上面。当绝大多数的人们在浏览那新闻的时候,有一支人数50多个的志愿者团队,他们悄无声息地默默做了一件重大的事情:搭建起了CovidNet疫情追踪平台。现如今,这个平台已然成为约翰霍普金斯大学疫情追踪系统的其中一部分,它还是美国疾控中心用来参考的数据源当中的一种,甚至就连维基百科新冠全球大流行页面的北美部分数据,主要也是从这里引用而去的。有着超过2.25亿次的访问量、被522个机构所使用的,这些各式各样的数字背后,则是那么一群没有任何回报诉求的人。
一群特殊的守夜人
此队伍的成员组成相当独特,存在于Uber担当自动驾驶机器学习平台高级工程经理的郭昱,他身为创办人。有身处美国的华人,还有留学生,以及大学教授,另外还有软件工程师、数据科学家、医生,甚至包含正在备孕的准妈妈。他们分散于美国各个地方,因疫情而汇聚到一处。
从2020年1月底起,这些人便舍弃了休息时间,当美国民众尚在睡梦中之际,他们已然着手刷新各地卫生部门官网,还要手动去搜集北美实时疫情信息,既无报酬,又无官方任命,仅仅是觉着这件事得有人去做,且得做好。
实时数据背后的硬核操作
要达成“实时”这俩字,困难程度远远超越想象。平台联络人陈娉莹女士讲出,他们的数据抓取一整天都持续维持更新状态。优先选用基层卫生部门发布的那些最新的数据,原因在于州级或者联邦级的数据汇总通常存在时间上的延迟,等它们发布出来的时候,早就错过最佳时机了。
一旦察觉到确诊数值出现异常波动,像某地方累计病例陡然降下,志愿服务者会立即警觉起来,这点情况说不定是统计范畴起了变动,或许因数据录入有误所导致,他们会去比对多家信息来源,手动进行核查校验,把原始数据里的“噪音”修正过来,保证投放上线的每一项信息都能够经过推敲考量。
多管齐下的数据来源
CovidNet的数据采集并非单一途径,乃是三管齐下,人工主动搜索作为基础,每日皆有专人留意各地官网,自动化抓取作为效率保障,运用技术手段扫描公开数据,另外还有一个独特的“众包”渠道即用户反馈。
网站特意设立了专门的“用户反馈入口”,当地居民要是发觉新闻中播报了最新的疫情情况,或者瞧见卫生部门更新了相关数字,能够在第一时间将线索提供给志愿者,这样一种使得人人都参与其中的机制,极大地提高了数据的及时性以及覆盖范围。
异常数据的纠错机制
啥是数据平台最惧怕的呢?惧怕的是错误。为了去应对原始数据里存在的噪声,团队设计出了一套严密的核查流程。比如说给前端页面设定统计量变化限制,若某地数据出现波动其幅度超过了正常范围,那么更新就会被暂时拦截住。
后台设有对比机制,会对最新录入的数据跟历史数据予以比对。正在核查的数据,绝对不会被错误地部署到前端展示。一旦碰到累计数字下降这种不符合常理的情况,志愿者会马上启动全面复查,去追溯整个数据链条。
颗粒度细到令人惊叹
点开CovidNet的数据库之际,你便会发觉其精细程度,北美数据细化至州与省,甚至可达精确至市与郡,覆盖北美3169个市郡,每一处地方的确诊数、死亡数、治愈数、检测数、住院数皆记录在案。
团队给出了好些交互式可视化工具,你能浏览州与市郡的病例分布地图,实施筛选排序,还能够观看全景的时间趋势折线图,疫情进展至各异阶段时,他们针对数据展示格式加以多次调整,致使研究者、媒体以及普通民众皆可便利运用。
开放共享的技术生态
这个平台极为值得夸赞的其中一点,在于其具备开放性,存在实时更新的数据网站,团队还把API接口工具给开发出来了,这表明大学的那些研究者,以及疾控机构,乃至企业开发者,均能够直接去调用这些数据来开展二次开发。
相关论文发布之际,CovidNet在同类数据库里,是覆盖国家范围最为广泛的,是实时性最为强烈的,是地理区域颗粒度最为精细的平台。他们将论文预印本发布于arXiv之上,以供全球科研人员予以参考。这般无私分享的精神,恰是志愿者精神在技术领域的一种延伸。
来到此处,你可曾思索,要是你身旁同样存在着一帮如此默默付出的志愿者,你会投身其中吗?欢迎于评论区讲讲你对志愿者精神的见解,点个赞以使更多人瞧见这群令人敬重的人,还将文章分享给在意疫情数据的友人吧。



