复旦大学科研团队最新研究:用手机信令大数据让“新冠病毒”无所遁形

发布者:刘铁江发布时间:2020-03-21浏览次数:3170

面对突发疫情,如何能够快速准确的找出确诊病例的密切接触人群?如何提升居家隔离的效果?这些问题的答案对于遏制疫情传播、提升防控效果起着至关重要的作用。

近日,由复旦大学大数据学院、大数据研究院吴力波教授领衔,复旦-LSE全球公共政策研究院、上海理想信息产业(集团)有限公司(下称理想集团)、复旦大学上海医学院、上海市疾控中心共同组成的科研团队,利用手机信令大数据分析技术对这一领域进行了开创性的探索研究.

这项研究是由复旦大学上海医学院吴凡教授领衔的上海市科委首批应急科技攻关项目中有关流行病学研究课题的重要组成部分,前期大量成果通过专报形式报送相关部门,用于辅助上海市开展整体疫情防控工作


  • 手机信令大数据助力筛选密切接触人群

手机信令数据一方面可以利用漫游地区信息,对传统的传染病传播模型进行修正,在宏观层面为疫情防控提供趋势判断。另一方面,利用信令数据提供的轨迹信息,可以帮助各地方有效落实具体的疫情防控措施,其中最重要的一点就是对密切接触者进行隔离和观察。

由于疫情主要通过人群之间的接触而逐步蔓延扩散,因此流行病学调查会对每一位确诊患者的历史出行轨迹、人员接触信息进行调查,从中筛查出密切接触人群。看似简单的调查,但在现实中却对调查人员有着非常高的要求,并且非常容易出现遗漏统计密切接触者的现象。一旦患者故意隐瞒信息或者遗忘部分记忆,流行病学调查的结果就会出现偏差。甚至由于信息不完整,会造成流行病学调查无法还原准确的传播路径,陷入“福尔摩斯探案”式的境地,包括之前网上热议的天津百货大楼等案例在内的众多案例,都印证了这一点。

切接触者示意图

“利用手机信令数据进行分析,可以在几秒钟内筛选出患者的移动轨迹和潜在密切接触者名单,能够大大降低流调人员的压力,为疫情防控争取宝贵时间、提升防控的准确性。”复旦大学大数据研究院副院长吴力波教授表示,手机信令大数据涵盖了足够完整的人群,并且客观地刻画了人群的出行轨迹,通过模型算法能够及时筛选出潜在密切接触人群。

  • 精准识别密切接触人群:建模和算法是核心

课题组对116日至31日的部分样本人群轨迹进行分析,结果表明仅仅在这一期间,平均每位用户的潜在接触人数就超过了2000人,最多一位用户的潜在接触人数接近1万人。这是因为手机信令数据主要定位到每个基站的位置,虽然我国通信基础设施飞速发展,基站的密度不断提升,但是依然会把大量“擦身而过”的路人列入上述接触名单。因此,如何在这茫茫人海中准确的识别出最有可能的密切接触者,是整个课题的核心任务。

“我们建模的核心思想是基于社会网络分析方法,而模型训练的过程则要重点关注提升对极端事件的预测准确率。”课题组核心技术骨干、复旦-LSE全球公共政策研究院青年副研究员钱浩祺博士介绍,“极端事件学习”是指在收集到的数据样本中各类样本的比例很不均匀的情况下进行机器学习。虽然此次新冠疫情来势汹汹,但实际确诊病例在人群中所占比例非常小,所收集的数据中病例数与非病例数很不均衡,常规的模型训练算法会明显低估密切接触者的预测概率。根据此次疫情的相关数据,有标签的样本数仅为全部样本数的千分之二左右,以传统的极端事件Logistic模型为例,其对密切接触者的预测准确率最高仅有约35%。为此,课题组成员通过尝试采样调节、模型惩罚等各种改进,利用深度学习模型,短时间内将这一准确率提升到了80%以上,大大降低了遗漏密切接触者的可能性。  

  • 已进行隔离观察人员:切实落实隔离措施是关键

疫情期间,如何保证居家隔离人员自觉在家隔离?社区防控人员和志愿者在承担高强度防控工作的情况之下,要对每一位隔离人员进行全天候的人为监测是一件非常困难的事。但是在手机信令大数据的协助下,这个几乎不可能完成的任务就变得轻而易举。

“通过对用户出行模式进行分析,我们可以了解每一位用户准确的进出上海信息以及隔离期间出行范围等信息,及时反馈给社区来提升疫情防控效果。” 吴力波教授介绍,通过使用无监督聚类算法,可以根据隔离观察人员的出行特征将其归类为短时出行、长时间出行、跨省出行、跨区出行、短距离出行等不同的类别。将结果反馈给社区防控小组后,可以由工作人员针对隔离人员的不同类别,有针对性了解生活需求,进一步提升社区疫情防控工作实效。

  • 多重技术保障:疫情防控与用户隐私安全可以兼得

用户隐私信息是否会在大数据分析过程中泄露?数据的安全如何得到保障呢?在做好利用大数据帮助疫情防控的同时,需要高度关注用户隐私与数据安全。

“所有的数据都是在大数据平台内部加密传输,并且模型训练是基于脱敏数据在沙箱环境中进行,训练结果也完全无法用于个人信息的反溯。” 吴力波教授介绍,为了以最高标准保障用户隐私和数据安全,课题组的整个研究流程都设置了相应的访问权限,并且保证脱敏数据在服务器内部传输过程和模型训练过程中全程处于加密状态。与此同时,课题组针对此次疫情所设计的建模方法,全部基于所有用户移动轨迹的加总信息,模型结果无法用于反溯具体的个人信息,个人用户也仅仅能够通过授权查询自身的轨迹暴露风险,这些措施最大化的保障了用户隐私安全。

  • 政产学研高度融合:齐心协力抗击疫情

要实现利用大数据服务于社会,则完全离不开政府、科研、教育和业界的紧密合作。本次应急攻关课题能够得到迅速启动并在短时间内取得阶段性成果,完全离不开政府相关部门的配合以及运营商提供的数据与技术支持。

吴力波教授带领的课题组成员接近20人,除了复旦大学的师生团队外,也包括了来自上海市疾控中心和理想集团的研究人员与工程师团队,为课题研究提供了必要的病例与隔离数据与手机信令数据,理想集团为此紧急调配了大数据集群的大量存储和计算资源,来保障研究课题的顺利推进。

正是在这样的紧密合作之下,从130日设立课题到21日的短短3天之内,课题组就形成了初步的研究方案。出于疫情防控与数据安全原因,课题组成员在远程开展各自的研究任务,平均每天用约1-2小时利用线上会议进行头脑风暴,并利用协同办公工具进行实时沟通、共享技术文档,课题组成员经常会针对研究方案的具体细节内容讨论至凌晨3点。正是在这样争分夺秒的努力之下,课题组在210日之前就从将近20套研究方案共数百个大数据分析模型之中,筛选出预测能力最好的研究方案和预测模型。


目前,课题组团队正在改进相关数据处理算法、不断完善预测模型,争取进一步提升模型在未来公共卫生领域的应用能力。

  

  

供稿:大数据学院 刘铁江、施正昱
排版:大数据学院 季洁