作者:齐一凡
2022年5月13日上午9:30,复旦大学大数据学院邀请东北大学张岩峰教授在线做题为“Distributed GNN Training with Hybrid Dependency Management”的学术报告。此次报告由复旦大学大数据学院青年研究员郑卫国老师主持,共50多人在线参与了学术报告。
张岩峰教授任博士生导师、数据库专委会委员。主要研究方向为大数据处理与挖掘、大规模机器学习系统、并行与分布式系统。承担国家自然科学基金、国家重点实验室开放课题等多项国家和省部级科研项目,作为主要参与人员参加国家重点研发计划等课题。在SIGMOD、VLDB、ICDE、PPoPP、SOCC等期刊会议上发表论文多篇。曾获云计算国际会议ACMSOCC的优秀论文奖、辽宁省科技进步奖等奖励。
报告开始,张岩峰教授首先介绍了图神经网络的执行模式,并阐明传统深度网络和图神经网络在分布式训练上的不同。随后,张教授介绍了分布式GNN训练的顶点依赖问题,基于此,分别介绍当前GNN分布式训练的两大类方法:依赖缓存和依赖通信,对二者进行分析对比,并发现其中存在的问题。为了解决前两类方法的不足,杨老师及其团队提出一种新的GNN分布式训练方法NeutronStar,在运行时自适应地利用依赖缓存和依赖通信的优点。之后,张教授对NeutronStar的master-mirror/mirror-master通信机制、任务调度机制等进行了详细介绍,并对其训练过程中的资源利用情况等进行分析。
最后,张岩峰教授对报告进行了总结,热情回答了郑卫国青年研究员及复旦大学计算机学院肖仰华教授的提问,并与参会其他同学老师进行了讨论。