2019年4月10日16:00-17:00,中国科学技术大学管理学院统计与金融系郑泽敏教授在复旦大学邯郸校区子彬院北201会议室做了关于序列规模稀疏因子回归的专题讲座。郑教授的研究领域是高维统计推断,研究兴趣包括高维情况下的模型选择、分类、传播网络推断以及大数据问题。其研究成果发表在Journal of the Royal Statistical Society Series B, The Annals of Statistics, Journal of Machine Learning Research等统计学顶级刊物上,曾获美国数理统计协会颁发的科研新人奖以及南加州大学的杰出科研奖,荣登2017福布斯中国U30(30位30岁以下)精英榜。本次讲座由复旦大学大数据学院毛晓军老师主持,陈钊老师、林晓蕾老师、朱雪宁老师以及大数据学院的部分研究生参加了这次讲座。
首先,郑泽敏教授谈到网络结构的识别现今有广泛的应用,比如最常见是在生物医学领域的基因表达方式和传播网络推断理论。把每个用户看成一个节点,随着时间的推移,看哪些用户之间有互动,试图把神经网络结构还原出来,进一步做网络营销。在大数据技术广泛应用的今天,用户越来越多,我们也面对越来越多的变量,传统算法的效率可能大打折扣,我们就需要寻找更加快速的算法。挑选参数会受到很多因素的影响,其中最重要的一个是噪音的强度,噪音越大,惩罚越大。
随后,郑教授介绍了高维多响应回归的最新研究成果,在现有的研究进展下,我们面临这样三个问题:其一,如何选择惩罚参数?第二,挑选参数时如果用CV(cross validation),即交叉验证法,当参数过多,就显得很费力。第三,高维时AIC和BIC等准则不适用了又该怎么推广?对这些问题提出的思考涉及对高维回归模型中参数选择的探讨。郑教授讲到,通常的回归是有一个响应变量y,对很多个x做回归,而多维响应变量则是有很多的因变量。在这种情况下,高维指的不单单是自变量维度很高,因变量的维度也可以很高。这种双高维的情况,单靠稀疏网络就不太好做了。
基于对上述问题的思考,郑泽敏教授开发了一种称为序列稀疏因子回归(SESS)的新方法,即通过常规特征值,可以将恢复联合低秩和稀疏回归系数矩阵的问题,分解为若干单变量响应稀疏回归分解。它结合了序列估计和缩放稀疏回归的优势,并且联合了凸面公式,序列因子回归框架和调整不敏感性,使SESS方法在大数据应用程序中具有较高的可扩展性。
最后,郑泽敏教授通过仿真和实际数据示例演示了SESS方法的可扩展性和有效性。讲座结束后,郑泽敏教授与师生们进行了热烈的讨论,气氛非常活跃。
作者:王雯航