近期,成人直播
统计系博士生常晋源以第一作者完成的文章“Marginal Empirical Likelihood and Sure Independence Feature Screening”被统计学顶级期刊The Annals of Statistics(统计年鉴)正式接收。《统计年刊》是由国际数理统计协会(Institute of Mathematical Statistics)主办的刊物,旨在反映统计学最高质量的研究,拥有广泛的国际声誉(//imstat.org/aos/)。
随着科学技术的进步,高维数据在我们的生活中随处可见。如何从众多数据中挖掘出有效信息,剔出无用信息,既是当前统计学研究的重点,也是解决实际问题时常常遇见的问题。比如,当我们在对因变量进行统计推断的时候,自变量的个数可能非常多,但在这众多的自变量中可能仅有少数的自变量对因变量具有解释作用。直接使用所有自变量对因变量进行建模可能会出现两种情况:(1)模型不显著;(2)当自变量个数远大于样本量时,相应的待估参数个数也会远大于样本量,这会导致模型的估计也会出现一些问题。所以如何在高维数据中剔出无用的自变量是进行有效统计建模前至关重要的一步。
该文章运用多重假设检验的观点对变量筛选问题进行审视。这个想法与传统方法将变量筛选问题处理成参数估计的观点不同。作者通过对经验似然(Empirical likelihood)方法的系统研究发现经验似然比统计量在0点处的取值可以用作检验统计量。基于这种多重假设检验的观点,该文章给出了对于线性模型和广义线性模型统一的变量筛选方法。由于经验似然方法具有自学生化(Self-studentized)的特点,该文章给出的筛选方法与已有方法相比能够克服异方差性对筛选过程的影响。同时,文章中还证明基于经验似然方法的变量筛选过程具有选择一致性,即选出的模型与真模型一样的概率会随着样本量趋近于1。
另一方面,该文章也考虑了在参数是由一般估计方程确定的模型中如何运用经验似然比对变量进行筛选。与传统文献在线性模型和广义线性模型的框架下考虑变量筛选问题相比,该文章的结果极大地扩大了变量筛选问题的模型类,并且在这一更大的模型类下,给出了统一的筛选方法。
常晋源同学于2009年9月从北京师范大学数学科学学院保送至成人直播-成人直播室
师从陈松蹊教授进行硕博连读。在校期间,于2011年12月在The Annals of Statistics上以第一作者身份发表论文一篇,2012年4月获得国际数理统计协会(Institute of Mathematical Statistics)颁发的Laha Award,2013年5月获得中国概率统计协会颁发的宝洁优秀论文奖。