Optimal Subsampling Algorithm for Big Data Generalized Linear Models

发布者:文明办作者:发布时间:2019-04-15浏览次数:1248


主讲人:艾明要 北京大学 教授 


时间:2019年4月18日15:00


地点:10号楼222会议室


举办单位:数理学院


主讲人介绍:2003年在南开大学取得博士学位,之后加入北京大学数学科学学院工作至今。2007年8月至2009年1月,美国佐治亚理工学院工业与系统工程系访问学者。现为北京大学数学科学学院统计学教研室主任、教授、博士生导师。兼任中国概率统计学会秘书长,中国现场统计研究会常务理事,试验设计分会理事长,高维数据统计分会副理事长等,国际重要统计期刊《Statistica  Sinica》、《Journal of Statistical Planning and Inference》、《Statistics and  Probability Letters》、《STAT》副主编,国内核心期刊 《系统科学与数学》编委,科学出版社《统计与数据科学系列丛书》编委。  主要从事试验设计与分析、计算机试验、大数据分析和应用统计的教学和研究工作,在Ann  Statist、JASA、Biometrika、Technometrics、Statist  Sinica等国内外顶尖期刊发表学术论文六十余篇,主持完成国家自然科学基金面上项目5项、国家自然科学基金重点项目子课题1项,参与完成国家科技部973课题2项。


内容介绍:To fast approximate the MLE with massive data, this paper study the optimal  subsampling method under the A-optimality criterion for generalized linear  models (GLM). The consistency and asymptotic normality of the estimator from a  general subsampling algorithm are established, and optimal subsampling  probabilities under the A- and L-optimality criteria are derived. Furthermore,  using Frobenius norm matrix concentration inequality, finite sample properties  of the subsample estimator based on optimal subsampling probabilities are also  derived. Since the optimal subsampling probabilities depend on the full data  estimate, an adaptive two-step algorithm is developed. Asymptotic normality and  optimality of the estimator from this adaptive algorithm are established. The  proposed methods are illustrated and evaluated through numerical experiments on  simulated and real datasets.