晨晖讲坛:大数据及子抽样方法

2023年5月24日,学校邀请到中国人民大学助理教授、博士生导师,同时也是毕业于华师大二附中2011届理科班的孟澄老师为高一同学们带来题为《大数据及子抽样方法》的晨晖讲坛。

孟老师首先介绍了本次讲座的背景,即人工智能非常依赖于大数据处理。他指出,大数据的出现对数据的分析、储存、和传输等方面都提出了重大挑战,特别是在数据量极大时,算力就会遇到挑战,根据实际此时就需要从样本中抽出一些有代表性的来反映其整体情况。这也就是本次讲座的重点介绍的内容:子抽样。

接着,孟老师详细介绍了两种子抽样:“基于模型”的与“无模型”的。他先从高中数学中的最小二乘法出发,指出在样本量很大的线性统计中,如果随机抽样,结果将与真实值大相径庭。因此,需要采用“杠杆采样法”,即有权重的采样,而“权重”这一看似简单的概念,实则需要复杂的数学处理来定义。另一方面,在没有既定模型的非参数回归问题中,需要用“星偏差”的方法来定义“均匀”的概念。孟老师指出,这些正是科研与学习的差别。学习时,一切都是定义好的;然而在科研中,科学家却往往只知道一个大方向,需要自己定义某些量才能解决问题。

最后,孟老师介绍了一个子抽样的真实应用:冠心病早期筛查。通过测量患者心脏彩超图像中每两帧的距离,可以区分正常心律、心衰与心律不齐,但如果采用传统算法,将需要高达115天的时间。采用子抽样后,效果几乎相同,耗时却被压缩到了分钟级别,大大提高了这种方法的临床价值。

在本次讲座中,孟老师用贴近生活的例子和通俗易懂的方式讲解了如何从统计的角度定义“重要”,对不同的下游任务应该如何应用不同的子抽样策略,以及当前国际上主流的子抽样算法和思想。孟老师也提出了科研与日常学习的不同之处,在同学们的心中埋下了一颗科研的种子。

【撰稿:高一(9)班 李仁艺;审稿:唐晓鹏】

Recommended Posts