京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据计算你和学霸的距离
在成都最冷的20天里还能坚持早起吃早餐;总是在晚上10点到11点之间洗澡;在教学楼打水近80次……正值开学季,电子科技大学教育大数据研究所的数据显示,普通的你,和学霸之间,恐怕就差了这些“微不足道”的行为。
这个颇有意思的发现,来源于覆盖了电子科大两万余名本科生的大数据系统——“学生画像”,其将每名学生几乎所有的在校活动轨迹与成绩之间建立了关联。利用这些数据,不仅能预算出学生的学习状况,研究者还希望依此引导他们更好地规划各自的学业和就业方向。
学霸的生活轨迹
传统教育认为,学生有规律的生活,是学生提高成绩的重要保证。
“普遍情况下,良好的行为习惯与学习成绩是呈正相关的,这基本是得到公认的。”21世纪教育研究院副院长熊丙奇表示,这些行为习惯,有的与成绩变动直接相关,例如学生按时上下课,常去图书馆等;还有一些与成绩的变动是间接相关的,比如养成早起的习惯,经常洗衣服,有规律的打水等。“虽然不直接作用于学生的学习,但是,好的生活习惯,反映的是学生积极的状态,说明学生自我管理的能力较强。那么,这些学生用在学习上的时间也相对有保证,也就势必会对学习成绩产生影响。”
不过,必须承认,这个被普遍接受的结论很难被定量描述。“如果我们能定量地证明已有的依据,并提出科学的可参照的建议,这项研究就是有价值的。”电子科技大学教育大数据研究所副所长连德富这样解释这项研究的初衷。
如今,研究团队已经花了一年多的时间记录学生的校内行为,包括吃饭、购物、打水、进出图书馆、借阅图书、宿舍门禁、洗澡、使用洗衣机、乘坐公交等。结果发现,学霸有着与一般学生完全不同的学习生活轨迹。
以某专业排名第3的学生为例,她几乎每天固定在8点、12点、14点三个时间点出门,留在宿舍的总时长低于专业平均水平。而该专业成绩排名第61的小石每天进出宿舍的时间很随机,而且通常每次外出的时长不超过2小时,“宅指数”明显高于专业平均水平。
此外,成绩最好的学生吃早餐次数在110次,成绩最差的学生吃早餐次数仅为60次。9点前出现在食堂吃早餐的同学,成绩相对更好。成绩较好的学生集中在晚上10到11点之间洗澡,而成绩较差的学生,洗澡时间无明显规律。
除作息规律以外,进出图书馆次数也是重要指标。第一学期,成绩最好的学生进入图书馆的次数为55次,成绩最差的学生进入图书馆的次数为35次;到了第四学期,成绩最好的学生进入图书馆的次数为61次,成绩最差的学生进入图书馆的次数为18次。
同样的情况还存在于教学楼。学生去教学楼饮水机上打水次数越多,就说明学生长期在教学楼里活动。第三学期的数据显示,成绩最好的学生在教学楼打水近80次,成绩最差的学生在教学楼打水不到10次。
尤其让连德富印象深刻的是,不同成绩的学生在借阅图书的种类上也有明显的区别。他发现,《蝴蝶公墓》《变态心理学》等带有悬疑色彩的图书,借阅者的成绩普遍不理想。
过去,要想清楚地知道不同成绩水平的学生群体与他们的行为特征之间一一的对应关系是非常困难的,但有了大数据的帮助,一切变得简单起来。
“学生画像”还能做什么
仅仅根据学生行为习惯的数据统计,就可以制定出学霸路线吗?
要想精确刻画一个人需要用无数的数据,但连德富认为,校园就是一个拥有丰富数据的很小的社会系统,只要这些数据能与目标联系起来,就有一定的指示作用。
事实上,“学生画像”的首要功能,就是算出每名学生的学习、生活状态,并设计出一系列辅助他们更好规划各自学业的功能模块。目前已经实现的是挂科预警。
据了解,研究团队设计了一个针对挂科率的公式,即过去的学习基础+一段时期内的努力程度。学习基础是根据已考科目成绩、已考与将考科目之间的关联性计算得出的,而努力程度则主要依据教学楼打水频率、进出图书馆的时间与次数等。
如果有学生正处于挂科率高风险的边缘,系统就会自动向负责该名学生的辅导员发送预警信息。而在过去,只有当学生已经出现挂科的情况,辅导员才能得知,即便如此,事后也很难分析学生挂科的具体原因。
“目前,教育大数据暂时的定位还是辅助传统教育,管理、引导学生。”连德富表示。
除了关注学生成绩,他相信,现在的校园里依然充满了像当初的自己那样对未来迷茫的人。“我们都曾迷茫过,不知道自己喜欢什么,可以做什么。”
如何利用“学生画像”帮助学生找到适合自己的路,是研究团队正在努力的方向。目前,数据库不仅有现有学生的行为轨迹,还有已经毕业的学长们的行为轨迹。连德富告诉《中国科学报》记者,最终选择考研、出国或者创业的学生,在生活、学习方式上是存在一些差异的。
比如,打算出国的学生在选修课程、借阅图书时都会偏向语言方面的内容,而偏好创业的学生则与一项很有意思的数据产生关联。由于电子科大在成都郊区,学生进市区需要乘坐一趟班车,有的学生去市区的频率明显要高于其他同学,这也意味着他们的社交行为可能更为丰富。
“学生画像”可以将现有学生的行为轨迹与已经毕业的学长们的行为轨迹进行比对,如果在选课、借阅图书、参加社团活动等方面的轨迹与某类去向的毕业学生比较相似,学校就可以提供相关方面的建议、指导。
对此,21世纪教育研究院副院长熊丙奇也表示,传统的大学教育对学生的管理是比较松散的,因此,通过对学生生活、学习的数据分析,掌握学生的目标动向,有助于学校对学生进行合理的引导,无论是学习还是参与社会活动,都能够有的放矢地帮助学生作进一步规划。
中科院心理所研究员尹文刚则将关注点瞄准了当下大学生的心理健康问题。
“学生从高压的中学时期,进入完全需要自我管理的大学生活,一时间无法适应,容易出现心理问题。一旦受挫,通常选择回避的态度,甚至会出现抑郁的情况,更严重的可能危及生命。”尹文刚直言,近年来,大学生频繁曝出跳楼、伤害同学事件,都与心理健康密切相关。
他认为,通过教育大数据,可以及时掌握学生的行为习惯特征,一旦发生明显异常,比如长期独处、很少参与公共生活等情况,学校就可以适当关注学生的心理健康问题,采取相应对策。
研究团队正在挖掘“学生画像”在关注学生心理健康方面的作用。他们可以根据学生的行为习惯来量化“孤独”。
性格孤僻、有强烈的孤独感,往往被认为是抑郁易感人群具有的一些共性特征。他们发现,学校最孤独的一群人出现心理问题的概率比普通人高一个数量级。因此,研究团队正在设计算法,依据“30天内,两个素不相识的人,有两次或两次以上前后脚打水、打饭、进公寓、进出图书馆或坐公交车经历的概率,不超过十二万分之一”的结论,可算出每名学生的“在校朋友圈”,以此量化学生孤独的程度。
在尹文刚看来,预知大学生的行为习惯所隐含的心理问题,特别是关注学生的变化,对于开展学生工作是非常有帮助的。
从这些角度看,大数据在教育领域的应用是有一定价值的。
如何保护学生隐私
打水刷卡、进图书馆刷卡、进宿舍房间刷卡……在校园逐步实施一卡通的时代,学生大数据已经变得易得而且可控。学校一方面依靠大数据加强对学生的管理,一方面也要照顾到学生的隐私,尊重学生的行为习惯。因此,如何合理使用大数据,同时又保护学生隐私,就成为了一个重要的问题。
“如果让学生感觉生活在学校的监控下,那么即使学校的出发点是好的,希望能够对学生的行为及心理进行合理引导,这种举措也无疑会让学生反感。”熊丙奇特别提示学校在运用大数据的时候,要考虑到学生的隐私及习惯。
对此,连德富表示,“学生画像”在保护数据隐私方面是非常谨慎的。
“设计系统功能时,很重要的一方面是数据PK。”连德富介绍说,希望每名学生除了能在系统上看到自己的“画像”外,还能看到自己与同专业同学比较后的相对优势和劣势。“但是,比较的根本目的是找到学习的模板,而不是与具体的某个个体比高下。”
因此,在申请PK时,系统是存在强权限管理的。发起比对的学生必须经过对方的允许,才能看到对方的画像。但是连德富透露,由于该功能涉及的数据隐私比较敏感,目前并没有向学生端开放。
而已有的面向辅导员的端口,所涉及的数据经过严格的加密处理,系统不保存学生的真实姓名及学号,只有出现重要预警信息,才会自动给相应的辅导员进行短信推送。这意味着,任何一个技术人员都看不到学生个人的信息,而辅导员最多能够掌握自己负责学生可能出现的重大问题。
连德富坚持认为,教育大数据不会刻意强调每个个体的情况,而是反映学生整体的生活、学习状况,以及时预测预警学生的异常状况,从而为学校的决策提供数据支撑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01在数据驱动决策的时代,企业与从业者每天都会面对海量数据——电商平台的用户行为数据、金融机构的信贷风险数据、快消品牌的营销 ...
2026-04-01在数字化转型的浪潮中,企业数据已从“辅助运营的附属资源”升级为“驱动增长的核心资产”,而一套科学、可落地的企业数据管理方 ...
2026-04-01在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26