第1章 步入教育大数据之门

1887年,美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据,发明了一台电动机来读取卡片上的洞数,如图1-1所示。该设备让美国用一年时间就完成了原本计划耗时8年的人口普查活动,由此在全球范围内开启了数据处理的新纪元。

图1-1 赫尔曼和他的电动机

今天,伴随着互联网的飞速发展,“大数据”一词也飞入“寻常百姓家”,那么,大数据到底有多大呢?我们用一组数据来直观体会一下:一部《西游记》约62万字,1GB约为700部西游记, 1TB约为71.68万部,1PB约为73400.32万部。今天,人类社会无时无刻不在产生数据:全球每秒发送290万封电子邮件,每天会有2.88万个小时的视频上传Youtube。据互联网数据中心(IDC)统计, 2017年全球信息总量已经达到21.6ZB(相当于2.16万亿GB),目前每年全球数据的增长速度约40% ,预计到 2020 年全球的数据总量将超过40ZB。

在2000年以前,对应这些海量数据,人们还不具备大数据处理的能力,只能从海量数据中抽样选取数据进行分析。谷歌公司先后于2003年、2004年和2007年发表了三篇论文,这三篇论文奠定了大数据的技术基础,人们逐渐掌握了全量数据处理的能力。大数据的大,不仅仅在于数量,更在于处理数据的手段和方法。借助全量数据,人们可以发现事物背后的深层次关系。这些看似荒诞、毫无关系的事物,正是因为全量数据的分析才产生了惊人的联系,人们也得到了种种不可思议的推测结果。

2009年2月,谷歌公司的工程师们在国际著名学术期刊《自然》上发表了一篇非常有意思的论文:“利用搜索引擎查询数据检测禽流感流行趋势”,并设计了大名鼎鼎的流感预测系统(Google Flu Trends, GFT),如图1-2所示。GFT预测H1N1流感的原理非常朴素:如果在某一个区域某一个时间段,有大量的有关流感的搜索指令,那么,就可能存在一种潜在的关联:在这个地区,就有很大可能性存在对应的流感人群,相关部门就值得发布流感预警信息。GFT监测并预测流感趋势的过程仅需一天,有时甚至可缩短至数小时。相比而言,美国疾病控制与预防中心(CDC)同样也能利用采集来的流感数据发布预警信息。但CDC的流感预测结果,通常需要滞后两周左右才能得以发布。

谷歌公司的“流感预测”成为大数据应用的一个经典案例。随着大数据理念的传播和不断深入,人们逐渐认识到,大数据不仅仅是一种技术,更是一种能力,即从海量复杂的数据中寻找有意义的关联,挖掘事物内在变化规律,具备预测事物发展趋势的能力。此外,大数据还是一种思维方式,让数据开口说话,让数据成为人类思考问题、决策行为的基本出发点。实际上,大数据正在实现人类工作、生活与思维方式的大变革,大数据也正演变为一种社会文化,即人人产生数据、人人共享数据、人人热爱数据、人人管理数据的文化,这种文化正潜移默化地影响着各个行业。

图1-2 谷歌公司禽流感预测图

波士顿市政府推荐自己的市民使用一款智能手机应用——“颠簸的街道(Street Bump)”,如图1-3所示。这个应用程序可利用智能手机中内置的加速度传感器检查出街道上的坑洼之处——在路面平稳的地方,传感器加速度值小,而在坑坑洼洼的地方,传感器加速度值就大。热心的波士顿市民们只要下载并使用这个应用程序后,开车带着手机,他们就成为一名义务的、兼职的市政工人,这样就可以轻易做到“全民皆市政”。市政厅全职的工作人员就无须亲自巡查道路,只须打开电脑,就能一目了然地看到哪些道路损坏严重,哪里需要维修。波士顿市政府也因此骄傲地宣布,“大数据,为这座城市提供了实时的信息,它帮助我们解决问题,并提供了长期的投资计划”。著名期刊《连线》(Wired)也毫不吝啬它的溢美之词:这是众包(Crowdsourcing)改善政府功能的典范之作。

图1-3 “颠簸的街道”手机APP

教育领域虽然保守,但在大数据文化力量的强烈冲击下,也在加速走向开放,“拥抱”大数据,如今的教育越来越依赖技术。在过去的数十年里,教师和学生已经能熟练地使用学习系统来优化教与学,管理人员也能熟练地使用OA系统、财务系统等来加强学校管理。近年来,越来越多的学校已经开始使用移动设备、在线课程、数字白板等来推进教学。2018年,由重庆大学发起成立的“东西部高校课程共享联盟”选课高校达到了1862所,学生选课达到1519万人次,校均选课4537人次。该联盟成立于2013年4月(图1-4),借助于互联网、在线课程等先进信息技术,旨在实现跨学校、跨区域、跨国界、跨文化的教育教学。联盟的飞速发展,不仅仅是高校利用信息技术实现教育公平和提高教育质量的一次有益的尝试,更是扩大了教育的边界,同时,也为教育大数据赋予了更加丰富的内涵。

图1-4 东西部高校课程共享联盟

2016年,一封名叫《光阴的故事》的电子信件和截图在华中科大毕业生的微信朋友圈广为流传(图1-5)。每一位即将离校的学子只要打开链接,输入自己的校园账号就能获取其在校期间的学习、读书、餐饮等各方面数据。“四年期间,65门必修课,7门公选课,70位任课老师……”“四年里,你偏爱集锦园食堂,消费金额1014.75元……”毕业生看到他们在华中科大留下的这些痕迹,纷纷表示感动和温暖。

图1-5 “光阴的故事”

“光阴的故事”给了我们很多启发,一名新生在接到录取通知书的时候,他的信息已经进入学校的招生系统,当然,他自身的档案,包括姓名、性别、高考成绩等都已记录在案。有的学校还会在入学之前发送调查问卷,以搜集更为详细的信息。正式开始在校的学习生活以后,学习管理系统会记录他的学习数据(学习进度、习题正确率、论坛互动情况等),食堂会记录他的消费数据,门禁会记录他的进出数据……可以说,每一次鼠标点击、每一个网页浏览,都会留下详细的数据。

如果割裂地看这些数据,我们很难发现一些有趣和有用的深层次信息,但从大数据的角度进行综合的比较和分析,一些结果就非常出人意料且蕴含了巨大的价值。比如美国西部州际高等教育委员会教育技术合作部的预测分析报告项目,该项目从6所大学的64万学生、320万次选课中进行数据采集和分析,试图发现影响学生学习和退学的主要因素。该研究初步发现了包括性别、种族、专业、课程数量等在内的32个普通变量,这些看似和学习无关的特征,经过大数据分析以后,成为量化学生学习、预测学习成效的重要因素。电子科大曾做过一个课题——“寻找校园中最孤独的人”。他们从3万名在校生中采集了2亿多条行为数据,这些数据来自学生选课记录、进出图书馆、寝室,以及食堂用餐、超市购物等数据。最后,这个课题找到了800多个校园中最孤独的人,他们在学校一个知心朋友也没有。这些人中一部分可能已经产生了心理疾病,他们都需要学校和家长重点予以关爱。

从以上两个例子不难看到教育大数据的威力,教育领域的数据可以真正成为教育生态环境的改变者,教育大数据的大不仅仅是指数量巨大,也指价值巨大。教育大数据需要采集整个教育活动过程中所产生的一切数据,经过加工与分析,使得这些数据能够用于教育发展并创造巨大的价值。在这个领域,已有不少学者和机构着手研究了。对教育大数据的研究,目前集中在以下几个方面:

1)教育大数据的技术研究

在教育领域,借鉴商业领域成功的经验,已渐渐形成一套完善的教育大数据技术体系,如教育数据采集、教育数据处理、教育数据建模及挖掘、网络教育平台构建及工具集等。各种商业和开源产品的先后发布,大大简化了人们对教育大数据的采集和利用。如今,在线学习已不仅仅限于Sakai, moodle, blackboard这类传统的学习管理平台,国外有Couseral、Edx、Udicity三大平台的异军突起,国内更有爱课程、学堂在线、好大学在线等在线学习平台的百花齐放。这些平台不但可以采集学习者学习过程中方方面面的数据,更提供了智能化的数据分析平台,让教育大数据的应用从一个个抽象的模型和算法中汇聚起来,通过可视化技术直观地展现在教师和学习者眼前。此外,还有很多技术和工具被发展起来,用于更加专业化的分析和对比。比如美国有超过50个地区的学校使用的一款用于教师评测的工具——KickUp,它通过收集教师的自查报告以及学年内各项教学结果的反馈,纵向记录教师的成长历程,自动提出有待改善的地方。

2)大数据背景下教学模式和学习方式的转变

假如生活在20世纪的认知心理学家皮亚杰和教育家布鲁姆走进今天的教室,也许他们会感到很振奋:数百年来,我们所追求的“建构学习”和学生高阶能力的培养,在今天似乎有了更好的达成方式。老师不再高高立于讲台,知识也不是通过老师在课堂直接传授而得到。学生们通过小组合作,完成了一个个复合型任务,并进行精彩演示和讨论。此外,学生们还会利用自己手中的智能设备,积极参与课堂的各种互动。如果进一步追问,皮亚杰等会了解到,学生们在课前已经通过在线视频完成了基础知识的学习,并完成了老师预先设置的练习。老师在进入课堂之前已经了解到每一个学生的学习状况,并为课堂教学设计了有针对性的任务和讨论话题。如今,这种全新的教学模式被称作“翻转课堂”。

大数据时代,教学模式和学习方式发生了革命性的改变。教师不再是知识的唯一传授者,而是成为整个学习网络中的一个重要节点。学生的学习也不再仅仅限于课堂,而是课内外学习相结合、线上线下学习相结合、正式与非正式学习相结合。对于大数据时代的教和学,近年来的研究热点层出不穷:有关注自适应学习的,研究如何利用革新性技术对学生学习表现、学习路径等行为数据进行采集分析,向不同阶段、不同类型、不同需求的学生推送开放、共享、优质的教育资源,为学生定制个性化学习方案;有关注学习评价的,研究更多样化的、更灵活满足学生需求的新评价模式,运用在线的“同伴评估”和“自我评估”促进更具独立性和协作性的学习,整合大数据以促进课程教学、提高教学质量。

总的来说,大数据时代,学生的学习呈现出高度的自主性和个性化,而老师面临着众多的挑战,诸如“知识不再垄断”“处于被动选择的地位”“提升信息素养”“终身学习”等。在这样一个技术引起巨大变革的时代,不管是学习者还是知识传授者,都需要随着历史的潮流,以积极的态度、正确的方法打破新技术高速发展所带来的壁垒,利用新技术的红利,“百尺竿头,更进一步”!

3)教育大数据驱动学校管理

目前公认世界上最早的学校是诞生于公园前4000年的苏美尔(Sumer)“泥版书屋”(Mud Bookstore)。在学校的组织和管理上,泥版书屋已经初步具备了现代学校的管理模型。在苏美尔,学校的最高领导通常被称为“乌米亚”,意思是专家、教授。在苏美尔语中,教师是“泥版书屋的书写者”,每个教师都有其专门负责的学科。学校中还有一些被称为“大师兄”的助教,他们辅助教师进行教学工作。学校还有一些负责图书馆和其他后勤工作的工作人员,他们被叫作“泥版书屋的管理者”。泥版书屋在学生管理上也有明确的赏罚制度,当学生表现好的时候会给予奖励和表扬,学生犯错时则会受到鞭子抽打或用铜链锁住双脚关禁闭,严重的甚至会被开除学籍。

中国最早的学校出现在公元前21世纪的夏朝,那时候被称作“庠”“序”“校”等,在这些学校中也逐渐衍生出学校的管理制度。我国最早的教育专著《学记》中就对学校管理作出了具体论述,它也是全世界最早的教育专著。

近千年来,学校数量不断增多,学校服务对象范围更加广泛,学校制度也在社会发展中不断完善。进入大数据时代,学校的管理也迎来了新的挑战和契机。在大数据思维的启发和理论与技术的支撑下,数据驱动管理、数据帮助决策成为现代大学治理的核心理念,教育大数据的应用已经渗入学校管理的各个方面:如美国搭建的立体化教育数据网络,旨在支持科学决策;美国伊萨卡学院利用IBM的统计分析系统来收集学生的网络行为数据,以判断哪些学生更有可能就读伊萨卡并择优录取学生;加拿大的Desire2 Learn公司开发的学生成绩系统实现了数据驱动下的学业预警与干预服务等。这些教育大数据的实际应用逐渐突破了传统的管理模式,改善了管理效果,促进了学校管理质量的提升。

本书作为一本教育大数据的科普性读物,将结合大量的案例展示教育大数据在学习、教育、学校管理方面的具体应用。在下一章,我们从3个具体案例出发,探讨大数据时代教育教学的深刻变革。第3章围绕数据收集、数据处理、数据分析,介绍用于教育大数据的关键技术。第4章和第5章,分别就大数据时代的学生学习和教师发展做了详细的描述。第6章关注大数据时代的学校管理,包括大数据时代下学校数据中心和应用系统的建设思路、大数据驱动学校管理的具体方式以及数据的隐私保护。最后,我们将结合新兴的技术,介绍教育大数据的发展趋势和应用前沿。