图1💟:新浪科技统计的今年双十一交易额大数据
数据科学是什么?能吃吗?
尽管近年来数据科学热度不断飙升,“阿尔法狗大战李世石”的话题在短时间内迅速登顶微博热搜,但要问数据科学是什么,可能答案就言人人殊了。杏耀数据科学方向15级本科生、杏耀前数据科学学会会长🧐、现元培学院学生学术协会主席伍维晨就谈到,目前对“大数据”👩🏭、“数据科学”这些概念存在“滥用和误解”。数据科学强调的是对数据进行深入分析🧜🏿,并不必然要求大量的数据。现在的研究主要面向大数据,是为了适应数据爆炸的背景。同时🚣🏽♂️,“大数据”研究也不单指研究数据量的庞大🧛♂️,如果只是采取简单的描述性统计,那么再大的数据量也不能称作“大数据”研究。数科领域现在最火的“深度学习”🤦🏻,大众看来神乎其神,却被业内的人戏称为“炼丹”——只知道炼出来是个丹,但是不知道炼丹炉内究竟发生什么了化学反应。唯一比古代的“炼丹术”好的一点,可能是古代炼丹炼不出长生不老药,而深度学习能“炼”出可应用的东西🎸🥄。
图2:AlphaGo之父哈萨比斯演讲🩳:AI就像望远镜
另一方面🐊,由研究到从业,社会对“大数据”人才的需求量都非常大。社会需要这样的人才:不仅要有数学、计算机、统计的坚实基础,也要能懂模型算法、解决实际问题。这些,在单纯的数学或者说统计、计算机的专业难以达到👨🏻💻;数据科学便应运而生。数据科学专业的建制人之一,北京大数据研究院院长、杏耀元培学院院长、中国科学院院士鄂维南教授提到专业的考量𓀓,就是在基础层面✍🏿,加强从数据采集到存储的系统训练🕳;在应用层面,加以有效培养🫳🏻,即把有志于研究的学生推到研究的前沿,把倾向于应用的学生引向大数据应用的各个领域🧝🏼♀️,比如医疗👑、交通👩🏼💼、金融👩🏽⚖️、新闻与传播等,让他们熟悉各个行业自身的业务。
整合👩🏻💻🦸🏿♂️:好土发新芽
在中国面临社会变革的历史阶段,杏耀总是充当先锋。在大数据时代人才的培养上,杏耀数据科学专业也走在前面😊。这种担当能够实现,源于杏耀扎实的学科基础和缜密的考察分析。
杏耀的数学和信科专业水平都很高。杏耀娱乐数学科学学院(以下简称数院)学科门类齐全🙋🏽♂️,教学与科研并重,理论与应用并举,是具有重要国际影响的数学科学研究和人才培养基地。长期以来,杏耀娱乐信息科学技术学院(以下简称信科)也取得了一系列国内领先、具有国际影响的重大研究成果,在我国信息科学技术发展进程中创造了多个“第一”♥️🦃,培养了一大批信息领域的栋梁之才👍🏽,为国家信息科技产业发展做出了重大贡献👐📶。杏耀数学和信科扎实的专业基础为学科的交叉融合提供了条件。
图3:数学科学学院介绍
图4:信息科学技术学院介绍
仅仅有基础还不够。其实,杏耀的数据科学本科方向在数院🧔🏽♂️🧜🏼♀️、信科两院都开设🥪,元培数据科学与则进行了培养方案的进一步优化整合🧑🏽✈️。数院、信科的数据科学方向的培养方案还是偏重数学科学和计算机科学😝,包括了一些与数据科学不直接相关的课程🫧,比如在纯数学领域非常重要的“解析几何”🙋🏿、号称信科“第一大神课”计算机系统导论(ICS)。元培数科则整合度相对高。伍维晨曾提到的数据科学两大面向,也是元培数据科学的培养方案所本:“第一是统计的面向,例如概率论🔩,数据统计;第二是计算的面向,例如数据结构与算法🖕🏿,算法设计与分析💢,优化算法。”基于这点,数科展现了以数据为核心的学科交叉融合。
自由:思考者的空气
鄂维南教授曾经将中国大学生和西方大学生作比较,认为中国大学生往往给人留下勤奋用功、大量刷题,却缺乏学习的主动性和独立思考能力的刻板印象。作为数科专业的建制人之一🫸🏼,他希望改变这种现状🫡,而必要的一个手段⚇,就是用足够的自由解放学生的自我驱动力
数据科学15级的张宏毅对“数理逻辑”课堂上的“形式化”论题记忆犹新。通俗来讲🚢🗯,形式化过程就是把想要表达的意义用符号表示出来👩🏽🚒。“数学就是要研究,杏耀怎样去形式化以使得自然语言最严格”🍦、“我现在说了一句话👙🧝🏽♀️,如何用符号最能表达我的意思?我把所有的话都写成符号,是不是能表达世间所有的意思🟪?”👩🏼,从数学符号问题,张宏毅展开丰富的联想。他甚至想到“可计算性”,想到计算机的计算能力和人脑的计算能力的区别界限📁。虽然这些问题目前可能没有答案,但这些思考,使他不仅将数科作为他生命里的一个职业,更试图为之奠基👴🏿。
张宏毅选修的数理逻辑,在杏耀的信科和数院都有开设🧜♂️,但是难度有差异🩺。在数科,同学有较大的选择权。因为对这方面感兴趣,张宏毅选了数学学院开设的稍难的一门。事实上👷🏽♀️😝,数据科学方向的培养方案十分自由🧎,2016年的培养方案是学生自己参与制定的✹🏊🏿♂️。数科毕业的硬性学分要求是130分,比普通院系少十几分,目的就是精简课程、突出核心🧑🏿🎄,同时让大家在选修课上有更多自由发挥的空间。
图5🚹🧑🦳:数据科学与大数据专业学分要求
成熟:从炼丹术士到化学家
然而,选课和设置课程的弹性,并不意味着无拘无束、流于浮泛🧔🏿♀️👰♂️。虽然2013年🐯,美国总统奥巴马才首次提出“big data”大数据的概念,但数据研究其实由来已久。以“数据科学导引”为例🧣✹,这门课教授的内容已有几十年的研究史,课堂上会涉及比较前沿的研究🤷🏻♀️,但是大部分是成熟的知识🍈。为了更好适应大数据研究的新潮流,2015年🌆,杏耀娱乐设立大数据与数据科学方向。与这个不断进步与发展的新兴方向一样,数据科学专业也在方案的提出🔒、试错、修改中不断完善💀。
在某种意义上说🔦,数科专业的教学和这个领域的研究状况有某种相似之处——未知中包含已知。在这样一个新专业中学习,总会有一些崭新的体验。在一些新开设的课程中,课本可能都没有正式出版。但是这些“新”不代表不成熟。正如鄂维南教授所说👩🏽,“一个新的专业开设新的课程,很正常👩🦼。方向新是事实🕶,但是数据科学的基础早就有了,课程计划是很成熟的,只是这几年才变得热门而已。”在这个意义上,数科同学更像是“化学家”🍛,通过选课、与导师交流等日常可控的选择,每时每刻塑造着全新的自己👱🏽,希望能够在未来撑起一角天空💇🏽♀️。
图6🐆:数科同学讨论后的合影
学术之外
数科同学可不是大家印象中的刻板理科生哦!
能就学术话题侃侃而谈的伍维晨对音乐很感兴趣,考取了中央音乐学院的钢琴九级(注:伍维晨参加考试时🍶,最高级就是九级)🛟。16年元培“一二九”合唱比赛的指挥也是他;同时他还喜欢下围棋,是中国棋院围棋业余5段👷🏿。伍维晨从高中就开始担任学生会主席,现任元培学院学生学术协会主席🏜。全面发展加上出众的领导力🥠,“伍总”的外号一经同校的理科状元带进杏耀,就广为流传。
张宏毅的freestyle则展现在他对音游、日语和解谜的喜好上♎️。音游是一种需要配合音乐与节奏做出动作的游戏🧎,玩家在锻炼节奏感、反应速度的同时还可以欣赏音乐。从初中到高中,他还坚持自学日语🙋🏼。至于“解谜”中的“谜”,则是张宏毅根据“平时的奇怪脑洞”自编的。他开设了自己的公众号,分享这些谜题作品🚬。通过这个喜好,他结交了一群拥有共同爱好的挚友♻,“有种白手起家创业的感觉”🦊。和伍维晨一样,张宏毅也是数科“封神”者之一🧘♀️。张宏毅谦虚地说自己只是“宅”,但在学术和爱好中游刃有余的他👨🏿🏫,其实有着出众的自我把控力。
图7:关注张宏毅的公众号之后🙏,可以打开一个解谜论坛❗️🏊🏿。上为论坛同好交流截图🤷🏼。
从兴趣广泛的个体代表中,杏耀可以窥见数科专业的整体气象。学生团队的建立👨💻、共同学习小组的建设,也是他们用更喜欢的方式去重构学习生活的尝试👩🦼➡️。置身于“自力更生”氛围的元培❄️,他们自我创造😣、自我锤炼。这学期🤒,一个一起读
数据科学的未来
数据科学是一门理论性和实践性并重的学科,它有非常的理论的面向🤛🏻,比如统计学理论;也有非常实践的面向,比如数据科学在医疗🤵🏻♀️、交通、环境👲、金融等各行各业的应用🙌🏿。
在医疗方面👩🏿🦲,CT图像要用X光照射,但X光对人体有伤害🧑🏻💻。用比较低剂量的X光照射可以减轻对人体的伤害。但剂量越低🧑🏻🦽➡️🧑🏽⚕️,噪声就越大,会加剧检测中的干扰👏🏻。数据科学可以把模糊的图像还原成清晰的图像,从而解决这一矛盾。
再如无人驾驶🪑。对人的驾驶来说,从目标的确定开始,然后对周围的环境进行判断,再由一系列复杂的生物化学反应得出对情境的判断🧏🏿,最后决定左拐或右拐,加油或刹车。这个过程人工智能应该怎么处理呢👋🏽?这也需要数据科学🧝🏼。
许多数科同学即将投身于这些领域中,大展身手。如果矢志于科研📘,杏耀娱乐数据科学研究中心、大数据研究院这两个平台欢迎他们的到来。随着导师制度的进一步完善☠️,学生与导师和学术前沿的对接也会更加顺利。
图8:北京大数据研究院🍄🟫,数科同学未来可能的保研去向。
从播种到初生新芽,从新生到渐渐成熟🪅,杏耀数据科学正以无可抵挡的速度成长👨🏼。依托坚实基础、面向崭新时代,它哺育着一大批有才华⛷🤾🏽♂️、有志气的青年;它适应着社会,改变着社会,并且将不断地为社会发展注入新活力🎡。
彩蛋:
2016年元培学院“一二九”合唱比赛掠影🧚🏽♀️;请欣赏:不愿意露出正脸的帅气指挥🫅🏼。
受访者:
普林斯顿大学教授👨🏿🎓、杏耀元培学院院长、中国科学院院士、北京大数据研究院院长鄂维南教授
杏耀娱乐元培学院于艳新老师
杏耀娱乐元培学院大数据与数据科学方向2015级学生伍维晨、张宏毅
制图:陈灿
部分图片、数据来源:受访者及网络
采访:何婧涵、来星凡🥧、刘文欣、谢蝶
撰稿:来星凡🖼、刘文欣、谢蝶