大数据时代背景下对数据分析教育的思考
大数据时代背景下对数据分析教育的思考 摘 要:大数据时代对财经类高校研究生的培养提出 了新的要求。本文首先分析了财经类高校数据分析课程的特 点,继而给出了财经类高校数据分析课程建设的思路。根据 该思路,以R语言课程为例,本文进一步给出了该课程的建 设方案。中图分类号:G64 文献标识码:A 文章编号:1673-9132 (2016)34-0040-03 DOI:10.16657/j.cnki.issn1673-9132.2016.34.020 一、引言 随着大数据时代的到来,数据分析在各行业的重要性日 益凸显出来。大数据时代要求人才具有极强的“数据视野”、 “数据意识”和“数据能力”,即对所处行业数据的形式种 类详尽把握,对数据的作用深刻理解,对数据分析方法和分 析软件熟练运用。其中“数据能力”是前两者的基础,是实 现大数据所有思想和理念的根本保证,是现代经济管理人才 的重要基本素养和技能。我国的财经类院校肩负着为社会培养经济管理类高级 专业人才的重任,在大数据时代,社会对于经济管理类高级 人才在数据分析方面的要求极大增加,现代经济管理理论的 发展趋势也体现出越来越重视数据分析的特点。这要求人才 既有深厚的经济管理理论功底,又能够熟练使用数据分析工 具对业务数据进行分析,并得到结论。特别是在研究生教育 层面,对数据分析能力培养更加重要。
然而,目前在研究生数据分析能力的培养方面各财经类 院校均存在着较多的不足。首先是覆盖面小,除各院校的统 计学院(或类似学科的学院和专业)外,强调这方面能力的 培养的学院和专业较少,导致研究生对数据的运用和分析能 力不足;
其次是形式单一,主要以课堂教学为主,完全忽视 了数据分析的实践性,教学效果不好;
再次是教学所用软件 平台薄弱,多数使用SPSS,极少数专业学习SAS,对于在学 术界和业界非常流行R语言、python等平台则少有涉及。因 此,合理设计数据分析类型课程,提高经济管理类研究生在 数据分析方面的理论水平与实践能力,是广大财经类高校不 得不面对的迫切问题。本文讲就财经类高校数据分析类课程 的特点、建设思路和建设方案,结合笔者在教学实践中的一 些心得谈一谈自己的看法。
二、财经类高校数据分析课程的特征数据分析的目的就是从数据中提取有价值的信息,进而 形成知识。因此在绝大多数专业领域均有大量的数据分析需 求,对人才的数据分析能力均有较高的需求。从财经类高校 的专业分布看,可以把对数据分析能力的需求分成三个不同 的类型。
第一类是以统计学院、信息学院(或类似学科的学院和 专业)。这两类专业的教学主要突出理论性、基础性和方法 性,立足于对学生的“数据视野”、“数据意识”和“数据 能力”进行全面训练,使学生能够在毕业后在任意领域迅速 承担起高级数据分析的任务。
第二类是经济学门类的相关学科。这类学科对于数据分 析教学的要求偏重应用,即学生的“数据视野”、“数据意 识”,但由于部分专业(如数量经济学)对数据分析能力要 求较高,因此对于“数据能力”的培养也需要兼顾。
第三类是管理学门类的相关学科。当前的管理学实践离 不开数据,对数据分析教学主要是应用层面的。要求学生具 有良好的学生的“数据视野”和“数据意识”,而对于学生 的“数据能力”的培养则并没有太高要求。三、财经类高校数据分析课程建设的思路 基于上述分析,研究生数据分析课程建设应当采取分层 设课的原则,基于不同的教学需求,设置不同的课程群。
对于上述第一类专业,需要在专业核心课程群的基础上, 重点建设大数据相关课程。如分布式计算、非结构化数据分 析、R语言、python语言等。在教学中,案例化教学和上机 实操应当成为教学的主要形式,尤其软件类课程应当在机房 进行,保证学生有足够时间熟悉操作并能随时与教师互动。
对于上述第二类专业,需要以一门基础课程为先导(如 统计学导论),在配合若干专业课与软件课的组合,如计量 经济学、时间序列分析、纵向数据分析与Eviews、SAS和R语 言的配合。在教学时,理论与实操并重,在实操方面突出学 生的软件使用能力训练,SPSS类型的软件不应当成为此类专 业的主要数据分析平台(学生应当在学习专业课程时自主学 习使用)。
对于上述第三类专业,可以考虑以一门数据分析课程为 基础,配合合适的软件平台,同时在其他专业课程教学中突 出各个课程的数据分析教学内容和实践环节,既可以基本达 到教学目的。这类课程教学的重点在于对数据分析方法模型的理解,切忌死记硬背,同时辅以一定的案例和上机实操。
在软件平台使用上,以SPSS这类拥有完善的GUI环境,所见 即所得的平台为主,也可以使用R语言强大的图形能力作为 演示工具,在演示的同时潜移默化地使学生了解R系统,进 而为其进一步学习建立基层。
四、财经类高校数据分析课程建设方案——以R语言课 程为例 在上述三类专业的数据分析课程建设中,R语言均扮演 了重要角色。因此本部分将以R语言课程为例介绍建设方案。
(一)R语言的优势 R语言作为功能全面地数据分析平台,在国际学术界和 业界得到了广泛的认同,是应用最普遍的数据分析软件之一。
与其他统计分析平台(如SAS、SPSS、S-PLUS等)相比,R语 言具有若干明显的优势:
第一,完全免费,完全开源。与SAS多达几十万元的价 格相比,R语言是一个完全免费的平台,且功能同样强大。
第二,安装简便,更新迅速,功能完善。R语言的安装对于硬件的需求很低,且拥有Windows、Mac、Linux等多个 平台的版本。并且R通过其大量的程序包实现了功能的扩展, 用户总是能通过下载功能包获得最新的分析模块。
第三,R语言是被国际学术界广泛认可,绝大多数国际 知名高校都将R作为基本的教学和科研工具。
第四,R语言既是编程语言,又是高度功能化的数据分 析平台,同时具有编程语言的灵活性和功能化数据分析软件 的易用性。
(二)开展研究生R语言教学的必要性 首先,作为一种编程语言,R语言的教学可以训练学生 抽象思维、逻辑思维能力,同时作为一种数据分析平台,R 语言可以训练学生数据分析模型的应用能力和实际操作能 力,这一功能是其他非语言类软件系统无法实现的。
其次,在研究生教学中开设R语言课程,可以极大提升 学生在求职就业、考博和出国深造方面的竞争力。由于R语 言在国内外学术界和业界有着巨大的影响,因此熟练掌握R 语言无疑会使我们的研究生更加具备竞争力。
(三)研究生R语言教学的现状及改革的迫切性从当前的教学现状来看,R语言仅仅是少数专业才有的 课程。但是基于本人这几年的教学和指导研究生的经验来看, 当前我国财经类高校研究生的动手能力较弱。其根本原因之 一是缺少数据分析能力的训练。若要在不过分增加研究生课 程量的前提下迅速提高研究生这方面能力,R语言这种将抽 象思维、逻辑思维、数据分析模型和数据分析实操紧密集合 的平台是最好的选择。
(四)R语言教学的内容划分 R语言集合了计算机语言与数据分析系统的特点,既能 像SPSS那样通过简单操作即得到结果,又能够项C语言那样 进行新功能的开发,尤其是其强大的图形能力,更为数据分 析人员提供了强大的数据可视化平台。为了能够为学生全面 地讲授上述内容,需要对课时进行合理分配,辅以合理的教 学模式和考核模式。下面本文将以48学时的研究生课程为例, 介绍R语言课程的基本内容和结构。
1.教学内容和学时分配 第一部分,R语言简介(2学时),介绍R语言的历史、 基本操作环境、相关网站、系统本身和软件包的安装方法以及参考书籍等。
第二部分,R语言的数据结构(12学时),介绍向量、 因子、索引、数组和矩阵、数据框、列表等概念和相关算法。
这部分是后面教学的基础,同时也是R语言区别于其他编程 语言的重要方面,在教学时要突出对因子、索引(以及利用 索引实现筛选等功能)、数据框等数据结构与数据分析的关 系的介绍。
第三部分,R语言的编程结构(12学时),介绍成组、 选择和循环三种结构。在这部分教学中,重点在不能按照传 统程序设计语言的模式进行教学,要突出数据分析的特征, 可以考虑使用R语言自己编制景点统计方法的代码,如最小 二乘法、距离判别、快速聚类等。
第四部分,R语言的绘图功能(12学时),介绍高级绘 图语句、低级绘图语句、交互绘图语句以及ggplot2软件包 等。绘图是R语言的优势,允许使用者自由的定义图形,尤 其是ggplot2软件包的出现,更是将R的绘图功能推上了新的 高度。这部分不但是上述第一类、第二类专业研究生所需要 掌握的内容,也是第三类专业研究生应当了解的内容。
第五部分,R语言的基本统计功能(10学时),经过前述四个部分的教学,学生已经对R语言具有了较为深入的了 解,并应该具有独立编制代码的能力。在此基础上,可以进 行本部分的教学,即对于使用R语言实现诸如回归分析、多 元统计分析、时间序列分析的方法进行介绍。由于这一部分 功能均有对应的软件包和函数,因此在软件操作方面非常简 单,如果跳过前面几个步骤直接进行这部分的教学会使学生 对R语言一知半解,缺少对R语言核心知识的理解。
2.教学及考核方式 由于R语言是一个操作性非常强的语言平台,传统的课 堂教学+上机的教学模式会使得理论与实践脱节。因此建议 该课程全程在机房进行,这种教学方法的优势有三个方面:
第一,教师讲解更到位。编程类课程重要的是思考过程 而不是结果,因此传统的课堂上听讲,上机课练习的模式会 使得思考过程与结果脱节。而在机房上课则可以使学生跟随 教师的讲解随时练习和实验,使得教学效果更好。
第二,师生互动更容易。学习编程的过程就是不断试错 的过程,学生需要不断地从发现错误——解决错误的过程中 提高能力,而在这个过程中教师与学生的互动非常重要。第三,课堂练习更直接。课堂练习在学习编程过程中具 有非常高的重要性,传统授课模式下,无法做到当天的学习 内容当天联系,是知识技能的掌握不牢,效率低下。
在考核方面,建议采取开卷上机考核的方式。由于R语 言的教学具有极大的实践性,因此“会用”才是最终的目的。
同时,由于R语言极强的可扩充性,因此单纯地考查学生对 于R语言中一些功能代码的记忆没有任何意义,采取开卷的 方式,重点考查学生解决数据分析问题的能力的上级考试才 能够实现对学生R语言学习水平的测度目的。
五、结论 当今社会已进入大数据时代,任何财经类专业人才的培 养脱离了数据分析类教学内容都是不能适应社会需求的。而 数据分析课程的理论与实践并重的特点,要求在教学过程中 既重视数据分析理论模型的讲解,又重视数据分析平台的训 练。只有这样,才能使得财经类人才的培养跟上市场对于人 才需求内容的转变,培养出符合市场需要的人才。
参考文献:
[1] 崔路云. 基于大数据时代背景对统计学教育的几点思考[D] . 首都经济贸易大学,2014. [2] 何蕴毅. 大数据背景下教育变革的思考与实践[J]. 教育信息技术,2014(12).