[中文分词技术在社会化媒体分析效果研究] 社会化媒体

中文分词技术在社会化媒体分析效果研究

中文分词技术在社会化媒体分析效果研究 1 社会化媒体 社会化媒体包括平台创建和交换用户生成内容,通常社 会化媒体也被称为消费者产生的媒体(CGM)。社会化媒体 和传统的媒体有所不同,比如报纸、书本、电视等任何一种 媒体印刷成本较高,而社会化媒体在印刷出版方面的成本却 很低,但社会化媒体并不是完全不同于传统媒体,它与传统 的媒体存在密切的联系。

社会化媒体的形式很多,包括博客、社交网站、虚拟社 区等。社会化媒体有七个方面是大家一直关注的:身份、交 谈、分享、存在、友谊、名誉及成员。不同的社会化媒体有 不同的关注点,像维基百科等合作项目经常关注的是共享及 信誉,而在虚拟社区中身份、存在、信誉等备受关注。总之, 社会化媒体在人们的生活中发挥着举足轻重的重要。因此, 对社会化媒体的分析更具有研究价值。

社会化媒体的定义 学者Andreas Kaplan和Michael Haenlein认为社会化媒体是一组建立在Web2.0技术基础上, 允许创建和交换用户自创内容的互联网应用[1],它包含交 互式的应用和平台创建,分享和交换用户生成内容,是允许 人们撰写、分享、评价、讨论、相互沟通的网站和技术。所 谓社交媒体应该是广大网民自发分享、提取、创造新闻资讯, 然后传播的过程。社交媒体的产生依赖的是Web2.0的发展, 现阶段主要包括社交网站、微博、微信、博客、论坛、播客等。类似的,Toni Ahlqvist等人认为社会化媒体概念包含 三个关键元素,即:Web2.0技术、用户自创内容 (UserGenerated Content,UGC)以及所产生的人际关系网 [2]。

社会化媒体发展 目前,社会化媒体的发展越来越迅速。

社会化媒体已经在整个互联网中占据主流地位,根据Alexa 网站名称统计数据,当前世界访问量排名前十大网站中,有 五个是社会化媒体网站,像Facebook、Twitter、YouTube等 社会化媒体网站更可谓风靡全球,家喻户晓[3]。截至2014 年5月,Facebook有近13亿的活跃用户,其中包括超过10亿 移动活跃用户。目前已经有专门关注娱乐、运动、金融和政 治的社会化媒体。

2 中文分词技术 中文分词的概念 中文分词就是将一段或一句中文字序 列分成相对独立的词序列的过程[4]。通过分词,可以使句 子以单个词语的形式出现,从而使整个句子的语义简单化。

常用的中文分词算法 目前,常用的中文分词算法有基 于字符串匹配的分词算法、基于词的频度统计的分词算法、 基于知识理解的分词算法,其中,基于字符串匹配的分词算 法主要包括最大正向匹配法和最大逆向匹配法。在对社会化 媒体进行分析时,笔者所采用的主要是基于字符串匹配的分 词算法,所用本文主要对基本字符串匹配的分词算法进行详 细的介绍。基于字符串匹配的分词算法是按照一定的策略将待切 分的汉字字符串与一个“充分大”的机器词典中的词进行匹 配 [5],也就是按照一定的策略在词典中进行对比查找。目 前,基于字符串的分词算法主要有正向最大匹配算法及逆向 最大匹配算法。

1)最大正向匹配法(Forward Maixmum Matching Method), 通常简称FMM,其思想是假定分词词典中的最长词条有s个汉 字字符,则用待切分文档的当前字串中的前i个字作为匹配 字段,在词典中进行查找。整个算法的思路如图1所示。

2)逆向最大匹配法(Reverse Maximum Matching Method), 通常简称为RMM法,其基本原理与FMM法相同,不同的是分词 切分的方向与FMM法相反,一个是从左至右的切分,另一个 是从右至左的切分,并且它们使用的分词辞典排序方式也有 所不同。其算法如图2所示。

3 中文分词技术在社会化媒体分析中的应用 数据采集 本文所用的数据来自项目组成员设计出来的 社会化媒体分析系统,采集的是南京大学论坛数据。在该数 据采集平台中,数据采集分为网址采集和内容采集两部分。

1)网址采集。先进行网址采集,根据采集到的网址, 再采集相应的帖子内容。网址采集最多可分为四级采集,以 南京大学论坛为例,南京大学论坛使用二级采集就可以采集 到论坛帖子的网址,所有采集都是按照正则表达式来采集。

在论坛中有精华帖、分页贴,精华帖需要单独处理,分页贴主要是针对帖子有多页的问题,如上一页、下一页。

2)内容采集。采集到论坛的网址后,根据帖子的网 址就可以采集帖子内容。采集到论坛的网址后,根据帖子的 网址就可以采集帖子论坛,一般关注的数据主要有标题、帖 子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关 注度、讨论区等。该数据采集平台如图3所示,采集的数据 如图4所示。

1)最大正向匹配法处理实例。从采集的数据中,抽取 了部分数据进行分词实验,例如:待切分语句“我们急需提 高英语口语及听力水平”,如果在词典中匹配,只要匹配成 功就切分出来,那么这一句话切分的结果可能为“我们/急 需/提高/英语口语/及/听力/水平”。如果事先知道词典的 最长词长,那么将减少很多步骤,从而提高分词速度。此处 假设词典中最长词长为7,整个匹配过程如表1所示。

2)最大逆向匹配法处理实例。在对社会化媒体分析平 台采用的数据进行分词处理的过程中,除了采用最大正向匹 配算法外,还采用最大逆向匹配算法进行处理。例如:待切 分句子“求兼职新概念英语老师”,如果在词典中匹配,只 要匹配成功就切分出来,那么这一句话切分的结果可能为 “求/兼职/新/概念/英语/老师”。在进行匹配时,采用的 是逆序词典,假设词典中最常词长为7,整个匹配过程如表2 所示。

在分词的过程中,本文主要采用最大正向匹配和最大逆向匹配相结合,但是仍然存在一些问题,如在对歧义词和未 登录词进行处理时存在一定的瑕疵。在以后的研究中,笔者 会进一步着重处理歧义词和未登录词。

4 结论 参考文献 [1]Kaplan A M, Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media[J].Business Horizons,2010(3):59-68. [2]World Wide Web[EB/OL].http:
//www.springer.com/computer/database+management+%26 +information+retrieval/journal/11280. [3]王明会,丁焰,白良.社会化媒体发展现状及其趋势 分析[J].信息通信技术,2011(5):10.