首页 >> 知识 >> 词频分析研究的现状、方法及工具,你值得拥有

词频分析研究的现状、方法及工具,你值得拥有

今天主要跟大家介绍词频分析研究现状、方法及工具。

 

词频分析是什么呢?词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。

 

词频分析使用现状如何?以中国知网全文数据库(期刊)为检索对象,以“篇名”为检索条件,在617篇论文题目中出现“词频”二字,其中206篇核心期刊;如果以“主题”为检索条件,则有3423条文献以“词频”为主题开展了研究,其中1722篇在核心期刊发表。

 

 

 

由图可知,将“词频”分析工具来队研究对象进行分析,一直都处于增长态势。说明有越多越多的论文开始基于词频分析来开展研究工作。

 

由上图可知,以“词频”为主题的研究涉及多个学科,其中图书情报与数字图书馆、计算机软件及计算机应用这两个学科方向对“词频”主题的研究较为关注;中国语言文学、外国语言文学、心理学、新闻与传媒、互联网技术、高等教育、教育理论与教育管理等学科方向次之;职业教育、管理学、中医学等其他学科零星涉及“词频”相关研究主题。

 

要彻底了解词频分析,必须先了解次词频统计方法。TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。感兴趣的小伙伴可以通过百度百科了解该方式的原理及优缺点。http://baike.baidu.com/view/920592.htm

 

目前,有很多分词软件默认使用TF-IDF技术,后文介绍的几款软件在一定程度上应用了该技术。

 

SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。它采用的是采集的词频词典,并辅以一定的专有名称、人名、地名、数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90-95%之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用,目前,该技术主要用于网站全文索引领域。网站用的多些。

 

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),是中国科学院计算技术研究所在多年研究工作积累的基础上,研制出的汉语词法分析系统。该系统主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时还支持用户词典。感觉很牛,不好用。

 

TF-IDF其实一种算法;而SCWS与ICTCLAS是两种中文词频分析方法。很多词频工具软件,都是基于TF-IDF算法来工作的。接下来蜜桃成人网站入口简单介绍几款软件的使用。

 

MyZiCiFreq字词频率统计工具,这个工具比较简单。

该软件可以把文章中出现的每个字或者出现的所有的词的次数和百分比都统计出来,支持导出。语文教师和汉语言文学类研究者,可以使用该工具对学生作文或某些专著进行分析。just so so。MyZiCiFreq字词频率统计工具不需要注册,不需要安装,使用起来非常方便,它使用的分词算法在网络上没有搜到相关介绍,不建议在学术论文的写作过程中使用该软件。没事玩玩就行。

ROST WordParser,是由武汉大学沈阳博士开发,比较容易上手。

 

 

首先,打开待分析的文档;然后,选择分词按钮,会自动对文档进行分词;之后,再打开词频分析窗口;最后,点词频分析就可以统计词频啦。但是这最后一步会报一个错误,这个错误主要由于写入文件引起的,程序在设计的时候保存路径有问题,少了一个“”,导致生成的词频统计数据文件没有办法保存,不过这个并不影响使用。点击OK按钮之后,可以直接复制词频统计的数据,然后粘贴到Excel中直接使用。

 

该软件是内测版本,后期被整合到ROST CM6中。目前,不论ROST WordParser,还是ROST CM6都已经停止更新。虽然这两款软件在分词的准确性方面受到学术界的质疑,但在一些研究论文中却依然可以看到这两款软件的身影。

 

关于这款软件能否在学术论文中使用,个人认为要看研究的领域,如果在计算机研究领域或者在图书情报研究领域使用这两款软件来写论文,可能会受到质疑,但是在教育类、语言类、文学类等对分词准确性要求不高,或者对发现新词没有过高要求的情况下,还是可以尝试使用这两款软件,特别是ROST CM6在不少学术论文中被引用。

 

 

刚发的这个是Rost CM6截图。利用ROST CM6 进行词频分词之前,首先,要对文

网站地图