[发明专利]改进的小世界模型提取文本特征的算法在审
申请号: | 201710269922.6 | 申请日: | 2017-04-23 |
公开(公告)号: | CN107423281A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 金平艳 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 世界 模型 提取 文本 特征 算法 | ||
技术领域
本发明涉及语义网络技术领域,具体涉及一种改进的小世界模型提取文本特征的算法。
背景技术
在信息爆炸时代,信息量呈几何级数增长。面对海量文本,如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。文本特征作为文章主题和作者思想的体现能够有效解决该问题。然而,网络上的绝大部分文章并未提供关键词,如果对这些文本采取人工标引的方法进行关键词标注,不仅费时费力、效率低下,而且主观随意性比较大。
目前常用的文本特征提取方法,包括词频-反文档频率方法—TF-IDF、信息增益方法、互信息等方法;TF-IDF的简单结构并不能有效地反映词汇或短语的重要程度和特征值的分布情况,所以TF-IDF的精度并不是很高。信息增益方法只适合用来提取一个类别的文本特征,而无法用于提取多个类别的文本特征。互信息方法考虑了类别出现概率与集合出现概率之比,那么会造成一个缺陷,那就是类别集合中文本的数量差异会很大程度上影响文本特征提取的准确性。文本特征指的是最能代表文本主旨的词汇集合,文本特征不仅可以很好的概括文本主要内容和主旨,而且可以降低文本处理的复杂程度。然而目前常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做的贡献、忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。为了满足上述需求,本发明提供了一种改进的小世界模型提取文本特征的算法。
发明内容
针对于常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的不足、关键词语义和结构信息的缺失问题,本发明提供了一种改进的小世界模型提取文本特征的算法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化文本语料库模块,对文本W的进行中文分词预处理。
步骤2:给步骤1中分词结果的文本进行位置、词性加权处理。
步骤3:得到的文本词汇集合依据其语义相关度R(c1,c2)会出现聚合现象,构建词汇语义网络模型图。
步骤4:根据图中词汇在整个语义网络图中的重要度构造两函数参数w1(ci)、w2(ci),即可得词汇在整个文本中的地位和贡献度。
步骤5:根据步骤4中的两参数设置合适阈值提取文本中的特征词汇,即为代表文本主旨的特征词汇向量。
本发明有益效果是:
1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。
2、克服了信息增益方法只适合用来提取一个类别的文本特征的不足。
3、此算法具有更大的利用价值。
4、此方法精确地计算了特征词汇中不同词汇对文本思想的贡献度。
5、计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度。
6、为后续的文本相似度与文本聚类技术提供良好的理论基础。
7、此方法着重在语义分析的角度来提取文本中的特征词汇,更符合人们的经验值。
8、融合了统计学方法,又综合了关键词在文本中的贡献度,构建的词汇语义网络模型图准确度更高。
9、在词汇语义网络模型中提取关键词,既考虑了邻近节点的密度,又考虑邻近节点边的权重,关键词的提取更好的符合经验值。
附图说明
图1改进的小世界模型提取文本特征的算法的结构流程图
图2中文文本预处理过程流程图
图3 n元语法分词算法图解
图4词汇语义网络模型图
具体实施方式
为了解决常用的文本特征提取方法没有考虑特征词汇的语义地位和其对文本主旨表达所做贡献的问题、关键词语义和结构信息的缺失问题,结合图1-图4对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化文本语料库模块,对文本W的进行中文分词预处理,其具体描述过程如下:
综合分词和删除停用词技术,中文文本预处理过程流程图如图2。。
这里分词方法利用一种基于信息论中文自动分词算法,其具体分词和去停用词步骤如下:
步骤1.1:利用停用表对文本进行去停用词处理。
步骤1.2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710269922.6/2.html,转载请声明来源钻瓜专利网。