[发明专利]主题特征文本关键词提取方法在审
| 申请号: | 201810516408.2 | 申请日: | 2018-05-25 |
| 公开(公告)号: | CN108763213A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 彭易锦;代翔;黄细凤;王侃;杨拓 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
| 地址: | 610036 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种主题特征文本关键词提取方法,利用本发明可得到优于传统TF‑IDF方法的文本关键词提取结果。本发明通过下述技术方案予以实现:训练阶段对训练文本进行分词、去停用词、词性过滤等预处理,统计词语的逆文档频率,同时利用主题模型方法学习得到词语的主题概率矩阵并进行归一化处理,根据词语主题概率矩阵计算词语的主题分布熵,结合逆文档频率和主题分布熵计算词语的全局权值,全局权值计算结果输出到测试阶段,对测试文本进行预处理后,统计测试文本中的词语的归一化词频,将归一化词频与训练阶段得到的全局权值计算结果相结合,计算词语的综合得分并进行排序,以得分排序中得分最高的若干个词语作为当前测试文本的自动关键词提取结果。 | ||
| 搜索关键词: | 词语 文本关键词 预处理 词频 逆文档频率 测试文本 概率矩阵 权值计算 训练阶段 主题分布 主题特征 归一化 排序 全局 关键词提取 归一化处理 测试阶段 统计测试 训练文本 主题模型 停用词 词性 分词 过滤 文本 输出 统计 学习 | ||
【主权项】:
1.一种主题特征文本关键词提取方法,其特征在于包括如下步骤:以文本作为信息的载体,根据主题分布特征将文本关键词提取分为训练阶段和测试阶段,以训练阶段的训练文本预处理模块、逆文档频率计算模块、主题模型学习模块、全局权值计算模块和测试阶段的测试文本预处理模块、局部权值计算模块、综合得分计算及排序模块组成文本关键词提取算法模型;其中,训练文本预处理模块对输入的训练文本数据依次进行中文分词、去停用词和词性过滤处理,然后将预处理后的训练文本数据输入到主题模型学习模块和逆文档频率计算模块;主题模型学习模块针对预处理后的训练文本数据,利用主题模型方法无监督地自动学习词语的主题分布特征,通过学习训练得到能反映词语在不同主题上概率分布特性的词语‑主题矩阵;逆文档频率计算模块利用预处理后的训练文本数据,针对每个词语,统计训练文本中包含了每个词语的文档数量和词语的逆文档频率,计算训练文本总数量与包含所述词语的文档数量之间的比值,以比值的对数作为逆文档频率;全局权值计算模块根据逆文档频率计算结果和主题模型学习模块获得的词语‑主题矩阵,根据词语主题概率矩阵计算词语的主题分布熵和每个词语的主题分布熵,将主题分布熵的倒数与词语对应的逆文档频率相乘,得到每个词语的全局权值计算结果,全局权值计算结果送入测试阶段中的综合得分计算及排序模块;综合得分计算及排序模块根据训练阶段得到的全局权值和局部权值计算模块得到的局部权值,将每个词语对应的全局权值和局部权值相乘,计算每个词语的综合得分并进行排序,以得分排序中得分最高的若干个词语作为当前测试文本的关键词提取结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810516408.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种地址信息提取方法及装置
- 下一篇:一种针对商品评论的情感词典自动构建方法





