[发明专利]从非结构化文本中提取特征词的方法及系统、计算机程序在审
申请号: | 201810120746.4 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108038109A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 孙宏亮;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06K9/62 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机软件技术领域,公开了一种从非结构化文本中提取特征词的方法及系统、计算机程序,对于每一段文本,首先通过隐马尔科夫模型将句子拆分成单词,使用word2vec将单词映射成向量;通过k‑means算法,将文本中出现的所有单词聚类;一个词属于Top K类,则不是关键词,否则是关键词。实验结果表明,本发明提出的特征词提取方法,在识别率和误识别率方面明显优于TFIDF。结果显示,TF‑IDF识别率为34.13%,误识别率为82.9%;识别率为81.65%,误识别率为40.25%,识别率大幅提升了47.52%的同时误识别率降低了42.65%。 | ||
搜索关键词: | 结构 文本 提取 特征 方法 系统 计算机 程序 | ||
【主权项】:
1.一种从非结构化文本中提取特征词的方法,其特征在于,所述从非结构化文本中提取特征词的方法对于每一段文本,首先通过隐马尔科夫模型将句子拆分成单词,使用word2vec将单词映射成向量;通过k-means算法,将文本中出现的所有单词聚类;一个词属于Top K类,则不是关键词,否则是关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810120746.4/,转载请声明来源钻瓜专利网。
- 上一篇:文件处理方法、移动终端及计算机可读存储介质
- 下一篇:一种矿山溜井系统