[发明专利]提取业务领域的关键词的方法和装置在审
申请号: | 201611106707.6 | 申请日: | 2016-12-05 |
公开(公告)号: | CN108153781A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 贺达 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 业务领域 文本 词频 方法和装置 逆文档频率 程度指标 词表 筛选 结果确定 预定条件 删除 维护 | ||
本发明公开了一种提取业务领域的关键词的方法和装置。其中,该方法包括:获取业务领域的至少一个文本;计算每个文本中所包含的每个关键词的词频和逆文档频率;根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标;根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词;根据筛选后的结果确定业务领域的关键词。本发明解决了现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。
技术领域
本发明涉及信息检索领域,具体而言,涉及一种提取业务领域的关键词的方法和装置。
背景技术
互联网上存在着大量的有关各个领域行业的知识文本信息,例如汽车行业的新闻报道、论坛车型讨论、旅游行业的广告新闻、旅游攻略等消息,由于消息的数据量的庞大,仅通过人工直接从文本中提取出关键的信息是很难做到的,因此,如何快速、有效地归纳总结出某个领域或者话题下的文本的关键信息成为了信息浏览者需要面对的一个重要问题。
参考于我们平时浏览论文等文献,在文献的首段一般会有关键词信息用于标示这篇文献主要谈及的内容和要点,方便浏览者检索并快速获取文章的大致内容信息。因此,通过关键词来归纳单篇文章的关键信息是一个较为常见和可行的方法。
不同于论文等规范的文献资料,从互联网中获取的文本信息通常没有直接给出文本的关键词信息,需要通过人工或机器学习来对文本标注上关键词。目前最常见和通用的关键词提取方法是TF_IDF算法。
但是在特定的业务领域使用通用的TF_IDF算法提取得到的关键词往往会包含这个特定领域的一些关键词,例如在旅游相关的文本库中,很容易提取出“旅游”、“度假”、“景点”等词,但在分析该领域文本关键信息时,这些提取出来的关键词是很常见的词,因此并不能准确地反映在旅游这个业务领域中该文章的信息。在该领域,阅读者可能更加关心文本提到去哪旅游以及旅游评价如何,而不是单纯的“旅游”、“度假”、“景点”等这种笼统的概念词。
现有技术中主要是通过获取特定业务领域的文本集合,并对该文本集合进行分词处理,然后再使用通用文档库进行TF_IDF算法得到每篇文档的关键词信息,并对特定领域文本集合中的关键词进行聚合,得到关键词与包含该关键词的文档数之间的关系,然后人工标示出上述关系列表在该业务领域中不属于业务核心词或者该领域中常见词的关键词,并将这些关键词加入到应删除词词表,从而得到新的每篇文档的关键词信息,最后根据新的每篇文档的关键词信息得到该业务领域的热门关键词信息。上述方案存在如下缺点:
①需要人工对首次得到的关键词进行筛选,筛选出该领域内的常见词,但上述筛选过程依赖于个人对业务知识的理解,不同的人得到的结果可能不一样;
②随着业务领域的文本集合中文本数量的增加,应排除词词表存在着效果下降的问题,需要人工定期重新计算更新应排除词表。
针对上述现有技术中需要人工维护应删除词词表以及判断关键词不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种提取业务领域的关键词的方法和装置,以至少解决现有技术中需要人工维护应删除词词表以及判断关键词不准确的技术问题。
根据本发明实施例的一个方面,提供了一种提取业务领域的关键词的方法,包括:获取业务领域的至少一个文本;计算每个文本中所包含的每个关键词的词频和逆文档频率;根据每个关键词的词频和逆文档频率,确定文本中所包含的每个关键词的关键程度指标;根据文本中所包含的每个关键词的关键程度指标,从文本中筛选得到满足预定条件的关键词;根据筛选后的结果确定业务领域的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611106707.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人机对话装置及其实现人机对话的方法
- 下一篇:文件存储装置及方法