[发明专利]一种文本检索方法和装置有效
申请号: | 201410101286.2 | 申请日: | 2014-03-18 |
公开(公告)号: | CN103886063B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 杨芳;盛兴;李蔚君;彭珍;赵鹏;贾辉辉;张同乔 | 申请(专利权)人: | 国家电网公司;国家电网公司信息通信分公司;保定市大为计算机软件开发有限公司;国网山东省电力公司济南供电公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检索 方法 装置 | ||
技术领域
本发明涉及文本挖掘技术领域,特别涉及一种文本检索方法和装置。
背景技术
文本检索顾名思义就是从文本抽取出有价值的信息,将有价值的信息在电子设备的显示屏上显示给用户。目前文本检索原理是对文本分词后直接进行匹配搜索,通用的两种文本检索方式是:为用户提供分类浏览的查询方式或基于关键词的全文检索方式。
上述两种检索方式都是通过对用户输入的文本分词后得到关键词匹配,但是这种单纯的文本分词方式得到的关键词包括无效词,其中所述无效词为在多数文本中出现且会导致检索结果增大的词语。例如用户输入的文本为:一种基于图像识别方法的图像匹配装置,在经过分词后得到的关键词包括:一种、基于、图像识别、方法、图像匹配和装置,而一种、基于、方法和装置在很多文本中都会出现,这样在采用or组合关键词进行检索时,会使得检索结果增多,并且有部分检索结果与用户想要的结果不同。
从上述技术方案可以看出,现有文本分词不能充分理解用户的检索需求,因此在对文本分词时提取出的关键词可能是无效词,且不是无效词的关键词也可能不符合用户的检索需求,进而在基于这些关键词的全文模糊检索时会使得检索结果中存在不符合检索需求的文本,且检索准确度降低。
发明内容
本发明所要解决的技术问题是提供一种文本检索方法和装置,用以依据用户的检索需求得到关键词,从而使得检索结果比较符合检索需求。技术方案如下:
本发明实施例提供了一种文本检索方法,包括:
获取用户输入的原始文本;
从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
依据用户的检索需求,对所述检索词进行过滤,得到关键词;
对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
优选地,从所述原始文本中获取检索词,包括:
使用中文分词方法对所述原始文本进行分词,得到一级检索词;
依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
优选地,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,得到关键词之前,所述方法还包括:
对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
优选地,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
优选地,对所述关键词进行组合,包括:
任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;
对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
本发明实施例还提供一种文本检索装置,包括:
第一获取单元,用于获取用户输入的原始文本;
第二获取单元,用于从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
过滤单元,用于依据用户的检索需求,对所述检索词进行过滤,得到关键词;
组合单元,用于对所述关键词进行组合;
检索单元,用于依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国家电网公司信息通信分公司;保定市大为计算机软件开发有限公司;国网山东省电力公司济南供电公司,未经国家电网公司;国家电网公司信息通信分公司;保定市大为计算机软件开发有限公司;国网山东省电力公司济南供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410101286.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种制备高强度复合塑料薄膜的方法
- 下一篇:泡沫陶瓷浸渍成型机