[发明专利]一种文本处理方法及装置有效
申请号: | 201710258679.8 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107329964B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 王凯;毛仁歆 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/332;G06F40/289 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 吴绍群 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
本申请实施例公开了一种文本处理方法及装置,该方法包括:对用户输入的搜索文本进行分割,生成分割文本,根据预先建立的自定义文本库,对所述分割文本进行文本校正,生成校正文本,在预先建立的同义文本库中,确定所述校正文本所对应的目标同义文本,组合所述目标同义文本,生成对应于所述搜索文本的同义搜索文本,其中,所述自定义文本库及同义文本库中的文本,至少包括短语。通过本方法,可以实现在短语粒度上的同义扩展,并且,仅选定各校正文本所对应的目标同义文本,有效减少了扩展出的同义文本的数量,进一步减少了生成同义搜索文本的数量及耗时。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法及装置。
背景技术
目前,用户在进行信息搜索时,用户所输入的搜索文本(如:搜索语句、搜索词等)将影响搜索结果的准确性。
实际应用场景下,用户在进行搜索时,其输入的搜索文本中可能包含口语化或非标准的词或短语。为了提升搜索结果的准确性,相应的应用或搜索引擎会采用同义词扩展的处理方式,优化用户所输入的搜索文本。具体而言,针对搜索文本中包含的搜索词,在同义词库中查找相应的同义词,并将查找到的同义词替换该搜索词。进而,基于进行了同义词替换后的搜索文本进行搜索,能够在一定程度上提升搜索结果的准确性。
但是,对于现有的上述方式而言,存在一定的缺陷,具体而言:
现有的同义词扩展方式仅限于词粒度的扩展。而在实际应用中,用户所输入的搜索文本中可能还包含短语,使用词粒度扩展的方式并不能针对短语进行扩展,反而可能将短语拆分成多个搜索词进行同义词替换的操作,导致短语被转换为杂乱的同义词的组合,影响搜索的准确性。
此外,如果搜索词所对应的同义词较多,那么,所生成的同义搜索文本的数量也较多,而符合所要搜索的目标文本仅为少数,显然,过多的同义搜索文本将增加搜索过程的耗时。
发明内容
本申请实施例提供一种文本处理方法及装置,用以解决现有技术中同义文本扩展存在一定缺陷的问题。
本申请实施例提供的一种文本处理方法,包括:
对用户输入的搜索文本进行分割,生成分割文本;
根据预先建立的自定义文本库,对所述分割文本进行文本校正,生成校正文本;
在预先建立的同义文本库中,确定所述校正文本所对应的目标同义文本;
组合所述目标同义文本,生成对应于所述搜索文本的同义搜索文本;
其中,所述自定义文本库及同义文本库中的文本,至少包括短语。
本申请实施例提供的一种文本处理装置,包括:
文本分割模块,对用户输入的搜索文本进行分割,生成分割文本;
文本校正模块,根据预先建立的自定义文本库,对所述分割文本进行文本校正,生成校正文本;
扩展模块,在预先建立的同义文本库中,确定所述校正文本所对应的目标同义文本;
组合模块,组合所述目标同义文本,生成对应于所述搜索文本的同义搜索文本;
其中,所述自定义文本库及同义文本库中的文本,至少包括短语。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710258679.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双组元液体推进剂液面高度测控装置
- 下一篇:机器数据存储方法及系统