[发明专利]文本搜索方法、装置、设备及存储介质在审
申请号: | 202310693877.2 | 申请日: | 2023-06-12 |
公开(公告)号: | CN116662513A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 黄逸嘉;赵晓辉 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/279;G06F16/33;G06F40/30;G06N3/0442;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 郭梦霞 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 搜索 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能领域的自然语言处理技术,揭露一种文本搜索方法,包括:对待搜索文本进行字符归一化,得到归一化文本;对归一化文本进行实体识别,得到识别实体及每个识别实体对应的实体类型;对识别实体进行词义增广,得到识别实体的增广实体;对归一化文本进行切分,得到切分文本;对切分文本进行分词,并对分词结果进行词义归一化,得到切分文本对应的目标分词文本;将目标分词文本与增广实体进行组合,得到预处理文本;对预处理文本进行文本搜索,得到搜索结果。本发明还涉及一种区块链技术,所述识别实体可以存储在区块链节点中。本发明还提出一种文本搜索装置、设备以及介质,可应用于金融领域,提高保险问答社区的文本搜索的效率。
技术领域
本发明涉及人工智能领域的自然语言处理技术,尤其涉及一种文本搜索方法、装置、电子设备及存储介质。
背景技术
在金融保险领域,为了帮助用户解决疑问,有对应的保险问答社区供用户利用文本搜索想要的答案,在保险问答社区搜索系统中,文本预处理是一种非常基础也是最前置的技术,通常来讲会对用户输入的待搜索文本进行预处理以提高搜索整体的效率和效果。
但是现有的文本搜索方法对保险问答社区中的待搜索文本文本的预处理只是对待搜索文本进行格式统一,无法更精简准确的表述待搜索文本,从而导致后续的保险问答社区的文本搜索的效率较低。
发明内容
本发明提供一种文本搜索方法、装置、电子设备及存储介质,其主要目的在于提高了保险问答社区的文本搜索的效率。
获取待搜索文本,对所述待搜索文本进行字符归一化,得到归一化文本;
对所述归一化文本进行实体识别,得到识别实体及每个识别实体对应的实体类型;
基于所述实体类型对所述识别实体进行词义增广,得到所述识别实体的增广实体;
基于所述识别实体对所述归一化文本进行切分,得到切分文本;
对所述切分文本进行分词,并对分词结果进行词义归一化,得到所述切分文本对应的目标分词文本;
将所述目标分词文本与所述增广实体进行组合,得到预处理文本;
对所述预处理文本进行文本搜索,得到搜索结果。
可选地,所述对所述待搜索文本进行字符归一化,得到归一化文本,包括:
将所述待搜索文本中的第一个字符之前的格式进行删除,得到初始文本;
对所述初始文本进行标点符号归一化,得到第一归一化文本;
对所述第一归一化文本进行字符格式归一化,得到第二归一化文本;
对所述第二归一化文本进行符号格式归一化,得到所述归一化文本。
可选地,所述对所述归一化文本进行实体识别,得到识别实体及每个识别实体对应的实体类型,包括:
对所述归一化文本进行分词,得到多个分词词语,并将所述分词词语转化为向量,得到分词词向量;
利用BiLSTM模型对所述分词词向量进行特征提取,并利用预构建的分类函数对提取的特征进行识别分类,得到预设字段类型对应的实体概率;
将所述预设字段类型对应的实体概率大于预设实体阈值的分词词向量对应的分词词语,确定为该预设字段类型的实体词语;
利用序列化标注算法计算每个预设字段类型对应的所述实体词语的顺序系数,根据所述顺序系数将预设字段类型对应的所有所述实体词语进行组合,得到该预设字段类型对应的识别实体;
将所述识别实体对应的预设字段类型确定为该识别实体对应的实体类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310693877.2/2.html,转载请声明来源钻瓜专利网。