[发明专利]文本搜索方法、装置、设备及存储介质在审
申请号: | 202310693877.2 | 申请日: | 2023-06-12 |
公开(公告)号: | CN116662513A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 黄逸嘉;赵晓辉 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/279;G06F16/33;G06F40/30;G06N3/0442;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 郭梦霞 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 搜索 方法 装置 设备 存储 介质 | ||
1.一种文本搜索方法,其特征在于,所述方法包括:
获取待搜索文本,对所述待搜索文本进行字符归一化,得到归一化文本;
对所述归一化文本进行实体识别,得到识别实体及每个识别实体对应的实体类型;
基于所述实体类型对所述识别实体进行词义增广,得到所述识别实体的增广实体;
基于所述识别实体对所述归一化文本进行切分,得到切分文本;
对所述切分文本进行分词,并对分词结果进行词义归一化,得到所述切分文本对应的目标分词文本;
将所述目标分词文本与所述增广实体进行组合,得到预处理文本;
对所述预处理文本进行文本搜索,得到搜索结果。
2.如权利要求1所述的文本搜索方法,其特征在于,所述对所述待搜索文本进行字符归一化,得到归一化文本,包括:
将所述待搜索文本中的第一个字符之前的格式进行删除,得到初始文本;
对所述初始文本进行标点符号归一化,得到第一归一化文本;
对所述第一归一化文本进行字符格式归一化,得到第二归一化文本;
对所述第二归一化文本进行符号格式归一化,得到所述归一化文本。
3.如权利要求1所述的文本搜索方法,其特征在于,所述对所述归一化文本进行实体识别,得到识别实体及每个识别实体对应的实体类型,包括:
对所述归一化文本进行分词,得到多个分词词语,并将所述分词词语转化为向量,得到分词词向量;
利用BiLSTM模型对所述分词词向量进行特征提取,并利用预构建的分类函数对提取的特征进行识别分类,得到预设字段类型对应的实体概率;
将所述预设字段类型对应的实体概率大于预设实体阈值的分词词向量对应的分词词语,确定为该预设字段类型的实体词语;
利用序列化标注算法计算每个预设字段类型对应的所述实体词语的顺序系数,根据所述顺序系数将预设字段类型对应的所有所述实体词语进行组合,得到该预设字段类型对应的识别实体;
将所述识别实体对应的预设字段类型确定为该识别实体对应的实体类型。
4.如权利要求1中所述的文本搜索方法,其特征在于,所述基于所述实体类型对所述识别实体进行词义增广,得到所述识别实体的增广实体,包括:
在预设的实体数据库中筛选所述实体类型对应的实体,得到该实体类型的实体集;
基于所述实体类型对筛选每个所述识别实体对应的实体集,得到所述识别实体对应目标实体集;
在所述识别实体对应目标实体集筛选该识别实体相似的实体,得到该识别实体对应的相似实体;
利用预设的连接符号将所述识别实体与该识别实体对应的所有相似实体连接,得到该识别实体对应的增广实体。
5.如权利要求1至4中任意一项所述的文本搜索方法,其特征在于,所述对所述切分文本进行分词,并对分词结果进行词义归一化,得到所述切分文本对应的目标分词文本,包括:
利用预设的分词算法将所述切分文本进行分词,得到切分词语;
汇总每个所述切分文本对应的所有切分词语,得到该切分文本的切分词语集;
对所述切分文本的切分词语集进行同义词删除,得到该切分文本的目标切分词语集;
将所述切分文本的目标切分词语集中的所有切分词语按照每个切分词语在所述切分文本中的先后顺序进行组合,得到所述目标分词文本。
6.如权利要求5中所述的文本搜索方法,其特征在于,所述将所述切分文本的目标切分词语集中的所有切分词语按照每个切分词语在所述切分文本中的先后顺序进行组合,得到所述目标分词文本,包括:
判断所述目标切分词语集中的切分词语的个数是否为1;
当所述目标切分词语集中的切分词语的个数为1,将所述目标切分词语集中的切分词语确定为目标分词文本;
当所述目标切分词语集中的切分词语的个数不为1,将所述目标切分词语集中的切分词语所有切分词语按照每个切分词语在所述切分文本中的先后顺序,利用预设连接符号进行连接,得到所述目标分词文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310693877.2/1.html,转载请声明来源钻瓜专利网。