[发明专利]文本处理方法及装置在审
| 申请号: | 202110137335.8 | 申请日: | 2021-02-01 |
| 公开(公告)号: | CN112784590A | 公开(公告)日: | 2021-05-11 |
| 发明(设计)人: | 侯依宁;汪洲;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F40/30 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
| 地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,包括:
获取问题文本,并识别所述问题文本中的问题实体;
在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;
基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;
将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述识别所述问题文本中的问题实体,包括:
基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体;
其中,所述预设的识别策略包括模型识别策略、字典识别策略和/或规则识别策略。
3.根据权利要求2所述的文本处理方法,其特征在于,所述基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体,包括:
将所述问题文本输入至实体识别模型进行实体识别,获得所述问题文本对应的第一问题实体;
基于所述知识库对应的实体词典对所述问题文本进行实体识别,获得所述问题文本对应的第二问题实体;
通过正则匹配规则对所述问题文本进行实体识别,获得所述问题文本对应的第三问题实体;
根据所述第一问题实体、所述第二问题实体和所述第三问题实体确定所述问题实体。
4.根据权利要求1所述的文本处理方法,其特征在于,所述在预设的知识库中链接所述问题实体对应的多个候选实体,包括:
基于所述问题实体查询所述知识库对应的实体映射表,并根据查询结果确定所述问题实体对应的多个初始候选实体;
根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体。
5.根据权利要求4所述的文本处理方法,其特征在于,所述根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体,包括:
根据所述知识库确定所述多个初始候选实体中各个初始候选实体分别对应的一度关系;
将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值;
基于所述相似度分值对各个初始候选实体进行排序,获得实体排序列表;
按照优先级顺序在所述实体排序列表中筛选出设定数量的初始候选实体作为所述多个候选实体。
6.根据权利要求5所述的文本处理方法,其特征在于,所述将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至计算模块,计算各个初始候选实体分别对应的相似度分值,包括:
将所述多个初始候选实体、所述问题文本以及各个初始候选实体对应的一度关系输入至所述计算模块;
通过对各个初始候选实体与各个初始候选实体对应的一度关系进行拼接,并将拼接结果和所述问题文本输入至所述计算模块中的文本处理模型进行文本相似度计算,获得各个初始候选实体分别对应的文本相似度分值;
将所述问题文本和各个初始候选实体输入至所述计算模块中的特征处理模型进行特征相似度计算,获得各个初始候选实体分别对应的特征相似度分值;
根据所述文本相似度分值和所述特征相似度分值确定各个初始候选实体分别对应的相似度分值,并通过所述计算模块输出。
7.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述问题实体识别所述问题文本的问题类型,包括:
识别所述问题实体的实体数量,并根据所述实体数量确定所述问题文本对应的实体问题类型;
将所述问题文本输入至关系识别模型进行处理,获得所述问题文本对应的关系问题类型;
根据所述实体问题类型和所述关系问题类型确定所述问题类型;
其中,所述问题类型包括下述至少一项:单实体一度问题类型,单实体二度问题类型,多实体一度问题类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110137335.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:加密投票方法、计算机设备和存储介质
- 下一篇:一种造雪机及其控制方法





