[发明专利]实体识别模型的训练方法及实体识别方法、相关装置在审
申请号: | 201911379640.7 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111209396A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 熊为星;马力;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/295 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李莉 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 模型 训练 方法 相关 装置 | ||
本发明提供一种实体识别模型的训练方法、实体识别方法及相关装置,所述实体识别模型的训练方法包括:获取训练文本,并将训练文本与数据库进行匹配,得到多个匹配结果;对多个匹配结果进行处理,得到多个匹配结果对应的特征向量;对训练文本进行处理,得到训练文本对应每个字的字向量;根据特征向量及字向量对初始实体识别模型进行训练,以得到实体识别模型。以此训练所得到的实体识别模型能够提高实体识别的准确性。
技术领域
本发明涉及智能装置技术领域,尤其涉及一种实体识别模型的训练方法及实体识别方法、相关装置。
背景技术
一直以来命名实体识别都是信息抽取中的重要一环,也是自然语言处理中的一项基础任务,应用范围广泛。条件随机场(CRF)是命名实体识别的主流模型,随着深度学习的发展,使用深度学习模型(BiLSTM)加上CRF在命名实体识别中变得更加普遍,尽管BiLSTM-CRF成为了基于深度学习的实体识别方法的最主流模型,但在语义理解的过程中仍旧精度不够理想,对于部分词槽的信息准确率依然偏低,导致对话系统中无法完整理解用户的表述。
发明内容
本发明主要提供一种实体识别模型的训练方法及实体识别方法、相关装置,用于提高实体识别的准确率。
为解决上述技术问题,本发明提供的第一个技术方案为:提供一种实体识别模型的训练方法,包括:获取训练文本,并将所述训练文本与数据库进行匹配,得到多个匹配结果;对多个所述匹配结果进行处理,得到多个所述匹配结果对应的特征向量;对所述训练文本进行处理,得到所述训练文本对应每个字的字向量;根据所述特征向量及所述字向量对初始实体识别模型进行训练,以得到所述实体识别模型。
其中,所述对多个所述匹配结果进行处理,得到多个所述匹配结果对应的特征向量的步骤包括:对多个所述匹配结果进行处理,得到多个所述匹配结果对应的one-hot向量;所述根据所述特征向量及所述字向量对初始实体识别模型进行训练,以得到所述实体识别模型的步骤包括:将多个所述匹配结果对应的所述one-hot向量进行拼接,以得到one-hot向量矩阵;将所述one-hot向量矩阵与所述字向量进行相加,得到相加后的结果;将所述相加后的结果输入至初始实体模型中进行训练,以得到所述实体识别模型。
为解决上述技术问题,本发明提供的第二个技术方案为:提供一种实体识别模型的实体识别方法,包括:获取待识别文本,以对所述待识别文本进行实体识别,以得到若干个识别结果;输出若干个所述识别结果对应的标签序列,对所述标签序列进行概率计算;输出概率最高的所述标签序列作为所述待识别文本对应的准确识别结果。
其中,所述实体识别模型为通过上述任一项所述的训练方法所得。
其中,所述输出概率最高的所述标签序列作为所述待识别文本对应的准确识别结果的步骤还包括:对所述概率最高的所述标签序列进行验证,判断所述概率最高的所述标签序列是否为所述待识别文本对应的准确识别结果。
其中,所述对所述概率最高的所述标签序列进行验证,判断所述概率最高的所述标签序列是否为所述待识别文本对应的准确识别结果的步骤包括:判断所述概率最高的所述标签序列中是否具有封闭词槽;若具有所述封闭词槽,则提取所述若干个识别结果中的所有封闭词槽以作为封闭词槽库;将所述待识别文本与所述封闭词槽库进行匹配,以获得到与所述待识别文本匹配的封闭词槽,并对所述概率最高的所述标签序列进行更新,以获取到更新后的标签序列并作为所述待识别文本的最佳匹配结果输出。
其中,所述输出若干个所述识别结果对应的标签序列,对所述标签序列进行概率计算的步骤包括:计算获取各个所述标签序列对应的每个位置的概率;计算获取各个所述标签序列对应的每个位置的转移概率;根据所述每个位置的概率及所述每个位置的转移概率得到所述标签序列的概率。
其中,所述根据所述每个位置的概率及所述每个位置的转移概率得到所述标签序列的概率的步骤包括:
通过如下公式计算所述标签序列的概率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911379640.7/2.html,转载请声明来源钻瓜专利网。