[发明专利]实体识别模型热更新方法及其装置、设备、介质、产品在审
申请号: | 202111539471.6 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114186013A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 郑彦 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/216;G06F40/295;G06F16/2458;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州利能知识产权代理事务所(普通合伙) 44673 | 代理人: | 王增鑫 |
地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 模型 更新 方法 及其 装置 设备 介质 产品 | ||
1.一种实体识别模型热更新方法,其特征在于,包括如下步骤:
将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;
将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;
计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;
根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。
2.根据权利要求1所述的实体识别模型热更新方法,其特征在于,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果,包括如下步骤:
将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;
将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;
将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;
将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。
3.根据权利要求1所述的实体识别模型热更新方法,其特征在于,计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本,包括如下步骤:
调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;
计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;
比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。
4.根据权利要求1所述的实体识别模型热更新方法,其特征在于,根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中,包括如下步骤:
获取所述目标被识别文本及其相应的目标命名实体的许可信息;
根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本;
根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中。
5.根据权利要求1至4中任意一项所述的实体识别模型热更新方法,其特征在于,根据许可信息将所述目标被识别文本添加至数据集中构成迭代训练所述实体识别模型的数据样本、将所述目标命名实体作为标准词添加至所述标准词库中的步骤之后,包括如下步骤:
响应定时任务或用户指令,调用所述数据集中的所述新增数据样本对所述实体识别模型实施迭代训练;
在完成该实体识别模型的迭代训练后,重启该实体识别模型用于为被识别文本识别命名实体。
6.根据权利要求1至4中任意一项所述的实体识别模型热更新方法,其特征在于,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
构造包含所述识别结果中的命名实体的搜索表达式;
调用商品搜索引擎从商品数据库中获取与该搜索表达式相匹配的商品对象;
将所述商品对象构造为商品列表,将该商品列表推送至提供所述被识别文本的搜索请求方。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111539471.6/1.html,转载请声明来源钻瓜专利网。