[发明专利]一种实体识别方法及相关设备有效
申请号: | 201910158600.3 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109902303B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 林浚玮;邵轶男;王巨宏;陈伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司;哈尔滨工业大学(深圳) |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/901;G06N3/0442;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 方法 相关 设备 | ||
1.一种实体识别方法,其特征在于,所述方法包括:
获取多条标注语料,所述多条标注语料中每条标注语料携带标注信息;
按照预设的实体标注规则建立超图模型,所述超图模型包括多个父节点,所述多个父节点包括第一父节点和第二父节点,所述多个父节点中的每个父节点对应多种类型的子节点,所述预设的实体标注规则包括:连接所述第一父节点的第一种类型的子节点与所述第一父节点的第二种类型的子节点;以及连接所述第一父节点的第二种类型的子节点与所述第一父节点的第三种类型的子节点和第六种类型的子节点中的至少一个;以及连接所述第一父节点的第三种类型的子节点与所述第二父节点的第四种类型的子节点和第五种类型的子节点中的至少一个;以及连接所述第一父节点的第四种类型的子节点与所述第二父节点的第四种类型的子节点和第五种类型的子节点中的至少一个;以及连接所述第一父节点的第六种类型的子节点和第五种类型的子节点与所述第一父节点的第七种类型的子节点;以及连接所述第一父节点和所述第二父节点;
根据所述标注信息和所述实体标注规则,确定所述每条标注语料对应的标注路径图,所述标注路径图由所述标注语料中的多个字或单词的标注路径组合构成;
根据所述超图模型和预设的神经网络模型,建立待训练模型,所述待训练模型包括多个训练参数;所述超图模型包括所述每条标注语料的多条标注路径;所述标注路径图包括所述多条标注路径中的目标标注路径;
根据所述神经网络模型确定所述多条标注路径中每条标注路径的第一特征分数、以及根据所述超图模型确定所述每条标注路径的第二特征分数;
将所述第一特征分数和所述第二特征分数的和作为所述每条标注路径的得分;
根据所述每条标注路径的得分,调节所述多个训练参数以使所述目标标注路径的得分为所述多条标注路径中的最高得分;
将所述最高得分对应的多个训练参数作为所述待训练模型的设置参数,得到实体识别模型;
根据所述实体识别模型,识别输入语料中的至少一个命名实体。
2.如权利要求1所述的方法,其特征在于,所述超图模型对应至少一种第一语料特征;所述神经网络模型对应至少一种第二语料特征;
所述根据所述神经网络模型确定所述多条标注路径中每条标注路径的第一特征分数、以及根据所述超图模型确定所述每条标注路径的第二特征分数包括:
根据所述至少一种第一语料特征中每种第一语料特征,确定所述每条标注路径的第一特征分量值、以及根据所述至少一种第二语料特征中每种第二语料特征,确定所述每条标注路径的第二特征分量值;
将所述第一特征分量值的和作为所述第一特征分数、以及将所述第二特征分量值的和作为所述第二特征分数。
3.如权利要求2所述的方法,其特征在于,所述至少一种第二语料特征包括状态转移特征、单词特征、语言模式特征、词性标签特征、词袋特征和单词模式特征中的至少一项。
4.如权利要求1所述的方法,其特征在于,所述根据所述实体识别模型,识别输入语料中的至少一个命名实体包括:
将所述输入语料输入所述实体识别模型,得到所述输入语料的标注路径;
根据所述标注路径,确定所述输入语料对应的标注标签;
根据所述标注标签,识别所述至少一个命名实体。
5.如权利要求1-4任一项所述的方法,其特征在于,所述根据所述实体识别模型,识别输入语料中的至少一个命名实体之后,还包括:
接收用户输入的选择指令,所述选择指令携带实体类型信息;
从所述至少一个命名实体中抽取与所述实体类型信息相匹配的命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;哈尔滨工业大学(深圳),未经腾讯科技(深圳)有限公司;哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910158600.3/1.html,转载请声明来源钻瓜专利网。