[发明专利]基于人工智能的命名实体识别方法、装置及电子设备有效
申请号: | 202010127101.0 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111353310B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 慕福楠;吴晨光;王莉峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/30;G06F16/35;G06F16/36;G06N3/0464;G06N3/0455;G06N3/047;G06N3/048 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王姗姗;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 命名 实体 识别 方法 装置 电子设备 | ||
1.一种基于人工智能的命名实体识别方法,其特征在于,包括:
对待识别文本中的文本元素进行向量转换处理,得到所述文本元素的文本表示;其中,所述文本元素的类型包括字和词;
根据文本跨度遍历所述待识别文本中的文本元素,以将总长度不超过所述文本跨度的文本元素组成候选实体词;
对所述候选实体词中文本元素对应的文本表示进行整合处理,得到所述候选实体词的文本表示;
对所述候选实体词的文本表示进行分类处理,以在候选类别中确定所述候选实体词所属的类别;其中,所述候选类别包括非实体类别和多个命名实体类别;
其中,所述根据文本跨度遍历所述待识别文本中的文本元素,以将总长度不超过所述文本跨度的文本元素组成候选实体词,包括:
执行以下任意一种处理:
对所述待识别文本中的文本元素进行第一层次遍历循环,其中,所述第一层次遍历循环包括多次第一层次遍历;将每个所述第一层次遍历得到的文本元素确定为起点元素;针对在每个所述第一层次遍历中确定的起点元素,执行包括多次第二层次遍历的第二层次遍历循环:根据在所述第二层次遍历循环中已经执行的第二层次遍历的次数,确定同步增大或缩小的扫描范围,根据所述扫描范围对所述待识别文本中的文本元素进行从所述起点元素开始的第二层次遍历,并将所述起点元素和所述第二层次遍历得到的文本元素组合为候选实体词,直至得到的候选实体词的长度等于所述文本跨度;或
根据多个不同长度的卷积窗口执行以下操作:在所述待识别文本中执行所述卷积窗口的滑动操作,且每次滑动操作的幅度为一个文本元素;将每次滑动后所述卷积窗口所覆盖的文本元素组合为候选实体词;其中,所述卷积窗口的长度小于或等于所述文本跨度。
2.根据权利要求1所述的命名实体识别方法,其特征在于,在所述将所述起点元素和所述第二层次遍历得到的文本元素组合为候选实体词,直至得到的候选实体词的长度等于所述文本跨度之后,所述对所述候选实体词中文本元素对应的文本表示进行整合处理,得到所述候选实体词的文本表示,包括:
根据文本序列顺序依次选取所述候选实体词中的文本元素;其中,所述文本序列顺序是从所述待识别文本中第一个文本元素依次到最后一个文本元素;
通过循环神经网络模型,对选取的文本元素的文本表示依次进行前向传播处理,并
将与所述候选实体词中最后一个文本元素对应的输出,确定为所述候选实体词的文本表示。
3.根据权利要求1所述的命名实体识别方法,其特征在于,在所述将每次滑动后所述卷积窗口所覆盖的文本元素组合为候选实体词之后,所述对所述候选实体词中文本元素对应的文本表示进行整合处理,得到所述候选实体词的文本表示,包括:
通过卷积神经网络模型,对所述候选实体词中文本元素对应的文本表示进行前向传播处理,得到所述候选实体词的文本表示;
其中,所述卷积神经网络模型的卷积核尺寸与所述卷积窗口的长度一致。
4.根据权利要求1所述的命名实体识别方法,其特征在于,所述对所述候选实体词的文本表示进行分类处理,以在候选类别中确定所述候选实体词所属的类别,包括:
对所述候选实体词的文本表示进行全连接处理;
通过第一分类函数对全连接处理后的所述候选实体词的文本表示进行映射处理,得到与多个所述候选类别一一对应的概率;
将数值最大的概率对应的候选类别,确定为所述候选实体词所属的类别;
其中,所述第一分类函数用于对所述候选实体词进行二分类。
5.根据权利要求1所述的命名实体识别方法,其特征在于,所述对所述候选实体词的文本表示进行分类处理,以在候选类别中确定所述候选实体词所属的类别,包括:
对所述候选实体词的文本表示进行全连接处理;
通过第二分类函数对全连接处理后的所述候选实体词的文本表示进行映射处理,得到与多个所述候选类别一一对应的概率;
将超过概率阈值的概率对应的候选类别,确定为所述候选实体词所属的类别;
其中,所述第二分类函数用于对所述候选实体词进行多分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010127101.0/1.html,转载请声明来源钻瓜专利网。