[发明专利]一种文本标注方法、装置、电子设备及存储介质有效
申请号: | 202110986482.2 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113723051B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 李钊;赵凯;邓晓雨;刘岩;宋慧驹 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/126;G06F40/216;G06F40/30;G06F18/214;G06F16/33 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王宁宁 |
地址: | 100031 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 标注 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种文本标注方法、装置、电子设备及存储介质,涉及数据处理领域。获取待标注文本,并接收用户针对待标注文本输入的关键词,根据待标注文本生成文本数据特征,并根据关键词生成关键词特征,通过至少一个交叉注意力模块和至少一个融合注意力模块对文本数据特征和关键词特征进行处理,得到针对待标注文本的文本标注结果,文本标注结果用于指示关键词在待标注文本中的位置。将关键词特征和文本数据特征经过交叉注意力模块和融合注意力模块的处理,可以使得关键词特征和文本数据特征的匹配准确度高,从而使得文本标注的效果好,得到的文本标注结果一致性高。
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种文本标注方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的不断进步和发展,网络中的内容来源不断增加,使得网络中的内容庞杂众多,可能会包含违规广告等各种不同的违规内容,这类内容需要将违规文字标注出来并且禁止发布。所以,在大数据时代,对各种类型的标注均存在大量的需求。
然而,现有的标注方式多以人工标注为主,对于数量级很大的待标注文本和待标注数据,人工标注无疑需要非常大的人力成本,且标注一致性较差。
发明内容
为了解决上述现有技术中的问题,本申请实施例提供了一种文本标注方法,可以使得关键词特征和文本数据特征的匹配准确度高,从而使得文本标注的效果好,得到的文本标注结果一致性高。
第一方面,本申请实施例提供了一种文本标注方法,所述方法包括:
获取待标注文本,并接收用户针对所述待标注文本输入的关键词;
根据所述待标注文本生成文本数据特征,并根据所述关键词生成关键词特征;
通过至少一个交叉注意力模块和至少一个融合注意力模块对所述文本数据特征和所述关键词特征进行处理,得到针对所述待标注文本的文本标注结果;其中,所述交叉注意力模块用于根据所述文本数据特征和所述关键词特征生成交叉文本数据特征和交叉关键词特征,所述融合注意力模块用于根据所述交叉文本数据特征和所述交叉关键词特征生成所述文本标注结果;所述文本标注结果用于指示所述关键词在所述待标注文本中的位置。
在一种可能的实现方式中,所述通过至少一个交叉注意力模块和至少一个融合注意力模块对所述文本数据特征和所述关键词特征进行处理,得到针对所述待标注文本的文本标注结果,包括:
通过特征融合模型对所述文本数据特征和所述关键词特征进行处理,得到针对所述待标注文本的文本标注结果;所述特征融合模型包括相同数量的交叉注意力模块和融合注意力模块,所述交叉注意力模块和所述融合注意力模块交替排列。
在一种可能的实现方式中,所述特征融合模型的训练过程包括:
根据训练数据集中的训练样本,生成用于训练特征融合模型的样本特征;
根据所述训练数据集生成待训练关键词集合,并根据所述待训练关键词集合生成用于训练特征融合模型的样本关键词特征;
基于所述样本特征以及所述样本关键词特征,对待训练的特征融合模型进行迭代训练,得到已训练的特征融合模型。
在一种可能的实现方式中,所述根据训练数据集中的训练样本,生成用于训练特征融合模型的样本特征,包括:
根据所述训练样本中的每个字符对应的字符标识,得到所述训练样本的标识样本特征;
将所述标识样本特征中的各个字符标识分别与对应的位置编码相加,得到所述样本特征。
在一种可能的实现方式中,所述根据所述待训练关键词集合生成用于训练特征融合模型的样本关键词特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110986482.2/2.html,转载请声明来源钻瓜专利网。