[发明专利]文本处理方法、装置、设备及介质在审
| 申请号: | 202210557278.3 | 申请日: | 2022-05-20 |
| 公开(公告)号: | CN114841162A | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 张星星;黄畅然 | 申请(专利权)人: | 中国电信股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 李建忠 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 设备 介质 | ||
本申请提供了一种文本处理方法、装置、设备及介质,涉及自然语言处理领域。该方法包括:获取待处理文本;确定待处理文本的文本特征信息,文本特征信息包括用于进行触发词识别的第一特征信息;将第一特征信息输入触发词识别模型的全连接层,得到多个字词组合各自对应的第一概率值,其中,各个第一概率值表示与其对应的字词组合为事件触发词的概率,字词组合是待处理文本中包含预设触发关键字词的字词;通过触发词识别模型的分类层,将多个字词组合各自对应的第一概率值中的最大概率值所对应的字词组合,确定为待处理文本的事件触发词。根据本申请实施例,能够提高事件抽取的准确性。
技术领域
本申请涉及自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及介质。
背景技术
事件抽取,其是自然语言处理领域的研究方向之一,其可以从待处理文本中抽取出关键地、或者概括性地的事件信息,在客服、办公、专业领域等都有着深入的应用。
在一种相关技术中,可以先对待处理文本进行分词,然后对分词结果进行模板匹配的方式来进行事件抽取,然而该种事件抽取技术的精度较低。
因此,需要一种能够提高事件抽取的准确性的技术方案。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请提供一种文本处理方法、装置、设备及介质,至少在一定程度上克服相关技术中事件抽取准确性较低的问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一个方面,提供了一种文本处理方法,包括:
获取待处理文本;
确定待处理文本的文本特征信息,文本特征信息包括用于进行触发词识别的第一特征信息;
将第一特征信息输入触发词识别模型的全连接层,得到多个字词组合各自对应的第一概率值,其中,各个第一概率值表示与其对应的字词组合为事件触发词的概率,字词组合是待处理文本中包含预设触发关键字词的字词;
通过触发词识别模型的分类层,基于多个字词组合各自对应的第一概率值,确定待处理文本的事件触发词。
在本申请的一个实施例中,文本特征信息还包括用于进行事件类型确定的第二特征信息,
在确定待处理文本的文本特征信息之后,方法还包括:
将第二特征信息输入事件分类模型的全连接层,得到多个预设事件类型各自对应的第二概率值,其中,各个第二概率值表示待处理文本属于与各个第二概率值所对应的预设事件类型的概率;
利用事件分类模型的分类层,基于多个预设事件各自对应的第二概率值,确定为待处理文本所属的事件类型。
在本申请的一个实施例中,确定待处理文本的文本特征信息,包括:
对处理文本进行多级文本分割,得到多级文本分割结果;
对多级文本分割结果进行特征提取,得到文本特征信息。
在本申请的一个实施例中,确定待处理文本的文本特征信息,包括:
对处理文本进行多级文本分割,得到多级文本分割结果;
对每级文本分割结果进行特征提取,得到该级文本分割结果对应的特征提取结果;
对多级文本分割结果各自对应的特征提取结果进行特征融合,得到文本特征信息。
在本申请的一个实施例中,对每级文本分割结果进行特征提取,得到该级文本分割结果对应的特征提取结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210557278.3/2.html,转载请声明来源钻瓜专利网。





