[发明专利]一种文本信息的处理方法及相关装置有效
申请号: | 201910900890.4 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110705206B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 邓文超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/103 | 分类号: | G06F40/103;G06F40/151;G06F40/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴磊 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 处理 方法 相关 装置 | ||
本申请公开了一种文本信息的处理方法及相关装置,用于提高代词指代消解效果。本申请方法包括:确定待处理文本中的第一代词和第一先行词;确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;确定第一代词和第一先行词对应的第一语义特征向量;通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。本申请中在考虑到了代词和先行词之间的语义特征的基础上,还融入了代词的上下文语义信息,能够有效地提高指代代词的识别率,从而提高代词指代消解效果。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本信息的处理方法及相关装置。
背景技术
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确处理的需求促进了自然语言处理技术的发展。对于大部分的文本信息来说,文本信息中通常会存在有采用大量代词来指代文本信息主体的现象。其中,指代是自然语言普遍存在的一种表达方式,人们为了避免重复,习惯用代词、称谓和缩略语等来指代前面提到的主体,以使得语言简洁连贯。然而,大量的指代增加了自然语言处理的难度,因此,需要对文本信息中的代词进行识别并且消解掉。
代词指代消解就是识别文本中同一实体不同的表达式,并且将这些不同的表达式替换为统一的主体名称。目前的代词指代消解方法主要是在对文章进行分词处理以及词性标注,获得文章中的先行词以及代词,基于先行词和代词之间的特征来判断这两个词是否具有指代关系。
然而,仅仅从两个独立的词中抽取特征信息来进行指代消解的效果较差,尤其是当先行词实体表达缺乏有效信息描述时指代消解效果更差,因此目前的代词指代消解方法往往难以获得较好的消解效果。
发明内容
本申请实施例提供了一种文本信息的处理方法及相关装置,通过获取包含有代词的待处理文本的向量表示值,以及代词和先行词所对应的语义特征向量,并且结合向量表示值和语义特征向量来对代词和先行词的指代关系进行预测,不仅考虑到了代词和先行词之间的语义特征,还融入了代词的上下文语义信息,能够有效地提高指代代词的识别率,从而提高指代消解效果。
本申请实施例第一方面提供一种文本信息的处理方法,包括:
确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
确定第一代词和第一先行词对应的第一语义特征向量;
通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。
本申请实施例第二方面提供一种文本信息的处理装置,包括:
确定单元,用于确定待处理文本中的第一代词和第一先行词,待处理文本包括至少一个第一代词和至少一个第一先行词;
确定单元,还用于确定待处理文本的第一向量表示值,第一向量表示值用于表示待处理文本的语义信息;
确定单元,还用于确定第一代词和第一先行词对应的第一语义特征向量;
获取单元,用于通过指代预测模型获取第一向量表示值以及第一语义特征向量对应的指代预测结果;
替换单元,用于若指代预测结果为第一代词与第一先行词之间具有指代关系,则将待处理文本中的第一代词替换为第一先行词,得到处理后的文本。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,还包括生成单元和训练单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910900890.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置