[发明专利]先行词的确定方法和装置有效
申请号: | 201610341637.6 | 申请日: | 2016-05-20 |
公开(公告)号: | CN107402913B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 杨月奎;陈雨杰;赵琳;黄玉兰;刘莉;王迪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/211 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩;褚敏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 先行 确定 方法 装置 | ||
本发明公开了一种先行词的确定方法和装置。其中,该方法包括:获取待识别的语句信息;在识别出所述语句信息中存在代词的情况下,从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征;基于所述多个候选先行词的词语特征,从所述多个候选先行词中确定所述代词所指代的目标先行词。本发明解决了指代消解的处理效率低的技术问题。
技术领域
本发明涉及信息处理领域,具体而言,涉及一种先行词的确定方法和装置。
背景技术
在人机对话中需机器准确理解语句中的上下文信息,如果机器无法准确理解语句中的上下文信息,会造成对话信息模糊,指代问题是造成信息模糊的主要问题。
广义上讲,指代消解是在篇章中确定代词指向哪个名词短语的问题。现有技术中存在如下几种指代消解算法:(1)自左向右先广搜索,层次遍历句法树达到消解工作,该算法需要遍历待识别的信息,遍历工作量很大;(2)在句法知识基础上加入语义约束,该方式在英文代词指代消解效果还行,但是中文词汇处理难度大,该方法不适用于汉语的指代消解;(3)把语义信息加入到LRC(left-right centering)算法中实现对候选先行词的过滤,但是该算法所利用的语义信息需要事先手工定义,测试语料同样进行了手工清洗掉不流利的成分。
由于中文浅层词汇处理难度比较大,在消解工作中要进行分词,并且对于名词没有明确的单复数、性别的特征,代词也没有明确的主格和宾格特征,口语会话中省略话语很常见。这些难点都使得上述的指代消解方案无法适用于中文的代词指代消解,目前的代词指代消解工作中更多的是依赖人工语料清洗、标注,没有有效的指代消解的处理方案。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种先行词的确定方法和装置,以至少解决指代消解的处理效率低的技术问题。
根据本发明实施例的一个方面,提供了一种先行词的确定方法,该方法包括:获取待识别的语句信息;在识别出所述语句信息中存在代词的情况下,从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征;基于所述多个候选先行词的词语特征,从所述多个候选先行词中确定所述代词所指代的目标先行词。
根据本发明实施例的另一方面,还提供了一种先行词的确定装置,该装置包括:获取单元,用于获取待识别的语句信息;提取单元,用于在识别出所述语句信息中存在代词的情况下,从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征;确定单元,用于基于所述多个候选先行词的词语特征,从所述多个候选先行词中确定所述代词所指代的目标先行词。
在本发明实施例中,在语句信息中存在代词的情况下,从语句信息中提取候选先行词和各个候选先行词的词语特征,利用候选先行词的词语特征确定代词所指代的目标先行词。在该方案中,通过从语句信息中提取出来的候选先行词的词语特征,可以自动锁定代词指定的目标先行词,从而解决了现有技术中指代消解的处理效率低的问题,实现了准确高效确定代词的先行词的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的先行词的确定方法的网络环境示意图;
图2是根据本发明实施例的先行词的确定方法的流程图一;
图3是根据本发明实施例的先行词的确定方法的流程图二;
图4是根据本发明实施例的先行词的确定方法的流程图三;
图5是根据本发明实施例的先行词的确定装置的示意图一;
图6是根据本发明实施例的先行词的确定方法的示意图二;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610341637.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:解析语义的方法和装置
- 下一篇:自然语言深度学习系统和方法