[发明专利]自然语言中的自动问句检测有效
申请号: | 201510277761.6 | 申请日: | 2015-05-27 |
公开(公告)号: | CN105224519B | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | C.楚宁;C.J.罗尔德;M.D.亚维斯 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张金金;付曼 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 中的 自动 问句 检测 | ||
本公开涉及自然语言中的自动问句检测。系统和方法可提供将句子分成多个从句并且对多个从句中的每个应用问句检测规则集。另外,如果问句检测规则指示多个从句中的至少一个是问句则自动将句子指示为问句。在一个示例中,问句检测规则中的至少一个定义多个词性的顺序。
技术领域
实施例大体上涉及自然语言环境中的自动问句检测。更特定地,实施例涉及在自然语言环境中使用基于从句的问句检测。
背景技术
常规自动问句检测方法大体上可整体分析遇到的每个句子。这些方法可包括使用机器学习分类器或全解析在句子开始或结束处寻找关键词和“n元”(例如,n-词的特定分组)来产生句子语法结构的层次树,等。尽管这些方法在某些境况下令人满意,仍然有相当大的空间有待提高。例如,将每个句子视为整体可使得这些方法对于很多种应用容易出错和/或不实际。更特定地,传统的n元法可能不能说明未预定义为位于句子中间的n元或词的部分的插入词,并且层次树法在计算上可是昂贵的、非常耗费资源且很慢。因此,两个方法可能都不适合于实时和/或低功率应用,例如在手持设备上运行的个人助理(PA)应用。
附图说明
实施例的各种优势对本领域内技术人员将通过阅读下列说明书和附上的权利要求并且通过参考下列图而变得明显,其中:
图1是根据实施例用于产生对于句子的问句指示的问句检测规则集的示例的框图;
图2是根据实施例的句子的示例的图示;
图3是根据实施例训练系统的方法的示例的流程图;
图4是根据实施例自动检测问句的方法的示例的流程图;
图5是根据实施例的逻辑架构的示例的框图;
图6是根据实施例的处理器的示例的框图;以及
图7是根据实施例的系统的示例的框图。
具体实施方式
现在转向图1,示出句子10,其中该句子10可从消息(例如,电子邮件、文本消息、即时消息/IM、社交联网帖子,等)、处理音频馈送(例如,录音、麦克风输出)的语音识别模块等获得。在图示的示例中,句子10分成多个从句12(12a,12b),其包含对应于各种词性(POS)14的词。例如,句子10可以是“could she see the stage when she went to the concert”。在这样的情况下,“could she see the stage”可识别为句子10中的第一从句12a并且“when she went to the concert”可识别为句子10中的第二从句12b。如将更详细论述的,问句检测规则16(16a-16c)的集可适用于从句12中的每个,其中如果问句检测规则16指示从句12中的至少一个是问句,句子10可经由例如问句指示18而自动指示为问句。在逐从句基础上分析句子10可减少错误以及计算开销。
更特定地,图示的问句检测规则16中的每个定义多个词性14的顺序,其中该顺序允许有未预先定义的插入词。例如,第一问句检测规则16a可规定在“wh-词”(例如,who、whom、what、where、when、why、how)后跟情态动词或助动词(例如,can、must、should、would、could)后跟名词后跟动词时,整个句子10可自动指示为问句。助动词可定义为对它出现的从句增加功能或语法意义(例如,时态、形态(aspect)、情态、语态、语势)的词,而情态动词可定义为用于表达情态(例如,可能性、义务、能力等)的助动词类别。特别要注意,与在典型的n元方案中的不同,在第一问句检测规则16a中放置在规定词性14之间的词将未防止将指定从句和它的对应句子识别为问句。另外,规定词性14而不是特定关键词可使系统的灵活增加并且大大提高准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510277761.6/2.html,转载请声明来源钻瓜专利网。