[发明专利]用于域特定的自然语言标准化的方法和系统有效
申请号: | 201310072086.4 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103324604A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | S.阿尔希纳维;G.D.卡达克;E.S.萨弗恩;J.M.韦伯 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邸万奎 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 特定 自然语言 标准化 方法 系统 | ||
技术领域
本发明涉及自然语言处理,更具体地涉及文本简化。
背景技术
自然语言处理是人工智能的分支,其涉及人类自然使用的语言的分析、理解和生成,以便使用自然的人类语言代替计算机语言来以书面和口头的上下文与计算机相接。自然语言处理是一般的概括术语,其包含许多不同种类的研究,范围从自然语言理解和语音识别到语音标签和文本提取的部分。在自然语言处理的总括之下的一个感兴趣的种类是文本简化。
文本简化涉及对文本集(corpus)中的文本的修改的缩减,以便在语法和语言学复杂度方面简化文本集,或者仅减小文本集的大小。一般地,文本简化需要首先解析文本集,以识别和索引文本中的不同词,并且根据一个或多个文本简化规则替换或去除索引中的特定词。如此,可以简化文本集,以产生更小的文本集、或者至少更简单的文本集。
发明内容
本发明的实施例解决现有技术中关于自然语言处理的缺陷,并提供一种新颖且非显而易见的方法、系统和计算机程序产品,用于文本集的域特定标准化。在本发明的一个实施例中,提供了一种用于文本集的域特定标准化的方法,包括行业、组织、人口统计学或地理域。所述方法包括将文本集加载在计算机的存储器中并确定所述文本集的域。所述方法还包括针对所确定的域检索替换词的字典。最后,所述方法包括使用所检索的字典对所述文本集进行文本简化。在本实施例的一个方面中,通过基于已经存在于所述文本集中的词的推断确定所述域。在本实施例的另一方面中,基于与所述文本集一起提供的元数据确定所述域。
在本发明的另一实施例中,一种自然语言数据处理系统可被配置用于文本集的域特定标准化。所述系统可以包括主计算系统,其包括具有存储器和至少一个处理器的至少一个计算机。所述系统还可以包括自然语言处理器,其提供被配置用于在所述计算机的存储器中执行的文本简化的逻辑。最后,所述系统可以包括所述自然语言处理器的域特定标准化模块。所述模块继而可以包括在所述主计算系统中执行的程序代码,其被使得能够加载文本集,以确定用于所述文本集的域,针对所确定的域检索替换词的字典,并指示所述自然语言处理使用所检索的字典对所述文本集进行文本简化。
本发明的附加方面将部分地在以下的描述中被阐明,并且将部分地根据所述描述而显而易见、或者可以通过实践本发明而被学习。将通过在所附权利要求中具体指出的元素和组合实现或获得本发明的各方面。应理解,前面的一般性描述和下面的详细描述都仅是示例性和说明性的,并且不是对所要求权利的发明的限制。
附图说明
合并在此说明书中并构成其一部分的附图例示了本发明的实施例,并与所述描述一起用于说明本发明的原理。这里所述的实施例是当前优选实施例,然而,应理解,本发明不限于所示的精确布置和手段,其中:
图1是用于文本集的域特定标准化的处理的图示;
图2是被配置用于文本集的域特定标准化的自然语言数据处理系统的示意图;以及
图3是用于文本集的域特定标准化的处理的流程图。
具体实施方式
本发明的实施例提供文本集的域特定标准化。根据本发明的实施例,可以接收文本集用于处理,并且可以针对该文本集而确定域,例如,基于文本集的已知上下文,或者替代地通过解析来自文本集的文本、或者通过解析与文本集关联的元数据而对上下文进行的推断确定。在这点上,域可以是用于特定行业的行业域、用于特定地理区域的地理域、用于特定组织的组织域、或用于特定人口统计学特征(诸如年龄、性别、宗教信仰、种族等)的人口统计学域。一旦确定了域,则可以针对所确定的域检索词替换的映射,并可以使用该映射执行文本集的文本简化。以此方式,可以将文本集改变为适合于所确定的域的语言。
在进一步的例示中,图1是用于文本集的域特定标准化的处理的图示。如图1中所示,可以将初始文本集110A提供到自然语言处理系统120,并且可以针对初始文本集110A确定域130。例如,可以基于与初始文本集110A一起提供的元数据、或者从初始文本集110A本身(例如,通过在初始文本集110A中辨识之前与特定域相关的词或短语的存在)确定域130。此后,可以基于所确定的域130选择词汇的域特定字典或域特定映射140,并可以在文本简化处理160期间使用它们,以将初始文本集110A转换为经简化的文本集110B。一旦已经产生了经简化的文本集110B,则可以将经简化的文本集110B传递到终端用户150A、150B、150C,例如作为网页、声音响应脚本、或文档等的一部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310072086.4/2.html,转载请声明来源钻瓜专利网。