[发明专利]用于域特定的自然语言标准化的方法和系统有效
申请号: | 201310072086.4 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103324604A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | S.阿尔希纳维;G.D.卡达克;E.S.萨弗恩;J.M.韦伯 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邸万奎 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 特定 自然语言 标准化 方法 系统 | ||
1.一种用于文本集的域特定标准化的方法,所述方法包括:
将文本集加载在计算机的存储器中;
确定用于所述文本集的域;
针对所确定的域而检索替换词的字典;以及
使用所检索的字典对所述文本集进行文本简化。
2.如权利要求1所述的方法,其中所述域是行业域。
3.如权利要求1所述的方法,其中所述域是组织域。
4.如权利要求1所述的方法,其中所述域是人口统计学域。
5.如权利要求1所述的方法,其中所述域是地理域。
6.如权利要求1所述的方法,其中通过基于已经存在于所述文本集中的词的推断而确定所述域。
7.如权利要求1所述的方法,其中基于与所述文本集一起提供的元数据确定所述域。
8.一种被配置用于文本集的域特定标准化的自然语言数据处理系统,所述系统包括:
主计算系统,包括具有存储器和至少一个处理器的至少一个计算机;
自然语言处理器,提供被配置用于在所述计算机的存储器中执行的文本简化的逻辑;并且
所述自然语言处理器的域特定标准化模块包括在所述主计算系统中执行的程序代码,其被使得能够加载文本集,确定用于所述文本集的域,针对所确定的域检索替换词的字典,并指示所述自然语言处理器使用所检索的字典对所述文本集进行文本简化。
9.如权利要求8所述的系统,其中所述域是行业域。
10.如权利要求8所述的系统,其中所述域是组织域。
11.如权利要求8所述的系统,其中所述域是人口统计学域。
12.如权利要求8所述的系统,其中所述域是地理域。
13.如权利要求8所述的系统,其中所述模块的程序代码通过基于已经存在于所述文本集中的词的推断而确定所述域。
14.如权利要求8所述的系统,其中所述替换词的字典包括一组源词汇,所述源词汇中的至少一个被映射到多个不同替换词汇中具有与所述多个不同替换词汇的平均复杂度值一致的复杂度值的一个替换词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310072086.4/1.html,转载请声明来源钻瓜专利网。