[发明专利]用于将语言项目规范化的功能装置有效
申请号: | 201210418794.4 | 申请日: | 2012-10-26 |
公开(公告)号: | CN103034628A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 朱莉·梅德罗;米夏埃尔·加蒙;柳克丽霞·范德温德;丹尼尔·莫里斯 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;郑宗玉 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语言 项目 规范化 功能 装置 | ||
1.一种由计算功能装置(1300)执行的方法(900),用于将输入语言项目转换为规范化的语言项目,该方法包括:
接收所述输入语言项目(902);
将所述语言项目划分为一个或更多个分词(908);
将所述输入语言项目中的所述分词中的每个扩展为一个或更多个候选分词的列表以提供扩展的语言项目(910);
基于扩展的语言项目来创建图(912);
至少部分地使用统计语言模型将权重分配给所述图中的边(1002);以及
识别通过所述图的最短路径,由此识别规范化的语言项目(1004),所述规范化的语言项目表示所述输入语言项目的规范化的对应方。
2.如权利要求1所述的方法,其中,所述扩展包括使用多个参考源扩展所述输入语言项目。
3.如权利要求2所述的方法,其中,所述多个参考源包括以下各项中的任意两个或更多个:
首字母缩写字典,包括已知首字母缩写的列表;
通用拼写校正器,用于提供涉及自然语言中所使用的领域无关词语的拼写检查服务;
通用领域特定拼写校正器,用于提供涉及特定领域中的词语的拼写检查服务;
高频拼写校正器,用于提供涉及所述特定领域中的语言项目中以高频存在的词语的拼写检查服务;以及
缩写调整拼写校正器,用于提供涉及缩写的拼写检查服务。
4.如权利要求1所述的方法,其中,所创建的所述图构成原始图,所述方法还包括:
将重复节点添加到所述原始图,其中,所述重复节点是所述原始图中的现有节点的重复,
所述添加被执行以考虑通向所述现有节点的两条不同路径,
所述添加被执行一次或更多次以生成节点扩展图。
5.如权利要求4所述的方法,还包括:
添加从所述节点扩展图中的非终止节点延伸到病症结束标志节点的边,从而表示如下概率:所述概率是所述非终止节点表示所述规范化的病症项目内的组成病症项目的结束的概率,
所述边的所述添加被执行一次或更多次以创建最终扩展图。
6.如权利要求1所述的方法,其中,权重的所述分配包括:
针对指向特定节点的每条边,生成多个组成权重;以及
根据所述多个组成权重的组合将最终权重分配给所述边。
7.如权利要求6所述的方法,其中,所述多个组成权重包括:
第一组成权重,其基于用来生成与所述特定节点相关联的候选分词的参考资源的类型;
第二组成权重,其基于与所述特定节点相关联的分词和所述输入语言项目中的对应的原始分词之间的编辑距离;以及
第三组成权重,其基于由所述统计语言模型提供的、与所述特定节点相关联的所述特定分词的可能性。
8.如权利要求1所述的方法,还包括:使用所述统计语言模型来确定所述规范化的语言项目是否包括分割点,所述分割点对所述规范化的语言项目内的两个组成语言项目进行划界。
9.一种用于存储计算机可读指令的计算机可读存储介质(1310),所述计算机可读指令当被一个或更多个处理装置(1306)执行时提供语言项目规范化系统(100),所述计算机可读指令包括:
被配置为接收输入语言项目的逻辑(902);
被配置为使用统计语言模型生成规范化的语言项目的逻辑(206,208,220,222,302,304),所述规范化的语言项目表示所述输入语言项目的规范化的对应方;以及
被配置为还使用所述统计语言模型确定所述规范化的语言项目是否包括分割点的逻辑(306),所述分割点对所述规范化的语言项目内的两个组成语言项目进行划界。
10.一种由计算功能装置(1300)实现的病症项目规范化系统(100),用于将输入病症项目转换为规范化的病症项目,所述系统(100)包括:
词语切分模块(206),被配置为将所述输入病症项目划分为一个或更多个分词;
扩展模块(208),被配置为根据多个参考源将所述输入病症项目中的所述分词中的每个扩展为一个或更多个候选分词的列表以提供扩展的病症项目;
图生成模块(220),被配置为基于扩展的病症项目来创建图;以及
路径确定模块(304),被配置为根据所述图生成规范化的病症项目,所述规范化的病症项目表示所述输入病症项目的规范化的对应方。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210418794.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型泡沫混凝土及其生产工艺
- 下一篇:一种轴承保持架拆套工装