[发明专利]用于语言检测的系统和方法有效
申请号: | 201480084163.0 | 申请日: | 2014-10-17 |
公开(公告)号: | CN107111607B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 尼基希尔·博亚;P·王;F·林德;B·普索恩 | 申请(专利权)人: | MZ知识产权控股有限责任公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263 |
代理公司: | 北京世峰知识产权代理有限公司 11713 | 代理人: | 卓霖;张春媛 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语言 检测 系统 方法 | ||
1.一种用于识别消息中的语言的计算机实现的方法,所述方法包括:
对与用户相关联的消息执行多个不同的语言检测测试,每个语言检测测试确定相应的分数集合,所述分数集合中的每个分数表示所述消息是多种不同语言中的一种的可能性,其中,根据所述消息的长度从所述多个不同的语言检测测试中选择至少一个语言检测测试;
将所述分数集合的一个或多个组合作为输入提供给一个或多个不同的分类器;
获得作为所述一个或多个分类器中的每一个的输出的相应指示,所述相应指示表明所述消息是所述多种不同语言中的一种,所述指示包括置信度分数;以及
基于所述置信度分数和识别的语言领域中的至少一个,将所述消息中的所述语言识别为所述一个或多个分类器中的一个分类器所指示的语言。
2.根据权利要求1所述的方法,其中,特定分类器是监督学习模型、部分监督学习模型、无监督学习模型或插值。
3.根据权利要求1所述的方法,其中,识别所述消息中的所述语言包括基于所述置信度分数来选择所指示的语言。
4.根据权利要求1所述的方法,其中,识别所述消息中的所述语言包括基于所识别的语言领域选择所述分类器。
5.根据权利要求1所述的方法,其中,所述语言领域从由视频游戏、体育、新闻、议会议事、政治、健康和旅行组成的组中选择。
6.根据权利要求1所述的方法,其中,所述消息包括以下中的两个或多个:字母、数字、符号和表情符号。
7.根据权利要求1所述的方法,其中,所述多个不同的语言检测测试包括从由以下方法组成的组中选择的至少两种方法:字节n-gram方法、基于词典的方法、基于字母表的方法、基于脚本的方法和用户语言配置文件方法。
8.根据权利要求1所述的方法,其中,同时执行所述多个不同的语言检测测试。
9.根据权利要求1所述的方法,其中,所述一个或多个组合包括来自字节n-gram方法和基于词典的方法的分数集合。
10.根据权利要求8所述的方法,其中,所述一个或多个组合还包括来自用户语言配置文件方法和基于字母表的方法中的至少一个的分数集合。
11.一种用于识别消息中的语言的系统,所述系统包括:
具有存储在其上的指令的计算机存储设备;和
被配置为执行所述指令以执行操作的数据处理装置,所述操作包括:
对与用户相关联的消息执行多个不同的语言检测测试,每个语言检测测试确定相应的分数集合,所述分数集合中的每个分数表示所述消息是多种不同语言中的一种的可能性,其中,根据所述消息的长度从所述多个不同的语言检测测试中选择至少一个语言检测测试;
将所述分数集合的一个或多个组合作为输入提供给一个或多个不同的分类器;
获得作为所述一个或多个分类器中的每一个的输出的相应指示,所述相应指示表明所述消息是所述多种不同语言中的一种,所述指示包括置信度分数;以及
基于所述置信度分数和识别的语言领域中的至少一个,将所述消息中的所述语言识别为所述一个或多个分类器中的一个分类器所指示的语言。
12.根据权利要求11所述的系统,其中,特定分类器是监督学习模型、部分监督学习模型、无监督学习模型或插值。
13.根据权利要求11所述的系统,其中,识别所述消息中的所述语言包括基于所述置信度分数来选择所指示的语言。
14.根据权利要求11所述的系统,其中,识别所述消息中的所述语言包括基于所识别的语言领域选择所述分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于MZ知识产权控股有限责任公司,未经MZ知识产权控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480084163.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种交通信号灯的控制方法和系统
- 下一篇:城市交通智能控制系统