[发明专利]一种语句转换方法、装置、服务器及计算机存储介质在审
| 申请号: | 201810194955.3 | 申请日: | 2018-03-09 |
| 公开(公告)号: | CN110245331A | 公开(公告)日: | 2019-09-17 |
| 发明(设计)人: | 牛国扬;陈虹;温海娇;董修岗 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 徐升升;张颖玲 |
| 地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语句 候选汉字 语句转换 置信度 汉字 计算机存储介质 拼音语句 服务器 筛选 单个汉字 拼音转换 汉字库 拼音库 识别率 拼音 预设 输出 转换 | ||
本发明公开了一种语句转换方法、装置、服务器及计算机存储介质,所述方法包括:将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。本发明的语句转换方法,通过语句置信度的计算,筛选出最符合正常表达的一个或多个汉字语句,识别率高。
技术领域
本发明涉及自然语言处理技术,具体涉及一种语句转换方法、装置、服务器及计算机存储介质。
背景技术
随着计算机和网络科技的发展,计算机的处理更多的涉及大数据和人工智能,计算机及其它终端经常需要处理文本文字,即自然语言处理(NLP,Natural LanguageProcessing),拼音-汉字转换处理是其中比较重要且应用广泛的一种处理类型;而且,在问答系统、检索系统、专家系统、在线客服、手机助手、私人助理等应用场合,需要处理的不仅是拼音词语和短语,还包括拼音语句或混杂拼音、中文、英文、网络流行语的长语句。
目前,业界存在多种拼音词语和短语转汉字的技术,如拼音输入法,但在拼音语句的转换方面,存在识别率低或前期设计工作量巨大的问题,无法满足当今人工智能的发展需求。例如,目前有一种智能拼音汉字转换系统,提供了一种常规知识收集后采用逻辑回归(LR,Logistic Regression)算法进行语法分析的系统,但是,该方案的识别准确率不高,转换效率低。
发明内容
为解决现有存在的技术问题,本发明实施例期望提供一种语句转换方法、装置、服务器及计算机存储介质,能提高效率以及识别的准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种语句转换方法,所述方法包括:
将输入的拼音语句按单个汉字切分为多个拼音;
根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;
计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
上述方案中,所述将输入的拼音语句按单个汉字切分为多个拼音,包括:
将输入的拼音语句按单个汉字的拼音字母数量特点,获得多种切分方案;
根据预设的拼音库和汉字库,筛选出符合所述拼音库和汉字库的拼音。
上述方案中,所述将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,包括:
将各拼音按拼音与汉字的对应关系,获得与每个拼音对应的至少一个汉字;
将对应一个拼音的多个汉字,分别与其它转换后的汉字顺序组成候选汉字语句,获得多个候选汉字语句。
上述方案中,所述根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出,包括:
根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;
根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。
上述方案中,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:
接收拼音及对应汉字的输入,建立以拼音为索引字段,包含拼音和汉字两种字段的拼音库;
接收汉字及对应拼音的输入,建立以汉字为索引字段,包含汉字和拼音两种字段的汉字库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810194955.3/2.html,转载请声明来源钻瓜专利网。





