[发明专利]一种输入语句的纠错方法及装置有效
申请号: | 201611233791.8 | 申请日: | 2016-12-28 |
公开(公告)号: | CN107122346B | 公开(公告)日: | 2018-02-27 |
发明(设计)人: | 王健宗;袁威强;韩茂琨;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳中一专利商标事务所44237 | 代理人: | 阳开亮 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 输入 语句 纠错 方法 装置 | ||
技术领域
本发明属于信息处理领域,尤其涉及一种输入语句的纠错方法及装置。
背景技术
输入法是指为将各种符号输入计算机或其他智能终端而使用的编码方法。依照输入设备的不同,输入法可分为键盘输入法、语音输入法以及手写输入法。由于键盘输入法的技术实现难度低且输入的文字准确率高,因此,相比于其他两种输入法来说,使用群体的范围更广。
目前,汉语拼音输入法已经成为用户最常使用的键盘输入法之一。但是,用户在使用拼音输入法的过程中,由于输入了错误的拼音字母或者选择了错误的候选词语,导致了最终输入的结果并非为用户实际所需的汉字。在机器智能问答领域中,由于用户输入的问题语句都比较短,因此,若此时输入的语句中包含有错误的字词,则会导致智能问答系统无法正确理解用户实际的问题,从而给出了错误的问题答案,降低了自动问答的成功率,严重制约了智能问答系统的发展。
发明内容
本发明实施例提供一种输入语句的纠错方法及装置,旨在解决目前当用户在智能问答系统中输入了错误的语句时,自动问答成功率低的问题。
本发明实施例是这样实现的,一种输入语句的纠错方法,包括:
基于训练语料构建并训练语言模型;
获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值;
将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率;
当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为错误语句并对所述待识别语句执行纠错处理。
本发明实施例的另一目的在于提供一种输入语句的纠错装置,包括:
构建单元,用于基于训练语料构建并训练语言模型;
获取单元,用于获取所述语言模型的判错阈值,所述判错阈值表示输入语句为错误语句的临界概率值;
计算单元,用于将待识别语句输入所述语言模型,以计算出所述待识别语句的正确概率;
纠错单元,用于当所述待识别语句的正确概率低于所述判错阈值时,判定所述待识别语句为错误语句并对所述待识别语句执行纠错处理。
本发明实施例中,根据语言模型输出待识别语句的正确概率,以判断用户输入的语句是否存在错误,实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将包含该错误字词的语句自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进了智能问答技术的发展。
附图说明
图1是本发明实施例提供的输入语句的纠错方法的实现流程图;
图2是本发明实施例提供的输入语句的纠错方法S11的具体实现流程图;
图3是本发明实施例提供的输入语句的纠错方法S12的具体实现流程图;
图4是本发明实施例提供的输入语句的纠错方法S14的具体实现流程图;
图5是本发明实施例提供的输入语句的纠错方法S401的具体实现流程图;
图6是本发明实施例提供的输入语句的纠错装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,根据语言模型输出待识别语句的正确概率,以判断用户输入的语句是否存在错误,实现了对语句正确性的自动检测,通过对判断为错误语句的待识别语句进行纠错处理,保证了用户在智能问答系统中即使输入了错误的字词,也能将包含该错误字词的语句自动调整为符合用户实际意愿的语句,从而使智能问答系统能够准确理解用户的问题,提高自动问答的成功率,由此进一步促进了智能问答技术的发展。
图1示出了本发明实施例提供的输入语句的纠错方法的实现流程,详述如下:
在S11中,基于训练语料构建并训练语言模型。
在本实施例中,训练语料是在实际使用中真实出现过的语言材料,按照语料采集单位的不同,训练语料可以分为语篇、语句、短语等三大类。将训练语料作为基础信息来进行分析及处理,根据语料所表达的客观事实,可对训练语料进行语言抽象数学建模,从而得到最终的语言模型。
特别地,本实施例中的训练语料为智能问答领域及其相关领域内的规范文本数据以及真实的用户问题记录文本,根据真实记录文本与规范文本之间的特征差异,能够训练出对所有训练语料拟合程度较高的语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611233791.8/2.html,转载请声明来源钻瓜专利网。