[发明专利]语音与文本匹配的方法、装置、设备及计算机可读介质有效
申请号: | 201811495921.4 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109658938B | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 陆永帅 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/22;G06F16/332 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 张臻贤;江宇 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 文本 匹配 方法 装置 设备 计算机 可读 介质 | ||
本发明提出一种语音与文本匹配的方法、装置、设备和计算机可读介质,所述方法包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。本发明实施例通过依次进行精确匹配、拼音模糊匹配,可以加快匹配的速度,提高语音交互过程的流畅度。进一步地,通过句子向量匹配可以在精确匹配和拼音模糊匹配失败的情况下进行语义相似匹配,从而可以更加准确的匹配到用户的真实意图。
技术领域
本发明涉及人工智能领域,尤其涉及一种语音与文本匹配的方法及装置、设备和计算机可读介质。
背景技术
随着语音技术的发展,现有越来越多的场景中自动识别语音命令。例如,用户可以在一些游戏中,用户可以通过语音输入,从而使游戏人物执行某一些游戏技能。
然而目前在对用户语音和文字进行匹配时,一般只是通过简单的正则匹配或者改写等,来“套”用户的语音输入,然后得到对应的意图。当匹配和改写都没有命中的时候,一般就返回“我没能理解,请再说一般”之类的兜底话术。
中国语言本身博大精深千变万化,再加上各地的口音不尽相同,即使是同一句话,识别的结果也可能完全不同。因此,通过正则匹配或者改写的方法,得到的数据十分有限,很难可以真正匹配上识别的结果。就会导致设备不断地向用户提问,问用户究竟想做什么。语音交互游戏的流畅度差,用户体验不好。
发明内容
本发明实施例提供一种语音与文本匹配的方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种语音与文本匹配的方法,包括:
对接收的语音信号进行识别,获取语音识别文本;
将语音识别文本与多项候选文本进行第一匹配;
当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。
在一种实施方式中,所述方法还包括:
当第一匹配或拼音的第二匹配成功时,输出匹配到的候选文本。
在一种实施方式中,所述方法还包括:
当拼音的第二匹配不成功时,计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项。
在一种实施方式中,所述将语音识别文本与多项候选文本逐个进行拼音的第二匹配,包括:
将语音识别文本和多项候选文本都转化为拼音;
计算语音识别文本和多项候选文本的拼音的相似度;
获取相似度最大的候选文本,当所述候选文本大于设定阈值时,则作为匹配的候选文本进行输出。
在一种实施方式中,所述计算语音识别文本和候选文本的各个选项的拼音的相似度,采用以下公式进行计算:
其中s表示候选文本的选项的拼音,q代表语音识别文本的拼音,LCS(s,q)表示候选文本的拼音和语音识别文本的拼音之间最长公共序列的长度,len(s)表示候选文本的拼音的长度。
在一种实施方式中,所述计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项,包括:
将语音识别文本和多项候选文本进行分词操作;
获取分词后的每个词语的词向量;
将语音识别文本的词向量进行相加,获得语音识别文本的句子向量,以及将每项候选文本的词向量相加,分别获取各项候选文本的句子向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811495921.4/2.html,转载请声明来源钻瓜专利网。