[发明专利]语音输入完整性判断方法、装置、电子设备和存储介质在审
申请号: | 202110303267.8 | 申请日: | 2021-03-22 |
公开(公告)号: | CN113035180A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 原道德 | 申请(专利权)人: | 建信金融科技有限责任公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/22 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 200120 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 输入 完整性 判断 方法 装置 电子设备 存储 介质 | ||
本发明实施例公开了一种语音输入完整性判断方法、装置、电子设备和存储介质。该语音输入完整性判断方法包括:对用户的当前输入语音进行声学特征提取操作,得到当前语音声学特征;对所述当前输入语音进行语义特征提取操作,得到当前语音语义特征;根据所述当前语音声学特征和所述当前语音语义特征,得到当前语音输入的完整性判断结果。本发明实施例涉及人工智能/人机交互技术领域,结合声学特征和语义特征进行当前语音输入的完整性判断,在保证判断结果准确性的同时,不引入固定延时,降低了交互延迟,在避免打断用户说话的前提下及时答复用户,提高用户的交互体验。
技术领域
本发明实施例涉及人工智能/人机交互技术领域,尤其涉及一种语音输入完整性判断方法、装置、电子设备和存储介质。
背景技术
语音交互属于人机交互的范畴,是人机交互发展到目前的一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令,以达成自己的目的的过程。在语音交互过程中,需要对用户的语音输入是否结束进行判断,以及时获取完整的语音输入,提高用户的交互体验。
目前主要是采取语音活性检测(Voice activity detection,VAD)的方式来确定用户是否结束语音输入。简单地说,就是在检测到用户没有语音输入的时间超过一个时间阈值时,判定语音输入结束。
但是需要设置一个准确的时间阈值,才能保证语音输入完整性判断结果的准确性,时间阈值的设置必然会引入固定的延时,并且由于用户在通过语音输入表达意图时会有停顿,如思考、换气等带来的停顿,若时间阈值设置偏小则会导致用户在语音输入中途停顿时被打断,若时间阈值设置偏大则会导致用户在语音输入表达完整意图后等待答复的时间延长,造成增加语音交互时交互延迟的问题,降低用户的交互体验。
发明内容
本发明实施例提供一种语音输入完整性判断方法、装置、电子设备和存储介质,在保证语音输入完整性判断准确的同时,不引入固定的交互延时。
第一方面,本发明实施例提供了一种语音输入完整性判断方法,包括:
对用户的当前输入语音进行声学特征提取操作,得到当前语音声学特征;
对所述当前输入语音进行语义特征提取操作,得到当前语音语义特征;
根据所述当前语音声学特征和所述当前语音语义特征,得到当前语音输入的完整性判断结果。
第二方面,本发明实施例还提供了一种语音输入完整性判断装置,包括:
声学特征提取模块,用于对用户的当前输入语音进行声学特征提取操作,得到当前语音声学特征;
语义特征提取模块,用于对所述当前输入语音进行语义特征提取操作,得到当前语音语义特征;
完整性判断模块,用于根据所述当前语音声学特征和所述当前语音语义特征,得到当前语音输入的完整性判断结果。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的语音输入完整性判断方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的语音输入完整性判断方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110303267.8/2.html,转载请声明来源钻瓜专利网。