[发明专利]话题检测方法、装置、电子设备及存储介质有效
| 申请号: | 202210279908.5 | 申请日: | 2022-03-22 |
| 公开(公告)号: | CN114373448B | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 刘磊 | 申请(专利权)人: | 北京沃丰时代数据科技有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26;G10L15/06;G06F40/30 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 聂俊伟 |
| 地址: | 100160 北京市丰台区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 话题 检测 方法 装置 电子设备 存储 介质 | ||
1.一种话题检测方法,其特征在于,包括:
基于待检测的语音数据,获取目标语音块;
输入所述目标语音块至话题检测模型,获得所述话题检测模型输出的检测结果;
其中,所述话题检测模型是基于样本文本数据、所述样本文本数据对应的标注话题、样本语音数据以及所述样本语音数据对应的标注话题训练得到的;所述样本文本数据包括领域语料和通用语料;
所述话题检测模型,用于对所述目标语音块进行语音识别,得到语音离散表征和文本内容,将所述文本内容的自然语言处理结果与所述语音离散表征融合后,进行话题检测,获取所述检测结果;
所述话题检测模型包括语音识别层、主题词识别抽取层和话题检测层;
其中,所述语音识别层用于对所述目标语音块进行语音识别;所述主题词识别抽取层用于对识别出的文本内容进行主题词抽取;所述话题检测层用于基于所述语音识别层和所述主题词识别抽取层的输出内容融合后,进行话题检测;
所述输入所述目标语音块至话题检测模型,获得所述话题检测模型输出的检测结果,包括:
将所述目标语音块输入至所述语音识别层中,得到语音表征和文本表征;
将所述文本表征输入至所述主题词识别抽取层中,得到主题词集;
将所述语音表征、所述文本表征和所述主题词集输入至所述话题检测层中,得到检测结果;
所述将所述目标语音块输入至所述语音识别层中,得到语音表征和文本表征,包括:
分别利用第一语言模型和第二语言模型,结合声学模型对所述目标语音块进行量化操作,获取第一语音表征和第二语音表征;
分别利用所述第一语言模型和所述第二语言模型,结合声学模型对所述目标语音块分别进行文本识别转换,获取对应的第一文本表征和第二文本表征;
其中,所述第一语言模型是基于所述领域语料训练的语言模型和所述通用语料训练的语言模型融合得到,所述第二语言模型是基于所述领域语料的音节训练的语言模型和所述通用语料的音节训练的语言模型融合得到;
所述将所述文本表征输入至所述主题词识别抽取层中,得到主题词集,包括:
将所述第一文本表征和所述第二文本表征,分别进行主题词的识别抽取,并合并成主题词集;
接收用户输入的主题文本,并将所述主题文本添加至所述主题词集中;
其中,所述第一文本表征为语音转换文本的转换结果,所述第二文本表征为语音转换音节的转换结果。
2.根据权利要求1所述的话题检测方法,其特征在于,所述第一文本表征包括第一目标表征和第一候选表征,所述第二文本表征包括第二目标表征和第二候选表征。
3.根据权利要求2所述的话题检测方法,其特征在于,所述将所述语音表征、所述文本表征和所述主题词集输入至所述话题检测层中,得到检测结果,包括:将所述第一语音表征和所述第二语音表征,以及所述第一目标表征、所述第一候选表征、所述第二目标表征、所述第二候选表征和所述主题词集输入至所述话题检测层中,进行话题检测,获取所述检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃丰时代数据科技有限公司,未经北京沃丰时代数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210279908.5/1.html,转载请声明来源钻瓜专利网。





