[发明专利]基于AI的复合语音交互方法、装置及计算机设备在审

专利信息
申请号: 202011240275.4 申请日: 2020-11-09
公开(公告)号: CN112365894A 公开(公告)日: 2021-02-12
发明(设计)人: 赵程 申请(专利权)人: 平安普惠企业管理有限公司
主分类号: G10L15/26 分类号: G10L15/26;G10L15/16;H04M3/527;G06F16/332
代理公司: 深圳市精英专利事务所 44242 代理人: 李翔宇
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了基于AI的复合语音交互方法、装置、计算机设备及存储介质,涉及人工智能技术,可应用于智慧政务场景,包括接收用户端发送的待答复数据,对其进行解析以得到待答复文本数据;若在本地知识库中未获取到与待答复文本数据对应的回答数据的连续次数超出次数阈值,将转接人工坐席客服的第一人工服务提示信息发送至用户端;若在本地知识库中未获取到与待答复文本数据对应的回答数据的连续次数未超出次数阈值,在本地知识库中获取与待答复文本数据对应的回答数据。该方法实现了优先采用智能客服与用户交互,仅在智能客服未准确回复用户的当前累计次数超出次数阈值时才提示切换人工客服,所采集真实对话数据能作为训练集进一步训练AI模型。
搜索关键词: 基于 ai 复合 语音 交互 方法 装置 计算机 设备
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202011240275.4/,转载请声明来源钻瓜专利网。

同类专利
  • 语音信息识别方法、装置、电子设备、程序及存储介质-202211379335.X
  • 冯树林;阳珊;苏丹 - 腾讯科技(深圳)有限公司
  • 2022-11-04 - 2023-10-27 - G10L15/26
  • 本发明提供了一种语音信息识别方法、装置及存储介质,方法包括:通过语音编解码网络对目标语音信息进行编码处理,得到编码码流;通过语音识别模型中的卷积网络对编码码流进行降采样处理,得到降采样处理结果,通过基于卷积增强的编码器网络对降采样处理结果进行编码处理,得到嵌入特征向量;通过连接时序分类解码器网络对嵌入特征向量进行解码处理,得到目标语音信息的候选识别文本;通过注意力机制解码器网络对候选识别文本进行重排处理,得到目标语音信息的识别文本,由此,可以高效地对待识别语音信息进行识别,同时能够使得语音识别模型的泛化能力更强,有利于语音识别模型在各类型智能设备中的大规模部署。
  • 语音识别方法、装置和存储介质及电子设备-202310333573.5
  • 朱运 - 北京搜狗科技发展有限公司
  • 2023-03-30 - 2023-10-27 - G10L15/26
  • 本申请公开了一种语音识别方法、装置和存储介质及电子设备。其中,该方法包括:获取对用户音频触发的语音识别请求,其中,语音识别请求用于请求对用户音频进行识别,并得到用户音频对应的标准文本信息;响应语音识别请求,对用户音频进行文本提取,得到原始文本信息,并确定原始文本信息中的各个文本字符对应的目标停顿时长;基于目标停顿时长,将原始文本信息处理为目标文本信息,并将目标文本信息确定为用户音频对应的标准文本信息,可应用在人工智能场景,涉及语音识别等技术。本申请解决了语音识别准确性较低的技术问题。
  • 基于音频大数据的语音报告整合系统-202310339130.7
  • 魏林;李涛;刘志远;魏玉秋;郑志艳;武玉龙;万二创 - 淮北矿业股份有限公司
  • 2023-04-01 - 2023-10-27 - G10L15/26
  • 本发明提供了基于音频大数据的语音报告整合系统,属于语音数据处理技术领域。包括语音数据采集模块、数据管理库模块、服务器、语音分析模块、语音转换模块和转换数据整合模块,所述据采集模块与所述服务器、相连接,所述数据管理库模块与服务器相连接,所述语音分析模块和所述语音转换模块均与所述服务器相连接,所述转换数据整合模块与所述语音转换模块相连接;方便将语音数据转换的文本,进行整合汇总,使用所述服务器微服务和前端element‑ui交互导出文本的日报、周报、月报,可有效整合语音报告的信息,方便观看。
  • 语音转换模型的训练方法、装置、设备及介质-202211455842.7
  • 杨培基 - 腾讯科技(深圳)有限公司
  • 2022-11-21 - 2023-10-27 - G10L15/26
  • 本申请公开了一种语音转换模型的训练方法、装置、设备及介质。包括:基于第一样本音频训练第一ASR模型,以及基于第二样本音频训练第二ASR模型;基于第一样本音频对应的第一样本文本以及第一样本内容特征,训练第一转换模型,第一转换模型用于将文本转换为第一口音的内容特征;基于第一转换模型、第二样本音频对应的第二样本文本以及第二样本内容特征,构建平行样本数据;基于平行样本数据训练第二转换模型,第二转换模型用于对第一口音和第二口音间进行内容特征转换;基于不同样本音频的样本内容特征训练第三转换模型,第三转换模型用于将内容特征转换为音频;基于训练得到的第一ASR模型、第二转换模型和第三转换模型生成语音转换模型。
  • 合成音频的可视化调整方法、装置、设备、介质及产品-202310970213.6
  • 段志毅;戴世昌;范志强;周文君;翁超;李广之;卞衍尧;张桥;杜念冬;欧阳才晟;甄帅 - 腾讯科技(深圳)有限公司
  • 2023-08-02 - 2023-10-27 - G10L15/26
  • 本申请公开了一种合成音频的可视化调整方法、装置、设备、介质及产品,属于音频技术领域。该方法包括:显示音频编辑区,所述合成音频是将文本内容转化后得到的音频,所述音频编辑区包括所述文本内容中的字符对应的调整控件,所述调整控件用于调整所述字符对应的音频属性;响应于所述字符对应的所述调整控件上的调整操作,显示调整音频属性,所述调整音频属性是对所述字符对应的音频属性参数值进行调整后得到的音频属性;基于所述调整音频属性显示更新后的新合成音频。通过可视化的方式,调整每个字符对应的调整控件,从而实现对合成音频的调整,不仅简化了合成音频的调整操作步骤,还降低了高质量的合成音频的产出难度。
  • 一种语音录入电子病历信息系统及操作方法-202311022721.8
  • 王其景 - 中世康恺科技有限公司
  • 2023-08-15 - 2023-10-27 - G10L15/26
  • 本发明公开了电子病历技术领域的一种语音录入电子病历信息系统及操作方法,接收所述终端的声纹特征,与声纹数据库进行对比,以确定终端是否进行后续的语音识别;接收所述终端发送的电子病例语音,将电子病例语音转换成录入文本数据,将录入文本数据进行存储的同时将录入文本数据上传至显示器进行纠错;接收所述终端发送的纠错语音,将纠错语音转换成纠错文本数据,将纠错文本数据与录入文本数据对比后替换该录入文本数据。能够有效识别医生电子病例语音,并将医生的电子病例语音进行录入,具有唤醒、过滤识别和纠错功能,有效保证语音录入电子病例的准确性。
  • 语音识别方法、装置、设备、存储介质及程序产品-202310572229.1
  • 唐立亮;曹立新;金明杰 - 腾讯科技(深圳)有限公司
  • 2023-05-19 - 2023-10-27 - G10L15/26
  • 本申请公开了一种语音识别方法、装置、设备、存储介质及程序产品,涉及计算机技术领域。该方法包括:获取音频数据;基于音频数据的发音内容预测音频数据表征的第一文本内容;响应于多个文本字符中的第一文本字符存在于预先采集的发音混淆字符列表中,确定与第一文本字符存在发音混淆关系的第二文本字符;确定第一文本内容对应的第一语义预测得分,以及确定包括第二文本字符的第二文本内容对应的第二语义预测得分;基于第一语义预测得分和第二语义预测得分确定语音识别文本。通过以上方式,能够分析文本内容是否存在发音混淆问题,尽早对识别错误的字符进行纠正,有效提升语音识别正确率。本申请可应用于云技术、人工智能、智慧交通等各种场景。
  • 一种语音信息的处理方法、装置、设备及介质-202010366954.X
  • 李宝祥;钟贵平;李家魁 - 北京猎户星空科技有限公司
  • 2020-04-30 - 2023-10-27 - G10L15/26
  • 本发明公开了一种语音信息的处理方法、装置、设备及介质,用以解决现有智能语音交互过程时间长,导致效率低的问题。因为在本发明实施例中当最终语音数据的语音识别结果与语音结束点之前的语音截断点对应的临时语音识别结果相同时,将该语音结束点之前的语音截断点对应的临时语义识别结果直接作为最终语音数据的语义识别结果,从而节省了再对语音识别结果进行处理获取语义识别结果的时间,可直接将已获取的临时语义识别结果确定为最终语音数据的语义识别结果,完成本次交互,即可实现智能语音的交互,节省了基于最终语音数据的语音识别结果进行语义识别的处理过程,因此,缩短了对用户语音的响应时间,提高了整个智能语音交互的效率。
  • 针对音频数据的非文明用语检测方法、装置、介质及设备-202310777492.4
  • 王月宝;沈鹏;黄明星;毛小伟;蒋佳佳;黄平;周晓波 - 北京水滴科技集团有限公司
  • 2023-06-28 - 2023-10-24 - G10L15/26
  • 本申请公开了一种针对音频数据的非文明用语检测方法、装置、介质及设备。其中,方法包括:对待检测的目标音频数据进行转换,获得与所述目标音频数据对应的目标文本数据;基于所述目标文本数据进行关键句提取处理,获得若干目标关键语句;基于各所述目标关键语句从所述目标音频数据中,获取与各所述目标关键语句对应的目标音频片段;利用预先训练获得目标多模态识别模型,对各所述目标关键语句以及各目标关键语句对应的目标音频片段进行非文明用语的检测,获得检测结果。本申请实现了同时基于两种模态数据进行非文明用语的检测,提高了检测结果的精准度,解决了目前由于单一的采用关键词进行非文明用语检测,而造成的检测结果不准确的问题。
  • 一种融合多触感的智能助理系统-202310906408.4
  • 邢程;韩戬苹;李天;佟林;唐佳器;李伟铖;韩杨 - 一汽奔腾轿车有限公司
  • 2023-07-24 - 2023-10-24 - G10L15/26
  • 本发明公开了一种融合多触感的智能助理系统,属于汽车智能技术领域,包括语音识别模块,情绪识别模块,眼动识别模块,大数据分析模块及AI模块,该系统可避免单一技术方案的判断误差导致的“智能化智障”情况,提高驾驶员的驾驶安全,改善行车路上堵车、事故等场景的驾驶情绪,缩短在发生车辆碰撞、严重交通事故时的救援时间;从而建造一个从上车前到行车中的全链路驾乘保障,提高车内智能化程度,给驾驶员带来便利、安全、有趣的驾驶体验。
  • 音频转写方法、装置、设备及介质-202310909559.5
  • 杨首哲;徐雅诺;罗朝彤;薛蓉蓉;苏世超;李毓钦 - 中移动信息技术有限公司;中国移动通信集团有限公司
  • 2023-07-24 - 2023-10-24 - G10L15/26
  • 本申请公开了一种音频转写方法、装置、设备及介质,属于音频转写的技术领域。在本申请中,提出一种将音频片段预先存储于云存储后台,再按需进行音频片段调用的音频转写方法,用于进行非实时语音转写。首先,录音设备将已录制的音频片段上传至云存储后台进行存储,同时,云存储后台接收并存储录音设备录制并上传的音频片段;然后,录音设备向云存储后台发出转写指令,同时,云存储后台接收录音设备发出的转写指令;接着,云存储后台基于转写指令调用其已存储的目标音频片段,并输入目标音频片段至转写平台进行转写;最后,录音设备接收转写平台对目标音频片段进行转写后输出的目标文本。从而高效且准确的实现非实时语音转写。
  • 用于语音转换的方法及装置、语音转换系统、存储介质-202210346283.X
  • 瞿志 - 青岛海尔多媒体有限公司;海尔智家股份有限公司
  • 2022-04-02 - 2023-10-24 - G10L15/26
  • 本申请涉及智能家电技术领域,公开一种用于语音转换的方法,包括:获取用户的输入音频和声纹信息;根据输入音频,得到相应的文本信息;根据声纹信息,得到与文本信息相对应的输出语音。将用户输入的音频转化为其想表达的相应文字信息,同时提取用户相应的声纹信息。将文字信息转化为输出端常用的或者能听懂音频,并根据用户的声纹信息,使转换后的输出语音内容包含有与输入语音一致的语气与音色。从而在提升通话实时翻译的适用性的前提下,保证翻译后的音频具有一定的还原度,提升用户的使用体验。本申请还公开一种用于语音转换的装置及语音转换系统、存储介质。
  • 机器同声传译系统、方法、测试方法、装置及相关设备-202310565696.1
  • 张为泰;刘俊华;王士进;胡国平 - 科大讯飞(上海)科技有限公司
  • 2023-05-18 - 2023-10-24 - G10L15/26
  • 本申请提供了一种机器同声传译系统、方法、测试方法、装置及相关设备,系统及方法提供了多模态输出的功能,可以包括翻译文本的字幕输出、合成音频流的播放以及音频流与虚拟人合成的视频播放中的至少一项,本申请统筹考虑多个不同的影响同声传译质量的因素,示例如从BLEU分、忠实度、流利度角度衡量的翻译效果、从源语言音频输入到翻译文本输出/合成音频输出间的翻译实时性、翻译文本的平均擦除率表征的可读性、语音合成效果等,在同声传译过程中对各影响因素提出了具体要求,使得机器同声传译系统最终展现的整体质量更加均衡、全面。本申请的机器同声传译系统的测试方法能够完成对同声传译系统的各技术指标的全面测试,保证同声传译系统的质量。
  • 一种车载智能语音交互系统-202311040710.2
  • 王振强;刘钰峰;张琨;邢世辉;范立岩;崔艳超;宣杰;冯庆华 - 中国铁路北京局集团有限公司丰台机务段
  • 2023-08-17 - 2023-10-24 - G10L15/26
  • 本发明涉及一种车载智能语音交互系统,涉及语音交互技术领域,该交互系统包括车载安全数据终端,用以对机车实时监控数据进行解析,从而对机车运行状态、前方路况、信号机等做出判断;车载无线传输装置,用以获取机车行驶的实时监控数据;降噪拾音设备,用以对乘务员的呼唤应答内容进行识别分析;离线语音识别主机,用以判断乘务员行驶过程中的呼唤应答是否合规。本发明能够对不能成功匹配的输入信息进行模糊音转换处理,然后再将经模糊音转换处理后的输入信息与指令信息进行匹配,能够提高方言语音信息的识别效率。
  • 数据处理方法及电子设备-202210335616.9
  • 丁小龙;徐亮;卞苏成;李英浩 - 华为技术有限公司
  • 2022-03-31 - 2023-10-24 - G10L15/26
  • 本申请实施例提供了一种数据处理方法及电子设备,涉及终端设备技术领域,该方法包括:在录音过程中,对实时录制的音频进行文本转换,可提升文本转换效率,以及在录音转文本的过程中获取关于时间戳与字符数量的原始记录数据,以用于定点播放音频,可提升音频和文本的定点播放的准确度。
  • 基于点击排序的语音识别结果优化方法及装置-202210540446.8
  • 郑宏;郑善福;阮海鹏 - 贝壳找房(北京)科技有限公司
  • 2022-05-17 - 2023-10-24 - G10L15/26
  • 本申请提供一种基于点击排序的语音识别结果优化方法及装置,该方法包括:获取包含多个语音识别结果的第一集合;基于所述第一集合中每个语音识别结果的点击率,生成第二集合;将所述第二集合中的对象作为样本对排序模型进行训练,得到目标模型;其中,所述语音识别结果的点击率为基于语音输入生成的语音识别结果被选中的概率;所述目标模型用于预测基于语音输入生成的语音识别结果被选中的概率。本申请实施例提供的基于点击排序的语音识别结果优化方法,根据获取的语音识别结果的目标参数,训练排序模型,并通过排序模型预测语音识别结果被选中的概率,并基于被选中的概率对语音输入的识别结果进行排序,提高了语音识别结果的准确率。
  • 关键词模型及解码网络构建方法、检测方法及相关设备-202010312979.1
  • 方磊;杨军;杨帆;方昕;方四安 - 合肥讯飞数码科技有限公司
  • 2020-04-20 - 2023-10-24 - G10L15/26
  • 本申请提供了一种关键词模型及解码网络构建方法、检测方法及相关设备,其中,关键词模型构建方法可以包括:从源域的声学模型中抽取待检测的关键词列表中各关键词分别对应的模型信息;根据关键词列表中各关键词分别对应的模型信息,生成源域的关键词模型;利用关键词列表中各关键词的语音样本,以源域关键词模型为基础模型,训练得到目标域的关键词模型。本申请提供的关键词模型构建方法使用数量较少的关键词语音样本即可构建出性能较佳的关键词模型。
  • 语音识别方法和装置、服务器、计算机可读存储介质-202011607654.2
  • 周维聪;袁丁;赵金昊;吴悦 - 深圳追一科技有限公司
  • 2020-12-30 - 2023-10-24 - G10L15/26
  • 本申请涉及一种语音识别方法和装置、服务器、计算机可读存储介质,包括:获取对语音数据进行解码得到语音识别网格lattice,语音识别网格lattice中包括多个词序列以及每个所述词序列对应的第一得分。根据预设词集合中所包含的预设词,在词序列中定位到预设词所在的目标词序列。对目标词序列对应的第一得分进行调整得到第二得分,将第一得分及第二得分中得分最高的词序列,作为语音数据的语言识别结果。可以基于预设词集合中所包含的预设词,在词序列中定位到预设词所在的目标词序列,并采用对目标词序列的得分进行调整的方式,实现了对解码得到语音识别结果的过程的干预,进而提高所得到的语音识别结果的准确性。
  • 一种文本顺滑方法、设备及存储介质-202310682675.8
  • 徐成国;崔和涛;张云柯 - 荣耀终端有限公司
  • 2023-06-09 - 2023-10-24 - G10L15/26
  • 本申请提供一种文本顺滑方法、设备及存储介质,通过对音频进行语音识别,获得待处理文本;将待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果,文本顺滑模型的训练集是由迭代更新的加噪规则对样本数据进行加噪得到的,迭代更新的加噪规则是基于对预测标签和真实标签进行偏差分析得到的,预测标签为训练过程中的文本顺滑模型对测试集进行标签预测得到的;根据待处理文本对应的原始的文本困惑度与第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。本申请基于迭代更新加噪规则,对样本数据进行加噪,扩大了规则覆盖范围,增大训练数据,提高了文本顺滑模型的性能,提高了文本顺滑的效果。
  • 音频播放方法、装置、电子设备及可读存储介质-202310858398.1
  • 赵苗苗 - 维沃移动通信有限公司
  • 2023-07-13 - 2023-10-20 - G10L15/26
  • 本申请公开了一种音频播放方法、装置、电子设备及可读存储介质,属于音视频技术领域。其中,该方法包括:在播放第一音频的过程中,获取第一时间点;该第一时间点为待播放的第二音频的起始播放时间点;根据第一时间点,从第一音频对应的文本段中确定第一文本段;根据第一文本段的起始播放时间点,确定第二时间点;该第二时间点位于第一时间点之前;在第二时间点中断播放第一音频,并在第一时间点开始播放第二音频。
  • 一种基于语音识别构建智能催收方法及装置-202310727510.8
  • 曹诃夫;杨成林;边媛;刘畅;陈德泉 - 湖南三湘银行股份有限公司
  • 2023-06-19 - 2023-10-20 - G10L15/26
  • 本发明公开一种基于语音识别构建智能催收方法及装置,将催收实时语音数据进行语音文字转换处理,得到催收实时文字数据,将催收实时文字数据带入所述催收模型,生成催收策略清单;对语音系统与被催收人沟通时产生的语音数据进行分析,根据所述催收策略清单调取催收知识数据库内对应催收知识数据,生成催收推荐方案,催收推荐方案推送给银行催收人员,银行催收人员可以对智能语音进行切换使用推送的催收方案内容与被催收人进行沟通,以解决银行催收人员在短暂的思考时间下很难准确地给逾期人员提供解决方案,实现银行催收人员与逾期人员在短时间内高效沟通的效果。
  • 一种语音确认方法、装置、电子设备和存储介质-202311004863.1
  • 董军 - 平安银行股份有限公司
  • 2023-08-10 - 2023-10-20 - G10L15/26
  • 本申请实施例提供一种语音确认方法、装置、电子设备和存储介质,其中,方法应用于语音确认系统,所述语音确认系统包括:第一语音信息采集设备和第二语音信息采集设备;所述方法包括:获取用户到所述第一语音信息采集设备的第一距离;若所述第一距离在第一距离范围内,利用所述第一语音信息采集设备获取用户的第一语音信息;若所述第一距离在第二距离范围内,利用所述第二语音信息采集设备获取所述用户的第二语音信息;根据所述第一语音信息和/或所述第二语音信息进行语音确认。实施上述实施例,能够准确接收客户的确认信息,不需要客户多次说出确认语,提高用户体验。
  • 语音指令识别方法、装置、电子设备及车辆-202310323399.6
  • 王金涛;江会星;陈伟 - 北京罗克维尔斯科技有限公司
  • 2023-03-29 - 2023-10-20 - G10L15/26
  • 本申请涉及一种语音指令识别方法、装置、电子设备及车辆,涉及自然语言处理领域,包括:可首先响应于接收到语音指令,识别语音指令对应的指令文本;将指令文本输入资源识别模型,确定语音指令对应指示的第一资源领域;对指令文本进行实体词标注处理,确定语音指令对应指示的第二资源领域;按照预设仲裁策略对第一资源领域和第二资源领域进行资源领域仲裁处理,确定语音指令对应指示的目标资源。本方案可利用资源识别模型识别模块与实体词标注识别模块并行计算,且通过对两种特征识别维度下的资源领域识别结果进行资源领域仲裁处理,确定语音指令对应指示的目标资源领域,可保证识别结果的准确率,进而能够为用户营造良好的语音指令识别体验。
  • 一种电子设备进行语音识别方法及电子设备-201880074893.0
  • 隋志成;李艳明 - 华为技术有限公司
  • 2018-03-05 - 2023-10-20 - G10L15/26
  • 一种电子设备进行语音识别方法及电子设备,涉及终端技术领域,能够提升终端在本地进行语音指令识别时的灵活性。方法包括:将接收的语音指令转换为文本,之后通过至少两个子领域分类器对文本进行领域识别,得到领域识别结果,其中,领域识别结果用于表示文本所属的领域,再通过文本所属的领域对应的对话引擎对文本进行处理,确定文本对应的电子设备需要执行的功能。适用于语音识别过程。
  • 庭审语音实时转写方法、装置、计算机设备及存储介质-201810952276.8
  • 黄锦伦 - 平安科技(深圳)有限公司
  • 2018-08-21 - 2023-10-20 - G10L15/26
  • 本发明公开一种庭审语音实时转写方法、装置、计算机设备及存储介质,该方法包括通过麦克风阵列采集原始语音数据;对原始语音数据进行数据预处理,获取目标语音数据;采用MFCC算法对目标语音数据进行声纹特征提取,获取目标声纹特征;基于麦克风阵列标识查询数据库,获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征;基于目标声纹特征与每一标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据;采用预先训练的语音识别模型对目标声纹特征进行识别,获取与目标声纹特征对应的目标文字数据;在显示设备实时显示目标文字数据和目标身份数据,解决人工转写过程中效率低下的问题。
  • 语义识别方法、装置、设备以及存储介质-202011294260.6
  • 吴玉芳;瞿琴;王奇博;满成剑;臧启光;付晓寅 - 北京百度网讯科技有限公司
  • 2020-11-18 - 2023-10-20 - G10L15/26
  • 本申请公开了语义识别方法、装置、设备以及存储介质,涉及深度学习、自然语言处理技术领域。具体实现方案为:获取待处理语音的语音识别结果,语音识别结果包括新增识别结果片段以及历史识别结果片段;获取历史识别结果片段中各个历史对象的语义向量,将各个历史对象的语义向量以及新增识别结果片段中的各个新增对象,输入流式语义编码层,获取各个新增对象的语义向量;将各个历史对象的语义向量以及各个新增对象的语义向量,输入依次排列的流式语义向量融合层和语义理解多任务层,获取待处理语音的语义识别结果。由此,实现了对用户的语音进行实时语义识别,缩短了人机语音交互系统的响应时间,提高了交互效率,改善了用户体验。
  • 柜台语音监控方法、装置、计算机设备及存储介质-201810952270.0
  • 黄锦伦 - 平安科技(深圳)有限公司
  • 2018-08-21 - 2023-10-20 - G10L15/26
  • 本发明公开一种柜台语音监控方法、装置、计算机设备及存储介质,该方法包括通过麦克风阵列采集原始语音数据;对原始语音数据进行数据预处理,获取目标语音数据;对目标语音数据进行声纹特征提取,获取目标声纹特征;采用预先训练的语音识别模型对目标声纹特征进行识别,获取与目标声纹特征对应的目标文字数据;对目标文字数据进行识别,获取识别结果;若识别结果为目标文字数据包含敏感词,则在目标文字数据中对敏感词进行突出处理,获取敏感文字数据;基于麦克风阵列标识和采集时间查询值班安排表,获取对应的柜台人员信息;将敏感文字数据和柜台人员信息关联存储在数据库中,以解决对柜台人员不能实时语音监控而导致处理不及时的问题。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top