[发明专利]基于智能语音鼠标的字幕实现方法、装置、系统和存储介质在审

专利信息
申请号: 201910923592.7 申请日: 2019-09-27
公开(公告)号: CN110648653A 公开(公告)日: 2020-01-03
发明(设计)人: 冯海洪;毛德平;许成亮;朱国冉 申请(专利权)人: 安徽咪鼠科技有限公司
主分类号: G10L13/04 分类号: G10L13/04;G10L15/02;G10L15/06;G10L15/14;G10L15/18;G10L15/22;G10L15/26;G06F3/0354
代理公司: 53113 昆明合众智信知识产权事务所 代理人: 叶春娜
地址: 230088 安徽省合肥市高新区习友路33*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及语音信号处理领域,尤其涉及一种基于智能语音鼠标的字幕实现方法、装置、系统和存储介质,该方法包括:在智能语音鼠标端实现语音采集,然后,将采集的语音文件进行预处理,并且将预处理后的文件进行存储及管理,接下来,将得到的数据通过模型训练得出用户意图,通过多个移动端自由共享数据到局域网内,局域网内多设备实时互连,接收多设备的数据,最后,通过字幕展示用户的语音内容,本发明利用语音识别技术,结合硬件设备,实现在不同设备间完成数据共享,实时录音及语音字幕实时显示,使人们的会议进行的更加的智能化与便捷化,避免因为会议演讲人的发言不清楚,导致参会人员听错,无法正确理解其意思的情况。
搜索关键词: 预处理 智能语音 多设备 局域网 字幕 鼠标 语音识别技术 语音信号处理 存储介质 共享数据 会议演讲 结合硬件 模型训练 实时录音 实时显示 数据共享 数据通过 用户意图 语音采集 语音内容 语音文件 语音字幕 设备间 移动端 智能化 互连 存储 采集 自由 发言 展示 会议 管理
【主权项】:
1.一种基于智能语音鼠标的字幕实现方法,其特征在于包括以下步骤:/n步骤S1:在智能语音鼠标端通过指定键开启录音和结束录音,实现语音采集;/n步骤S2:将采集的语音文件进行预处理,完成语音识别和结果的自动修正,同步完成语音翻译和语音合成,并且将预处理后的文件进行存储及管理;/n步骤S3:将步骤S2中得到的数据通过模型训练得出用户意图;/n步骤S4:多个移动端自由共享数据到局域网内;/n步骤S5:局域网内多设备的实时互连,实时接收多设备的数据,并通过字幕展示用户的语音内容。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽咪鼠科技有限公司,未经安徽咪鼠科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910923592.7/,转载请声明来源钻瓜专利网。

同类专利
  • 一种文本转语音显示字幕信息的方法-201911042371.5
  • 陈阳;鲁永春;王周 - 合肥名阳信息技术有限公司
  • 2019-10-30 - 2020-02-14 - G10L13/04
  • 本发明公开了一种文本转语音显示字幕信息的方法,属于字幕显示控制技术领域,包括以下步骤:S1:使用设置在手机端的文本编辑器编辑文本,设置文本中每个单句的停顿标记、延时标记和循环标记,停顿标记和延时标记设置时长,循环标记设置循环位置;S2:文字转语音系统将文字合成语音文件;S3:播放语音文件同时在显示屏幕上显示字幕;使用文字转语音系统播放语音文件,使手机屏幕同步显示字幕,并且可以设置字幕的字体大小、颜色以及字体背景颜色,已达到突出显示的作用。
  • 基于智能语音鼠标的字幕实现方法、装置、系统和存储介质-201910923592.7
  • 冯海洪;毛德平;许成亮;朱国冉 - 安徽咪鼠科技有限公司
  • 2019-09-27 - 2020-01-03 - G10L13/04
  • 本发明涉及语音信号处理领域,尤其涉及一种基于智能语音鼠标的字幕实现方法、装置、系统和存储介质,该方法包括:在智能语音鼠标端实现语音采集,然后,将采集的语音文件进行预处理,并且将预处理后的文件进行存储及管理,接下来,将得到的数据通过模型训练得出用户意图,通过多个移动端自由共享数据到局域网内,局域网内多设备实时互连,接收多设备的数据,最后,通过字幕展示用户的语音内容,本发明利用语音识别技术,结合硬件设备,实现在不同设备间完成数据共享,实时录音及语音字幕实时显示,使人们的会议进行的更加的智能化与便捷化,避免因为会议演讲人的发言不清楚,导致参会人员听错,无法正确理解其意思的情况。
  • 语音的生成方法和装置-201910849467.6
  • 鲁雪冬;宣善明 - 大唐网络有限公司
  • 2019-09-09 - 2019-12-20 - G10L13/04
  • 本发明公开了一种语音的生成方法和装置。其中,该方法包括:提取目标对象的特征信息;根据特征信息生成目标对象对应的变量语音信息;将变量语音信息与预设的模板语音信息进行合并,得到目标对象对应的语音信息,其中,外呼系统通过目标对象对应的语音信息完成目标对象对应的任务。本发明解决了现有技术中外呼话术模版单一导致难以针对用户特征进行自动对话的技术问题。
  • 机器人的语音输出方法、装置、机器人和存储介质-201910999706.6
  • 支涛;王洪贺 - 北京云迹科技有限公司
  • 2019-10-18 - 2019-12-20 - G10L13/04
  • 本申请实施例提供一种机器人的语音输出方法、装置、机器人和存储介质,该方法包括:获取待转换文本;根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,所述存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件;在所述存储空间内存在所述目标临时文件时,读取并播放所述目标临时文件,以对所述待转换文本进行语音播放。以此可以改善现有技术中的机器人语音播放效果差的问题。
  • 用于生成语音合成模型的方法和装置-201810478000.0
  • 康永国;顾宇 - 百度在线网络技术(北京)有限公司
  • 2018-05-18 - 2019-12-10 - G10L13/04
  • 本申请实施例公开了用于生成语音合成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,训练样本包括样本文本信息、与样本文本信息对应的样本音频数据和样本音频数据的基频;获取初始深度神经网络;利用机器学习方法,将训练样本集合中的训练样本的样本文本信息作为输入,将与输入的样本文本信息对应的样本音频数据和样本音频数据的基频作为输出,对初始深度神经网络进行训练,将训练后初始深度神经网络确定为语音合成模型。该实施方式实现了生成语音合成模型。由此生成的语音合成模型可以基于文本信息得到对应的音频数据,而不需要输入基频。
  • 数据处理方法和装置-201810720403.1
  • 于丽娜 - 百度在线网络技术(北京)有限公司
  • 2018-07-03 - 2019-12-03 - G10L13/04
  • 本申请实施例提供一种数据处理方法和装置,该方法包括:接收用户输入的播放请求,所述播放请求中包括待播放内容的信息和播放请求的类型;采用与播放请求的类型对应的语音合成模型,将待播放内容进行语音转换,得到语音;语音合成模型是对收集到的儿童的家庭成员的声音数据进行分析训练所建立的音频模型;对语音进行播放。本申请通过获取不同播放请求类型对应的家庭成员的语音合成模型,又因为不同的播放请求对应不同的场景,因此可以将待播放的内容转化成家庭成员的且符合当时场景的声音,可以应用于亲子互动,亲子阅读。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top