[发明专利]数据生成装置、数据生成方法以及记录介质在审
申请号: | 202010896712.1 | 申请日: | 2020-08-31 |
公开(公告)号: | CN113299266A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 藤村浩司;岩田宪治;狄慧;陈鹏飞 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G06F40/263;G10L15/26 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 金光华 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 生成 装置 方法 以及 记录 介质 | ||
本发明提供一种数据生成装置、数据生成方法以及记录介质,能够生成精度高的模拟数据。实施方式所涉及的数据生成装置具有语音合成部、语音辨识部、匹配处理部以及生成部。语音合成部根据原始文本生成语音数据。语音辨识部根据语音数据生成辨识文本。匹配处理部进行原始文本与辨识文本的匹配。生成部将匹配度满足条件的语音数据和原始文本对应起来生成数据集。
本申请以日本专利申请2020-027986(申请日:2020年2月21日)为基础,从该申请享受优先的权益。本申请通过参照该申请,包含该申请的全部内容。
技术领域
本发明的实施方式涉及数据生成装置、数据生成方法以及程序。
背景技术
已知将发声语音变换为文本的语音辨识(识别)技术。在这样的语音辨识技术中,例如能够将从语音输入至其文本输出设为End-to-End(端到端)的模型进行学习,改善性能。一般而言,在模型的学习中,同时需要庞大的量的语音发声数据和其转录文本(transcription texts)。作为在模型的学习中使用的学习数据,考虑使用被赋予发音信息的文本进行语音合成,生成模拟了语音发声的模拟数据。
但是,在仅有未被赋予发音信息的文本的情况下,由于读错等而合成语音变得不正确。通过包含不正确的合成语音和文本的配对的模拟数据,无法使模型恰当地学习。
发明内容
本发明要解决的课题在于,提供一种能够生成包括语音和文本的配对的精度高的发声模拟数据的数据生成装置、数据生成方法以及程序。
一个实施方式所涉及的数据生成装置具有语音合成部、语音辨识部、匹配处理部以及数据集生成部。语音合成部根据原始文本,生成语音数据。语音辨识部根据由语音合成部生成的语音数据,通过语音辨识来生成辨识文本。匹配处理部进行原始文本和由语音辨识部生成的辨识文本的匹配。数据集生成部根据匹配的结果,将成为针对原始文本的匹配度满足一定条件的辨识文本的源的语音数据和原始文本对应起来生成数据集。
根据上述结构的信息处理装置,能够生成包括语音和文本的配对的精度高的发声模拟数据。
附图说明
图1是例示一个实施方式所涉及的数据生成装置的功能结构的框图。
图2是例示一个实施方式所涉及的数据生成装置的硬件结构的框图。
图3是例示一个实施方式所涉及的数据生成装置的处理动作的流程图。
图4A是示出一个实施方式所涉及的数据生成装置的匹配结果的第1例的图。
图4B是示出针对图4A的原始文本使用不同的读法时的匹配结果的一个例子的图。
图5是示出一个实施方式所涉及的数据生成装置的匹配结果的第2例的图。
图6A是示出一个实施方式所涉及的数据生成装置的匹配结果的第3例的图。
图6B是示出针对图6A的原始文本使用不同的读法时的匹配结果的一个例子的图。
图7是示出一个实施方式所涉及的数据生成装置的匹配结果的第4例的图。
图8是示出一个实施方式所涉及的数据生成装置的匹配结果的第5例的图。
(符号说明)
100:模拟数据生成装置;101:文本取得部;102:语音合成部;103:语音辨识部;104:匹配处理部;105:模拟数据生成部;106:列表制作部;107:语言解析辞典存储部;108:列表存储部;1004:辅助存储装置;1005:输入装置;1006:输出装置;1007:通信装置。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010896712.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、系统及电子设备
- 下一篇:一种卸料口堵料检测方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置