[发明专利]中文标点符号添加方法和系统及设备在审
| 申请号: | 202010958997.7 | 申请日: | 2020-09-14 |
| 公开(公告)号: | CN112069816A | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 黄石磊;刘轶;王昕 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/126;G06K9/62 |
| 代理公司: | 深圳市万商天勤知识产权事务所(普通合伙) 44279 | 代理人: | 罗建平 |
| 地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 标点符号 添加 方法 系统 设备 | ||
本发明公开了一种中文标点符号添加方法和系统及设备。方法包括:获取文本信息并进行预处理,得到训练数据;通过对训练数据进行音素级编码、字级编码和词级编码,将训练数据的字序列转换成音素级特征向量、字级特征向量和词级特征向量并进行叠加融合,得到融合三个级别信息的特征向量;基于融合三个级别信息的特征向量,进行特征提取和分类器训练,得到预测模型,该预测模型用于给输入的文本信息添加中文标点符号。本发明在模型训练阶段,通过加入词级信息,不需要因遇到OOV问题而对预测模型重新训练;通过加入音素级信息,学习标点符号与汉字发音之间的规律,可以提升标点预测的精度。
技术领域
本发明涉及语音识别技术领域,具体涉及一种中文标点符号添加方法和系统及设备。
背景技术
近几年来,借助机器学习、深度学习领域的迅速发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。如今,随着语音识别技术研究的突破,通过语音识别技术,将人们的语言转化成文字识别结果作为指令加到相关产品或作为最终结果,可大大提升人机交互效率,其对计算机发展和社会生活的重要性日益凸显出来,以语音识别技术开发的产品应用领域也越来越广泛,如智能会议系统、医疗服务、银行服务等等,几乎深入到社会的每个行业和每个方面。如百度、腾讯、阿里等公司都提供了云服务,上传一段音频以及这段音频的采样率等相关信息,可返回这段音频的文字内容。
当前流行的语音识别系统在语音识别过程中,可将语音内容转化为英文、汉字或者数字等文字。当接收的语音内容是一连串的语音或者文档级的语音时,大部分的语音识别系统会转成一连串的文字,而没有标点信息,这样的转写结果可读性很差,给人们造成阅读障碍。如果适当的给转写后的文本加上标点符号,会大大地提升文本的可懂度。
近年来越来越多的研究人员投入到面向语音转写的标点预测研究中,为了恢复或预测语音转写的标点符号,人们做了许多努力。早期的尝试提出将标点符号作为隐藏事件添加到语言模型中,并将这些知识整合到语音识别系统中。最近的趋势倾向于使用独立的标点预测模块,将其作为后处理的方式加到语音识别系统中。最近的研究中,将其作为独立模块的方法主要分为三大类:一、基于声学特征的标点预测,二、基于文本特征的标点预测,三、基于声学特征和文本特征的标点预测。
其中,基于声学特征的标点预测需要音频作为输入,音频处理比文本处理相较复杂,并且很容易受口语化的影响,标点预测的准确性会受影响。另外,基于文本和声学特征的标点预测,它的输入包含文本和音频,要求文本内容和音频内容相对齐,并且语音转写结果存在着一些误差,会造成计算复杂,这种方法运算量较大且训练数据难以获取。而基于本文的标点预测仅仅将文本数据作为数据,几乎可以考虑任何文本材料,而且非常容易获得,并且可以很自由地用于声学特征的后期融合。考虑这些事实,一个好的基于文本特征的标点预测研究算法是广泛适用的。
现有的大多数基于文本特征的中文标点预测研究技术都是在大量的文本数据(网上大量获取数据)上训练模型的,然后将训练好的模型拿到语音识别系统中使用。但是在真正的语音识别系统中,系统识别的结果并不全是训练数据包含的词汇,存在OOV(Out ofVocabulary,集外词)问题。如果训练数据中不包含这些词汇,标点预测模型可能会在这些词汇中加入标点符号,造成词汇分开,使人误解。现有技术手段要想处理这种问题,首先想到的是重新训练标点的模型,并且在训练模型过程中,加入大量的带有新词的数据文本。但是事实中,这种重新获取数据重新训练的方法,是很费时费力的,并且以后还会遇到 OOV问题。
发明内容
本发明的目的在于提供一种中文标点符号添加方法和系统及设备,用于解决现有的基于文本特征的中文标点符号预测研究技术存在的缺陷,有助于解决 OOV问题导致的需要重新训练模型的问题,并有助于提高标点预测精度。
为实现上述目的,本发明采用如下技术方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010958997.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:石油工业井下作业工具及方法
- 下一篇:一种铝合金门窗





