[发明专利]文本规整方法及装置在审

申请号：	201910023851.0	申请日：	2019-01-10
公开（公告）号：	CN111435595A	公开（公告）日：	2020-07-21
发明（设计）人：	赵超	申请（专利权）人：	北京搜狗科技发展有限公司;搜狗（杭州）智能科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/25;G10L15/02;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06K9/62
代理公司：	北京华圣典睿知识产权代理有限公司 11510	代理人：	赵景平
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本规整方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本规整方法及装置，所述方法包括：获取语音数据及所述语音数据对应的识别文本；获取所述识别文本中的词单元及所述词单元对应的词向量；提取规整特征，具体包括从所述语音数据中提取语音特征，并从所述识别文本中提取文本特征；将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型，根据所述文本规整模型的输出得到所述词单元对应的标签，所述标签至少包括：删除；根据所述词单元对应的标签对所述识别文本进行规整，得到规整后的语音识别文本。利用本发明方案，可以使口语化的语音识别文本更具理解性及表达规范性。

技术领域

本发明涉及文本处理领域，具体涉及一种文本规整方法及装置。

背景技术

同声传译，简称“同传”，是指在不打断讲话者的条件下，将讲话内容不间断的实时的翻译给听众。其最大的特点在于效率高，听众可以及时地获取信息，被广泛地应用于国际会议、外交谈判等重要场合。目前，随着人工智能技术的发展，出现了机器同传，机器同传最大的优势是不会因为疲倦而导致译出率下降。但由于机器同传受限于语音识别及机器翻译技术，目前机器同传的总体翻译质量与人工同传相比还有较大差距，尤其是在一些演讲场合，演讲者往往根据主题以及思路即兴演讲，演讲过程中会出现语义不完整、重复、语气词等口语化表达，这种现象会影响后续的翻译质量，甚至会导致翻译完全错误。针对这种情况，现有的机器同传产品通常采用基于规则的方法去除其中的一些口语化表达词，但效果不佳，进而会使后续机器同传的效果受到较大影响。

发明内容

本发明实施例提供一种文本规整方法及装置，以使语音识别文本更具理解性及表达规范性。

为此，本发明提供如下技术方案：

一种文本规整方法，所述方法包括：

获取语音数据及所述语音数据对应的识别文本；

获取所述识别文本中的词单元及所述词单元对应的词向量；

提取规整特征，具体包括从所述语音数据中提取语音特征，并从所述识别文本中提取文本特征；

将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型，根据所述文本规整模型的输出得到所述词单元对应的标签，所述标签至少包括：删除；

根据所述词单元对应的标签对所述识别文本进行规整，得到规整后的语音识别文本。

可选地，所述文本特征包括以下任意一项或多项：词性特征、Ngram重复特征、临近词模糊匹配得分。

可选地，所述语音特征包括以下任意一项或多项：基频特征、停顿特征、能量特征。

可选地，所述根据所述词单元对应的标签对所述识别文本进行规整，得到规整后的文本包括：