[发明专利]一种文字直播方法及平台在审

申请号：	201611162369.8	申请日：	2016-12-15
公开（公告）号：	CN106653002A	公开（公告）日：	2017-05-10
发明（设计）人：	方磊;张燕鹏;陈学;田原;王璟	申请（专利权）人：	咪咕数字传媒有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L17/14
代理公司：	北京派特恩知识产权代理有限公司11270	代理人：	蒋雅洁,张颖玲
地址：	310006 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文字直播方法平台
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别和声纹识别技术领域，尤其涉及一种文字直播方法及平台。

背景技术

目前，对直播过程一般以人工的方式将语音转换为文字，即相关工作人员将听到的发言人的语音转换为文字，例如：有主持人、嘉宾、采访者和被访者，将各自说话的语音转为文字，并直播每句话是某个人说的。这种方式需要耗费大量的人力成本，并且受限于速度，很大可能出现转换前一句话时，没有办法集中精力听下一句话，造成漏播、错播，使文字直播效率低下。

发明内容

有鉴于此，本发明实施例期望提供一种文字直播方法及平台，能将直播过程中发言者的语音转换为有序的文字，并识别出文字的归属者，提高文字直播效率，节省人力物力。

为达到上述目的，本发明实施例提供了一种文字直播方法：

将直播的语音音频进行语音识别，生成有序文字；

根据预先设置的声纹特征确定所生成的有序文字的归属；

生成有序的包含归属者的文字作为直播文字。

其中，所述将直播的语音音频进行语音识别，生成有序文字包括：将语音音频转换为文字，并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序，将按对话顺序排序的文字作为有序文字。

其中，所述根据预先设置的声纹特征确定所生成的有序文字的归属之前，所述方法还包括：

对直播的语音音频中的各个发言者进行声纹特征提取，所述声纹特征包括：声学特征、词法特征、韵律特征、语种、方言和口音特征。

其中，所述根据预先设置的声纹特征确定所生成有序文字的归属，包括：

将所述提取的声纹特征与语音音频中的发言者形成对应关系，确定直播的语音音频中当前语音音频的归属，确定所述有序文字的归属。

本发明实施例还提供了一种文字直播平台，包括：

语音识别模块，用于将直播的语音音频进行语音识别，生成有序文字；

声纹识别模块，用于根据预先设置的声纹特征确定所生成的有序文字的归属；

处理模块，用于生成有序的包含归属者的文字作为直播文字。

其中，所述语音识别模块具体用于：将语音音频转换为文字，并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序，将按对话顺序排序的文字作为有序文字。

其中，所述声纹识别模块，还用于对直播的语音音频中的各个发言者进行声纹特征提取。

其中，所述声纹识别模块具体用于：将所述提取的声纹特征与语音音频中的发言者形成对应关系，确定直播的语音音频中语音音频的归属，确定所述有序文字的归属。

本发明实施例提供的文字直播方法及平台，将直播的语音音频进行语音识别，生成有序文字；根据预先设置的声纹特征确定所生成的有序文字的归属，生成有序的包含归属者的文字作为直播文字。如此，能够实时将直播中发言者的语音音频转换为文字，并确定所述文字的归属者，再将生成的直播文字进行展示，能提高文字直播效率，节省人力物力。

附图说明

图1为本发明实施例文字直播方法实现流程示意图；

图2为本发明实施例文字直播平台的组成结构示意图；

图3为本发明实施例文字直播方法完整流程示意图。

具体实施方式

图1为本发明实施例文字直播方法实现流程示意图，如图1所示，本发明实施例文字直播方法包括以下步骤：

步骤101：将直播的语音音频进行语音识别，生成有序文字；

本步骤可采用现有的语音识别(Speech Recognize)技术识别语音音频，所谓语音识别技术，是让机器通过识别和理解过程，使其能听懂人类语言的技术；语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有着广泛的应用。

随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。目前，语音识别技术已经可以进行针对长时间音频进行语音转换文字，再通过文字的信息服务特定的应用。

具体语音识别工具，可以采用隐性马尔科夫(HMM，Hidden Markov Model)模型，HMM模型是语音识别领域广泛采用的统计学模型，能表示出语音信号的时变特征和随机特征，能适应各种变化的发音，进而适合非特定人的大词汇量连续语音的识别工作。

本步骤中，具体的，所述将直播的语音音频进行语音识别，生成有序文字包括：通过语音识别模块将语音音频转换为文字，并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序，将按对话顺序排好序的文字作为有序文字。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于咪咕数字传媒有限公司，未经咪咕数字传媒有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611162369.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文字直播方法及平台在审

专利文献下载