[发明专利]音频编辑系统和音频编辑方法有效
| 申请号: | 201010614165.X | 申请日: | 2010-12-24 |
| 公开(公告)号: | CN102543080A | 公开(公告)日: | 2012-07-04 |
| 发明(设计)人: | 卢鲤;赵庆卫;颜永红;刘昆;吴伟国 | 申请(专利权)人: | 索尼公司;中国科学院声学研究所 |
| 主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/02;G10L15/06 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频编辑 系统 方法 | ||
技术领域
本发明涉及音频聚类技术领域,特别涉及一种音频编辑系统和音频编辑方法。
背景技术
说话人聚类是聚类技术在语音信号处理方面的一个具体应用,其目的是通过对语音段进行分类,使得每一类只包含同一个说话人数据,并且同一说话人的数据都被归并到同一类中,从而获取说话人的特定信息。从应用角度讲,说话人聚类技术可以应用于音频信息管理,检索等领域。它有助于在会议,语音邮箱、讲座以及新闻广播节目的音频流中实现说话人跟踪,从而实现对音频数据的结构化分析,理解和管理。特别的,聚类算法对语音识别系统也有非常重要的实用价值,当今几乎所有的自动语音识别系统都采用了自适应技术,而聚类算法的好坏将直接影响说话人自适应的性能。
对一个说话人聚类系统来说,最为关键的一个步骤是对音频数据进行说话人的分割,只有分割的正确,才能使得后端的聚类性能有所保障。针对不同的聚类系统架构,有两种典型的说话人分割技术:首先,对分步分割聚类系统来说,以非专利文献1为代表,首先通过音频距离计算的方法将音频流进行说话人切分,之后再将分散的语音段落进行归并,实现聚类的目的;其次,对同步分割聚类系统来说,以非专利文献2系统作为代表,一般为基于模型的方法,在分割的同时完成了聚类。这两种框架各有优缺点,前者在聚类过程中不加修正地继承了分割步骤的错误,由于距离测算的方法有一定局限性,会产生错误的累积;而后者由于大多使用的为隐马尔科夫模型,模型的初始化通过对音频数据直接进行等分来进行,初始引入的误差较大,给模型的收敛速度带来一定的问题,同时由于隐马尔科夫模型基于帧进行分类的特点,在进行切分的时候不加限制会引入一定的误差,一般的做法是对每一个隐马尔科夫模型的停驻时间加一定的时长限制,这种做法给系统的灵活性带来了很大的局限。
非专利文献1:Dan Istrate,Corinne Fredouille,Sylvain Meignier.NIST RT’05S evaluation:Pre-processing techniques and Speaker Diarization on Multiple Microphone meetings.Machine Learning for Multimodal Interaction.2006
非专利文献2:Fredouille,C.and Senay,G.,Technical improvements of the e-hmm based speaker diarization system for meeting records,Machine Learning for Multimodal Interaction,2006
发明内容
为了克服所述现有技术的不足,本发明提出了一种结合距离测算,说话人聚类以及模型分割三种技术的说话人分割框架。本发明的目的是通过距离测算得到音频流的初始切分信息;利用说话人聚类技术得到说话人种子数据类,并训练相应的说话人隐马尔科夫模型;同时,利用初始切分得到的片段数目控制了隐马尔克夫模型的搜索空间构造,在切分过程中迭代更新模型,从而提高说话人分割的性能。
为了实现所述目的,本发明提供了一种音频编辑系统,包括:
读取装置,将音频流读取到所述音频编辑系统中;
初始切分装置,将由所述读取装置读取的音频流初始切分为多个不同的片段;
音频聚类装置,基于层次聚类的算法,对由所述初始切分装置初始切分的多个片段进行有监督聚类,将属于同一性质的片段聚成一个类别;
重新切分装置,利用所述音频聚类装置聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对所述音频流进行维特比对齐切分,得到按类别切分后的音频流。
另外,本发明提供了一种音频编辑系统,包括:
读取装置,将多个声道的音频流读取到所述音频编辑系统中;
多个初始切分装置,分别将由所述读取装置读取的来自多个声道的音频流初始切分为多个不同的段落;
多声道融合装置,对所述多个初始切分装置的切分点进行综合,并从每两个相邻的切分点之间选择最优的声道的音频流,从而得到多个初始切分片段,并且将得到的所述多个初始切分片段融合形成统一音频数据文件;
音频聚类装置,基于层次聚类的算法,对所述多个初始切分片段进行有监督聚类,将属于同一性质的初始切分片段聚成一个类别;
重新切分装置,利用所述音频聚类装置聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对所述统一音频文件进行维特比对齐切分,得到按类别切分后的音频流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司;中国科学院声学研究所,未经索尼公司;中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010614165.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种圆规
- 下一篇:一种基于多槽硅基纳米线波导的全光逻辑门器件





