[发明专利]基于优化GFCC特征参数的说话人识别方法在审

申请号：	201810434414.3	申请日：	2018-05-08
公开（公告）号：	CN108717854A	公开（公告）日：	2018-10-30
发明（设计）人：	兰朝凤;韩旭	申请（专利权）人：	哈尔滨理工大学
主分类号：	G10L17/00	分类号：	G10L17/00;G10L17/04;G10L15/26;G10L21/0208
代理公司：	暂无信息	代理人：	暂无信息
地址：	150080 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	降噪处理模块特征参数说话人识别优化建模语音识别技术语音识别器处理数据分析模块快速筛选模块连接数据采集音标识别率小波包字符串声调单词过滤数据库存储筛选输出说话计算机分析学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于优化GFCC特征参数的说话人识别方法，它涉及语音识别技术领域；它的方法如下：将语音识别器与安装在计算机内部的降噪处理模块连接，同时降噪处理模块与字符串记模块连接，根据输入的声音经过降噪处理模块进行初处理，同时处理后，通过GFCC特征参数进行识别并采用小波包进行优化，然后使用深度学习进行建模；根据建模后在人说话后进行数据采集，并产生相关的音标、单词、声调以及语速，其经过分析模块进行分析，将分析结果进行输出并存储；将数据进行汇总并进行标记，其标记出相同的部分，将相同的部分进行筛选、优化；本发明能提高处理数据速度与识别率，节省时间，同时数据库全面；在使用时能实现快速筛选与过滤，效率高。

技术领域

本发明属于语音识别技术领域，具体涉及基于优化GFCC特征参数的说话人识别方法。

背景技术

语音是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。在语言的形、音、义三个基本属性当中，语音是第一属性，人类的语言首先是以语音的形式形成，世界上有无文字的语言，但没有无语音的语言，语音在语言中起决定性的支撑作用。

语音即语言的声音，是语言符号系统的载体。它由人的发音器官发出，负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统，语言的声音和语言的意义是紧密联系着的，因此，语言虽是一种声音，但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音，不能把语音看成纯粹的自然物质；语音是最直接地记录思维活动的符号体系，是语言交际工具的声音形式。

语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术，其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中，根据语音识别引擎所基于的数学模型，从训练数据中统计地得到声学模型（acoustic model，AM）和词汇表（lexicon）。在识别阶段中，语音识别引擎使用声学模型和词汇表对输入的语音进行处理，得到语音识别结果。例如，从输入声音的声波图进行特征提取以获得特征向量，然后根据声学模型得到音素序列，最后从词汇表中定位与音素序列匹配度较高的单词，甚至是句子。

现有的语音识别时其速度慢，且不能实现优化，导致数据库不全的现象。

发明内容

为解决上述背景技术中所提到的现有的语音识别时其速度慢，且不能实现优化，导致数据库不全的现象的问题；本发明的目的在于提供基于优化GFCC特征参数的说话人识别方法。

本发明的基于优化GFCC特征参数的说话人识别方法，它的方法如下：

步骤一：将语音识别器与安装在计算机内部的降噪处理模块连接，同时降噪处理模块与字符串记模块连接，其计算机内安装有处理器、存储器、输出器；

步骤二：根据输入的声音经过降噪处理模块进行初处理，同时处理后，通过GFCC特征参数进行识别并采用小波包进行优化，然后使用深度学习进行建模；

步骤三：根据建模后在人说话后进行数据采集，并产生相关的音标、单词、声调以及语速，其经过分析模块进行分析，将分析结果进行输出并存储；

步骤四：将数据进行汇总并进行标记，其标记出相同的部分，将相同的部分进行筛选、优化；

步骤五：将优化与筛选的数据进行整合成数据库，并经过验证后存储数据。

作为优选，所述步骤四中标记的方法是通过单独的标记方式，同时在单独标记时通过标记器进行标记。

作为优选，所述字符串记模块将语音识别器生成识别结果的过程中生成的字符。

作为优选，所述降噪处理模块采用二次降噪方式进行降噪。