[发明专利]使用基于人工神经网络的亚语音单位区分的说话人验证及识别在审
申请号: | 201380069560.6 | 申请日: | 2013-12-05 |
公开(公告)号: | CN104903954A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 约翰-保罗·荷索姆;彼得·J·韦尔默朗;乔纳森·肖 | 申请(专利权)人: | 感官公司 |
主分类号: | G10L17/14 | 分类号: | G10L17/14;G10L17/18 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 章蕾 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 基于 人工 神经网络 语音 单位 区分 说话 验证 识别 | ||
相关申请案的交叉参考
本申请案要求2013年1月10日提交、标题为“Speaker Verification and Identification Using Artificial Neural Network-Based Sub-Phonetic Unit Discrimination(使用基于人工神经网络的亚语音单位区分的说话人验证及识别)”的第13/738,868号美国专利申请案的优先权的权利,所述申请案的揭示内容特此以引用的方式并入本文中。
背景技术
在话音辨识处理中,说话人验证是指确定未知语声的话音样本是否对应于特定已登记说话人的任务。现有技术说话人验证系统通常使用说话人特有声学模型及单独的“通用”或“说话人无关”声学模型生成话音样本的评分。如果说话人特有声学模型的评分充分超过通用声学模型的评分,那么认为话音样本来自在考虑之中的已登记说话人。
说话人识别为涉及使未知语声的话音样本与已登记说话人集合中的说话人相关联的相关任务。现有技术说话人识别系统相似于现有技术说话人验证系统,但使用所有可用的说话人特有声学模型对话音样本进行评分。认为话音样本来自其声学模型产生最高评分的已登记说话人。在某些情况下,还比对通用声学模型对话音样本进行评分,使得如果最高评分的说话人特有声学模型的评分未充分超过通用声学模型的评分,那么认为话音样本来自“假冒者”(即,不在已登记说话人集合中的某人)。
如上述比对一或多个说话人特有声学模型以及单独的通用声学模型对话音样本进行评分所存在的一个问题在于:这会增加说话人验证/识别任务的总处理时间,因为必须对通用声学模型重复评分过程。如果在具有有限计算资源的装置上执行所述任务,那么这可能是有问题的。此外,在说话人验证的情形中,必须相对于经由说话人特有声学模型生成的评分及经由通用声学模型生成的评分设置适当决策阈值,以便确定是承认还是否认话音样本来自所声称说话人。这个决策阈值的调节是困难的,因为必须考虑两个评分的潜在可变性。
因此,期望有解决前述问题及其它问题的改进的说话人验证及识别技术。
发明内容
根据一个实施例,一种方法包括由计算机系统存储多个说话人的话音数据,其中所述话音数据包含多个特征向量及每一特征向量的相关联亚语音类。所述方法进一步包括由所述计算机系统基于所述话音数据,建置人工神经网络(ANN)以对所述多个说话人中的目标说话人的话音进行建模,其中所述ANN经配置以区分由所述目标说话人说出的亚语音类的实例与由所述多个说话人中的其他说话人说出的亚语音类的实例。
在一个实施例中,建置所述ANN包括检索包含多个现存输出节点的现存ANN,其中每一现存输出节点对应于亚语音类且经配置以输出输入到所述现存ANN的特征向量为由所述多个说话人中的其他说话人中的一者说出的亚语音类的实例的概率。接着修改所述现存ANN以生成所述ANN,其中所述修改造成所述ANN包含输出层,所述输出层包括所述多个现存输出节点及每一现存输出节点的对应于与所述现存输出节点相同的亚语音类的新输出节点。所述新输出节点经配置以输出输入到所述ANN的特征向量为由所述目标说话人说出的亚语音类的实例的概率。
在一个实施例中,建置所述ANN进一步包括使用源自所述目标说话人的话音数据的第一部分训练所述ANN,使得对于所述第一部分中的每一特征向量及相关联亚语音类,对应于所述相关联亚语音类的新输出节点(即,所述亚语音类的“目标说话人”输出节点)经调节以输出相对较高的概率且对应于所述相关联亚语音类的现存输出节点(即,所述亚语音类的“非说话人”输出节点)经调节以输出相对较低的概率。
在另一实施例中,建置所述ANN进一步包括使用源自所述其他说话人的话音数据的第二部分训练所述ANN,使得对于所述第二部分中的每一特征向量及相关联亚语音类,对应于所述相关联亚语音类的新输出节点经调节以输出相对较低的概率且对应于所述相关联亚语音类的现存输出节点经调节以输出相对较高的概率。
在一个实施例中,所述ANN进一步包含包括多个输入节点的输入层及包括一或多个隐藏节点的一或多个隐藏层。所述输入层经由具有第一组权重的第一组连接连接到所述一或多个隐藏层中的最低隐藏层,所述一或多个隐藏层(如果不只一个)经由具有第二组权重的第二组连接从较低层连接到较高层,且最高隐藏层经由具有第三组权重的第三组连接连接到所述输出层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于感官公司,未经感官公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380069560.6/2.html,转载请声明来源钻瓜专利网。