[发明专利]语音处理方法、信息装置与计算机程序产品在审
申请号: | 201810988537.1 | 申请日: | 2018-08-28 |
公开(公告)号: | CN110867191A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 许云旭;陈柏儒 | 申请(专利权)人: | 洞见未来科技股份有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0272;G10L25/51;H04L29/08 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 梁丽超;田喜庆 |
地址: | 萨摩亚*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 信息 装置 计算机 程序 产品 | ||
本发明涉及一种语音处理方法、信息装置与计算机程序产品。该计算机执行的语音处理方法,包含:通过一麦克风取得一混合语音信号,其中该混合语音信号至少包含不特定的多个说话人所同时发出的多个语音信号;根据该混合语音样本信号而利用一生成对抗网络产出一组模拟语音信号,以模拟该多个语音信号;以及决定该组模拟语音信号的信号数目以估计所在环境中该多个说话人的人数,并提供作为一信息应用程序的输入。
技术领域
本发明大体而言关于计算机执行的语音处理方法与信息装置。特别地,关于一种计算机执行的语音处理方法与信息装置,其可从所接收到的混合语音信号中估计所在环境中不特定说话人的人数。
背景技术
关于可检测语音且可供用户通过语音进行控制的信息装置,目前已有商业化的智能音箱产品,其基本结构可参考Amazon公司的产品Amazon Echo或是Google公司的产品Google Home而加以了解。此类装置一般而言具有处理器,而可在本地或是通过网络而在云端执行各式应用程序,以提供各式信息服务。
此外,以Google Home为例,其可支持多用户,也就是可为每个用户提供不同的服务。为了要对用户进行识别,每个用户必须先注册其声纹。用户先对着Google Home说出「OkGoogle」和「Hey Google」两个唤醒词。然后Google Home会分析那些唤醒词,以分析出该用户声纹的特征。之后该用户再对Google Home说「Ok Google」或「Hey Google」,Google Home就将声音与以前所注册的声纹比较,理解是谁在说话。
另一方面,现有技术也可针对用户所发出的语音内容进行辨识,例如可辨识出用户话语中的特定字眼,进而决定用户当下所感兴趣的事物或是用户当下的情绪,由此可决定所要提供给该用户的服务内容。对此可参考例如美国专利US 9934785或是USPub.20160336005。
发明内容
虽然现有技术中可以做到说话人的辨识以及单字或语句内容的识别,但仍然有需要改进的空间。特别是,为了提供更符合用户需求的服务,会希望能够针对当下的环境特性(profile)及/或用户的行为模式进行识别。对此,本发明体认到通过对于环境中说话人的人数以及人数变化进行辨识,可以合理地推断出环境的特性以及环境中用户的行为模式。
以住家环境为例,在一天当中,由于大部分的家庭成员在日间皆外出上班上学,因此在此环境中日间的说话人的数目最少,而到傍晚以后增加,在到晚餐时间可能人数到最大值。相较之下,在一般办公室的环境中,其说话人的数目会在上班时间较多,而到下班时间后逐渐减少。因此,可以根据说话人的数目以及在一天之中变化的趋势,再搭配其他已知的信息(例如通过GPS数据或是网络IP地址所推知的地理信息),可对用户所在环境的特性进行更精确的判断,进而提供客制化的服务。
现有技术中也许可通过声纹辨识来识别出说话人的数目,但仍有些许不足之处。首先,现有技术中例如上述Google Home声纹辨识的作法,必须仰赖用户先将其声纹进行注册,使用上并不方便。此外目前已有金融机构以用户的声纹作为身分验证工具,因此某些用户可能会担心声纹数据外泄遭滥用而不愿轻易提供。其次,纵使用户愿意预先注册其声纹,然而当同时有不特定的多数用户进行交谈或同时说话时,也就是俗称「鸡尾酒会问题(cocktail party problem)」的情况下,通过预先注册的声纹进行比对来判断出当下环境中说话人的数目并不容易,而在人数无法确定的情况下,要进一步将各个声纹一一区分而加以辨识其内容,或是要分离各个说话人的声音就更为困难。
有鉴于此,本发明一方面提出一种计算机执行的语音处理方法与信息装置,其可采用深度学习(deep learning)的作法,特别是生成对抗网络(Generative AdversarialNetwork)模型,而从所接受到的混合语音信号中估计所在环境中不特定说话人的人数,且优选地,其可不需要用户预先提供其声纹(即预先注册声纹)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于洞见未来科技股份有限公司,未经洞见未来科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810988537.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置