[发明专利]声音检索装置有效
申请号: | 200810091710.4 | 申请日: | 2008-04-09 |
公开(公告)号: | CN101286170A | 公开(公告)日: | 2008-10-15 |
发明(设计)人: | 花沢利行;冈登洋平 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L15/08;G10L15/14 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 吴丽丽 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 检索 装置 | ||
技术领域
本发明涉及利用声音识别来检索文书等各种文本(text)的装置。
背景技术
对于利用声音来检索文书等各种文本的技术,一般有以下的方法:利用听写(dictation)型声音识别而将声音变换为文本,在文本上进行全文检索。但是,在该方法中,能够识别的短语数限于数千~数万,因此,在对包含这以外的短语的文书等进行检索的情况下,需要考虑未知词的处理。
作为对策,在特开2003-271629号公报中,揭示了以下的技术:以单词为单位在检索对象的文书中只识别出现频度高的高位K个单词,而以音节为单位识别除此以外的单词。然后,利用作为识别结果被抽出的单词,通过全文检索而预先选择文书,然后,推测作为音节序列而识别出的部分的单词,得到最终的检索结果。
专利文献1:特开2003-271629号公报
在上述现有技术中,针对输入声音中的被识别为单词的位置,将单词作为索引语而进行全文检索。因此,有以下的问题,即如果在识别为单词的位置有错误识别,则检索精度低下。例如有以下的问题:即使假设发言为“和歌山の那智大滝”,识别结果的全部单词得到“冈山の町大田区”,也无法检索到包含“和歌山県の那智大滝”的文书。
发明内容
本发明就是为了解决上述问题而提出的,其目的在于:即使在发言的文字标记和声音识别结果的文字标记不一致的情况下,如果音响上类似,也能够进行检索。
另外,其目的在于:提供一种即使在包含未知词的文书中也能够抑制识别率低下的技术。
另外,其目的在于:即使在发言短而检索线索少的情况下,也减少检索遗漏的技术。
本发明的声音检索装置具备:
将检索对象的文书等文本数据分割为规定的语言单位并输出的学习数据分割单元;
根据上述分割结果,作成声音识别用的语言模型的语言模型作成单元;
按照比上述学习数据分割单元中的分割单位小的单位,对上述检索对象的文书等文本数据进行分割,作成文本检索辞典的文本辞典作成单元;
使用上述语言模型识别输入声音,并作为文本输出声音识别结果的声音识别单元;
将上述声音识别结果分割为与上述文本辞典作成单元一样的分割单位并输出的对照单位变换单元;
将上述对照单位变换单元的输出作为输入,使用上述文本检索辞典,进行文本检索的文本检索单元。
根据本发明,构成为参照被分割为语言单位的语言模型和声音特征被模型化了的音响模型,进行输入声音的声音识别,输出音素标记,按照与以比上述语言模型小的单位分割的文本检索辞典的分割单位相同的单位,由对照单位变换单元分割上述音素标记,使用该分割结果,由文本检索单元进行文本检索辞典的检索,因此,具有以下的效果:即使在识别结果的单词序列中包含错误识别的情况下,也能够检索希望的设施。
附图说明
图1是表示本发明的声音检索装置的实施例1的结构的框图。
图2是语言模型学习数据存储器的内容例子的说明图。
图3是文本检索辞典的内容例子的说明图。
图4是实施例2的加权系数表的内容例子的说明图。
图5是实施例2的语言模型的作成流程图。
图6是表示实施例3的结构的框图。
图7是实施例3的语言模型的作成流程图。
图8是表示实施例4的结构的框图。
图9是实施例4的声音识别候选数表的内容例子的说明图。
图10是实施例4的文本检索单元的文本检索流程图。
具体实施方式
实施例1
图1是表示本发明的声音检索装置的实施例1的结构的框图。
在该图中,1是声音输入端,2是输入声音,3是声音识别单元,4是对声音识别结果的对照单位进行变换的对照单位变换单元,5是文本检索单元,6是语言模型存储器,7是音响模型存储器,8是语言模型学习数据存储器,9是学习数据分割单元,10是语言模型作成单元,11是文本检索辞典作成单元,12是文本检索辞典存储器,13是检索结果。在音响模型存储器7中存储有对声音的特征进行了模型化后的音响模型。在本实施例中,音响模型例如是HMM(Hidden MarkovModel)。
在本实施例中,以以下的情况为例子进行说明,即将日本全国的设施、观光点的名称(以后为了简化,将设施和观光点总称为设施)看作是由若干个单词组成的文本文书,通过声音识别来检索设施或观光点的名称。进而,不只是通常的单词声音识别,还通过文本检索的构架来实施设施名称检索,其优点是:即使用户无法正确地知道检索对象的设施名,只要一部分匹配,则也能够进行检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810091710.4/2.html,转载请声明来源钻瓜专利网。