[发明专利]语音检索方法及系统有效
申请号: | 201310315239.3 | 申请日: | 2013-07-25 |
公开(公告)号: | CN103440253A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 吴及;李伟;贺志阳;吕萍;何婷婷 | 申请(专利权)人: | 清华大学;安徽科大讯飞信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇智胜知识产权代理事务所(普通合伙) 11346 | 代理人: | 朱登河 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 检索 方法 系统 | ||
技术领域
本发明涉及语音检索技术领域,具体涉及一种语音检索方法及系统。
背景技术
语音检索是多媒体检索中的一个分支,主要用于实现对海量语音文档进行快速检索。语音检索接收文本词汇或短语(俗称关键词)的关键词查询输入,并在待检索的语音文档库中确定包含关键词的语音文档及确定所述关键词在语音文档中的位置信息。
传统语音检索系统需要预先采用语音识别技术对语音文档进行文本识别,然后根据识别结果创建检索索引,在检索阶段,当接收到用户输入的检索关键词时,通过直接检索的方法从所述检索索引中确定包含关键词的语音文档信息,即直接使用用户输入的关键词在所述检索索引上进行关键词匹配搜索。
传统语音检索系统在检索阶段有以下两类问题无法解决:
(1)分词不一致带来的检索问题
大词汇量连续语音识别系统基于词的识别结果和用户输入查询项的分词结果可能存在不一致性,这会导致用户查询时输入的查询词可能与识别结果中包含的词不完全相同,从而无法得到该检索结果。比如用户输入查询“大会议程”,分词系统给出分词结果“大会议程”,同时一些语音文件中包含语音内容“大会议程”,但相应语音片段的识别结果为“大会议程”,这样系统就无法检索到该识别结果。
(2)识别结果错误带来的检索问题
由于现今任何语音识别系统都无法保证百分之百正确的识别率,所以基于包含错误的语音识别结果构建的检索索引也一定会影响到检索效果。比如用户输入查询为“大会”,一些语音文件包含语音内容“大会”但相应语音片段的识别结果为“开大会”。
由于以上原因,传统语音检索系统并不能够取得理想的检索效果。
发明内容
本发明实施例提供一种语音检索方法及系统,以解决现有技术中由于语音识别结果等问题导致的检索错误,提高检索结果的有效性和全面性。
为此,本发明提供如下技术方案:
一种语音检索方法,包括:
接收用户输入的检索关键词;
对所述检索关键词进行单字切分,得到单字切分分词;
根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构;
根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。
优选地,所述根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构包括:
依次判断所述单字切分分词的相邻两个或多个单字的组合是否为预置词典中的词;
如果是,则将所述组合作为所述检索关键词的子词;
将所有子词表示在一个有向图中,得到关键词图结构。
优选地,所述根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构还包括:
根据所述预置词典中的词对所述关键词图结构中的分词进行前缀扩展;和/或
根据所述预置词典中的词对所述关键词图结构中的分词进行后缀扩展。
优选地,所述对所述单字切分分词进行前缀扩展包括:
依次判断所述检索关键词中的前部分或全部字是否为所述预置词典中特定词的后缀;
如果是,则将所述特定词作为所述检索关键词的扩展词;
将所述扩展词添加到所述关键词图结构中。
优选地,所述对所述单字切分分词进行后缀扩展包括:
依次判断所述检索关键词中的后部分或全部字是否为所述预置词典中特定词的前缀;
如果是,则将所述特定词作为所述检索关键词的扩展词;
将所述扩展词添加到所述关键词图结构中。
优选地,所述根据预先构建的索引库依次对扩展后的关键词图结构中的每条弧上的词进行检索,得到检索结果包括:
遍历所述关键词图结构中的每一条弧,根据预先构建的索引库对弧上的词进行检索,将检索结果保存在所述弧上;
对所述关键词图结构中的节点按照从左至右的顺序依次更新节点的检索信息:其中,对于每个节点,依次处理出弧,将出弧上的检索信息传递到出弧所对应的终止节点上,该终止节点上接收新来的检索结果时,将与原有检索结果进行保序归并操作。
优选地,所述方法还包括:采用离线方式构建所述索引库,所述构建所述索引库包括:
对待检索的语音文档进行语音识别,得到包含文字和时间信息的词图,所述词图以有向无环图的方式表示了一段语音的多个识别结果;
对所述词图中的每个词构建倒排索引。
一种语音检索系统,包括:
接收模块,用于接收用户输入的检索关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;安徽科大讯飞信息科技股份有限公司,未经清华大学;安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310315239.3/2.html,转载请声明来源钻瓜专利网。