[发明专利]基于语言模型的信息检索和语音识别有效
申请号: | 99804555.1 | 申请日: | 1999-02-09 |
公开(公告)号: | CN1295705A | 公开(公告)日: | 2001-05-16 |
发明(设计)人: | 米林德·V·迈哈简;黄学东 | 申请(专利权)人: | 微软公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/08;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 于静 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 模型 信息 检索 语音 识别 | ||
本发明是关于语音识别和信息检索的,更具体地讲,本发明是关于一种利用信息检索技术来匹配某种语言模型的语音识别系统以及一种利用语音识别语言模型来检索相关的文档的信息检索技术的。
一般地讲,信息检索是一个从大量的信息存储中查找和检索与用户有关的信息的过程。在执行信息检索的过程中,检索出用户需要的所有信息是重要的(即完整性是重要的),同时限制检索出的与用户无关的信息也是重要的(即选择性也是重要的)。这些方面通常根据查全率(完整性)和精确率(选择性)来定义。在许多信息检索系统中,非常有必要在查全率和精确率两方面都获得良好的性能。
在目前的一些检索系统中,能够被查询和检索的信息是非常大的。例如,一些信息检索系统被设置为在因特网、数字视频盘和其它通用的计算机数据库中搜索信息。例如这些信息检索系统通常被做成因特网搜索引擎和库目录搜索引擎。
许多信息检索技术是众所周知的。例如当用户需要文档类或与现有文档的某个集合相似的信息时,在这些技术中,一个用户输入查询通常被表示成要么是一个明确的由用户生成的查询,要么是一个隐含的查询。然后,典型的信息检索系统在庞大的数据存储中在单词级或在术语级上搜索文档。这些文档中的每一个都被指定了一个关联(或相似)度,信息检索系统向用户提供被搜索的文档的一定子集,通常该子集具有一个超过某给定的门限的相关度。
目前一些著名的信息检索技术或方法包括全文本扫描、签名文件的使用、转换、矢量建模和聚类以及tf*idf(术语频率*反相文档频率)。在全文本扫描中,布尔函数被用在一个查询中以确定被搜索的某个文档是否包含某些词串,在这种扫描技术中,通常是搜索文档的每个词以查看它是否满足搜索串(也就是该查询),然后,当发现词串不匹配时,将搜索串向右边移动一个位置。该系统已经被适配,可以使用对这个查询进行预处理的其它方法,例如当发现词串不匹配时,将搜索串向右边移动多个位置。
签名文件的使用涉及到从被检索的文档中去除常用的词,并把不常用的词变为词干。每个被搜索的文档都产生一个位串(即一个签名)。各种文档的这些签名被顺序地存储在与这些文档本身相分离的一个文件中。
转换技术涉及到构造一关键词列表以表示每个文档。这些关键词存储在一个索引文件中。对于每个关键词都包含有一个代表合格文档的指针列表。然后,该查询会沿着索引进行,并用指针来识别相关的和合格的文档。
矢量建模和聚类涉及到把相类似的文档划分成被称为簇的组(这种技术也能够应用于术语而不是文档中)。为了生成一个簇,把常用的词去除并把剩余的词变成词干(这包括前缀和后缀的去除)以形成索引。同义词一般也被放在一个概念类中,该概念类中的术语可以用频率、特殊性、相关度等来加权。索引被用来将这些文档表示为t-维空间中的一个点。然后,这些点被用一个相似性矩阵划分为多个组,此矩阵通常是通过迭代过程生成的。为了搜索簇,一个查询被表示为一个t-维矢量并与簇中心进行比较。一个簇至查询相似性函数被生成并被用来提出相关的文档。被提出(或被检索)的那些文档通常是那些具有超过某一预定义的门限值的相似性值的文档。
为了获得更好的性能,在一些信息检索技术中,语义信息被用来捕获更多关于信息存储中每个文档的信息。在这种系统中,自然语言处理被用来将查询的语义内容与被检索的文档的语义内容进行匹配。语句或词组被用作对所检索的文档进行索引的术语。隐含的语义索引涉及到构成一个术语/文档矩阵,在该矩阵中,一个指定文档中的术语出现的频率被标记在矩阵中。小的奇异值通常被移去而剩余的术语的频率矢量则被映射。查询也被生成术语的频率矢量,而且根据包含这些文档的术语频率矢量的矩阵被映射。为了获得余弦相似性测度,这些文档使用归一化线性产品进行分类。
使用语义信息的另一类信息检索技术是神经网络。实际上,对应于辞典中的每一个概念,构造一个辞典隐含层中的一个节点。然后,利用遍历激活方法传递搜索。
术语频率*反相文档频率(tf*idf)是被用来确定文档的相关度的另一种技术。首先,在一个查询中所使用的术语根据该文档来测量以确定在该文档中那个术语的频率。可以肯定,当文档中的术语的频率增加时,与该文档和该术语相关联的程度也增大。同样可以肯定,当术语出现在其中的文档数量增加时,用来区分各文档的术语的有效性降低了。因此,指定术语的频率也根据整个数据存储来测量以确定在所有的文档中该术语的频率级。这两种测量方法被用来确定在被检索的数据存储中任意给定的文档的相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/99804555.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于自动插装机的电气组件的输送模块
- 下一篇:在基片上形成像素的方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置