[发明专利]基于术语提取的跨语言信息匹配方法在审
申请号: | 201711101619.1 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107908712A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 刘刚;胡昱临;孙素艳 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 术语 提取 语言 信息 匹配 方法 | ||
技术领域
本发明涉及的是一种跨语言信息匹配方法。
背景技术
1.术语提取
术语是特定领域中针对特定概念的指称。目前,学者们对领域术语普遍认同的观点是:领域术语(DomainTerm)是一个集合,这个集合是在特定学科领域用来表示特定概念称谓的。国内的研究人员普遍认同领域术语是名词或者是科技名词,但是这里所说的“名词”并不同于语言学上的名词。
术语与概念之间存在1:1的模式。换句话说就是每一个领域术语都只可以代表唯一的特定概念。反过来讲,一个特定概念也只能有一个唯一的指称领域术语。这也恰恰说明了领域术语的两个重要特性,即单义性与单名性。假设一个术语不能满足单义性和单名性,那么就容易在一个学科或多个学科内出现异义和多义现象。
术语自动抽取方法主要分为三种:基于规则的方法、基于统计的方法以及规则和统计相结合的方法。由于基于规则和基于统计的方法各有优缺点,把两者结合起来能够取长补短,最近的研究大部分结合了统计学和语言学的方法。
2.跨语言匹配
中英文跨语言信息检索系统中,用户通过汉语(或英语)提问检索相关英语(或汉语)文献。针对跨语言信息检索有四个常见的匹配方法:同源匹配(Homologous matching)、文献翻译(Document translation)、中间语言技术(Interlingua Technology)和查询翻译(Query translation)。
同源匹配根据两种语言的词语拼写形式或读音相似度来判断其中一种语言词语的意义,不进行任何翻译。例如,法语就可以被看作有拼写错误的英语单词,直接对英语文件执行信息检索,而不用相互翻译。
文献翻译与查询翻译正好相反,它先将多语言的原始信息集合转换成与查询相同的语言,然后进行单语言信息检索过程。
潜在语义索引(Latent SemanticIndexing,LSI)与广义向量空间模型等方法是现在常见的不需要进行翻译就可以完成跨语言信息检索的方法。跨语言潜语义索引(Cross-Language Latent Semantic Indexing)就是根据不同语种的语义空间和语料库中中英文对应关系从而根据一种语言检索另一种语言的方法。
查询翻译就是将用户输入的提问式(源语言)翻译为系统支持的语言(目标语言),然后再将目标语言的提问式提交给匹配模块,进行单语言信息检索。
发明内容
本发明的目的在于提供一种在相近效率的条件下能够提高准确率的基于术语提取的跨语言信息匹配方法。
本发明的目的是这样实现的:
步骤1:以句子为单位作为术语提取的基础,通过对文本断句、分词以及过滤停用词的过程提取数据集合;
步骤2:经过中文分词之后得到待过滤的词汇集合;
步骤3:加载停用词文本,从词汇集合中读入一个词汇,将词汇在停用词文本中进行查找,若找到,则过滤掉该字符,否则不过滤;
步骤4:句子为单位进行分词和停用词过滤;
步骤5:若word.natures是名词则保留该名词,若word.nature是形容词,则判断下一个词的词性,若下一个词是名词,则保留该名词;若word.nature是动词,则判断前后两个词,若是名词,则保留该名词;
步骤6:通过步骤3-5的方法对文本集合进行过滤,得到过滤后的文本集List,返回规则过滤后的集合List;
步骤7:假设字符串s的长度L(s)>1,并且s是某个词的左右词边界,这个字符串s被作为一个完整的词语;
步骤8:假如s是词语w相应的左词边界,将w写成w=sx,其中x是任意字符串;假如s是词w相应的右词边界,将w写成w=ys,其中y是任意字符串;假如s同时是词w的左右词边界,那么必然有:(1)s与w相同;(2)w=sxs这两种情况里面的一种,并且x是任意字符串;假如某一个字符串s能够作为一个词的左右边界时,能够将当前这个字符串当做是一个完整词语。
步骤9:根据基于术语规则过滤的结果,得到候选术语集合;
步骤10:计算候选术语集合中词语的左右信息熵,然后根据左右信息熵计算总信息熵,相同词语的信息熵进行相加,对总信息熵进行排序,保留满足左右信息熵H(s)>IEmin的词语,其中IEmin是自定义的一个数值;
步骤11:对每个词语的得分进行排序,如果词语的得分相同,则依次按照信息熵的大小和反文档频率IDF的大小对集合进行排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711101619.1/2.html,转载请声明来源钻瓜专利网。