[发明专利]基于术语提取的跨语言信息匹配方法在审
申请号: | 201711101619.1 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107908712A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 刘刚;胡昱临;孙素艳 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 术语 提取 语言 信息 匹配 方法 | ||
1.一种基于术语提取的跨语言信息匹配方法,其特征是:
步骤1:以句子为单位作为术语提取的基础,通过对文本断句、分词以及过滤停用词的过程提取数据集合;
步骤2:经过中文分词之后得到待过滤的词汇集合;
步骤3:加载停用词文本,从词汇集合中读入一个词汇,将词汇在停用词文本中进行查找,若找到,则过滤掉该字符,否则不过滤;
步骤4:句子为单位进行分词和停用词过滤;
步骤5:若word.natures是名词则保留该名词,若word.nature是形容词,则判断下一个词的词性,若下一个词是名词,则保留该名词;若word.nature是动词,则判断前后两个词,若是名词,则保留该名词;
步骤6:通过步骤3-5的方法对文本集合进行过滤,得到过滤后的文本集List,返回规则过滤后的集合List;
步骤7:假设字符串s的长度L(s)>1,并且s是某个词的左右词边界,这个字符串s被作为一个完整的词语;
步骤8:假如s是词语w相应的左词边界,将w写成w=sx,其中x是任意字符串;假如s是词w相应的右词边界,将w写成w=ys,其中y是任意字符串;假如s同时是词w的左右词边界,那么必然有:(1)s与w相同;(2)w=sxs这两种情况里面的一种,并且x是任意字符串;
步骤9:根据基于术语规则过滤的结果,得到候选术语集合;
步骤10:计算候选术语集合中词语的左右信息熵,然后根据左右信息熵计算总信息熵,相同词语的信息熵进行相加,对总信息熵进行排序,保留满足左右信息熵H(s)>IEmin的词语,其中IEmin是自定义的一个数值;
步骤11:对每个词语的得分进行排序,如果词语的得分相同,则依次按照信息熵的大小和反文档频率IDF的大小对集合进行排序;
步骤12:对排序后的集合,取得分大于预定阈值即Score>Scoremin的词进行保留,其中Scoremin是人工得到的数值;
步骤13:对Term进行机器翻译得到术语翻译集合Term_Translate;
步骤14:若术语翻译集合Term_Translate是根据字典进行的翻译,将其加入到字典翻译集合Term_entrem中,否则加入中英文对齐后的英文集合Map_Result.put;
步骤15:对字典翻译集合List_EnTerm中的集合求笛卡尔积List_Descartes;
步骤16:遍历笛卡尔积List_Descartes集合中的每一个集合,如果匹配,则Sum=Sum+Value;然后将这个词语插入到未登陆词相应的数据表内,查找具有最大Sum相应的存储英文序列的集合List_Max;返回英文最终结果Map_Result;
步骤17:用英文搜索引擎Lucene对英文信息文本进行创建倒排索引;
步骤18:根据英文搜索引擎Lucene自带排序方式对文本得分进行计算,并根据得分返回排序结果;
步骤19:搜索引擎一旦接收到关键字信息便开始在资源文本中进行检索;
步骤20:根据检索文本的得分情况,对检出的文本进行排序然后提交给使用者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711101619.1/1.html,转载请声明来源钻瓜专利网。