[发明专利]基于术语提取的跨语言信息匹配方法在审

申请号：	201711101619.1	申请日：	2017-11-10
公开（公告）号：	CN107908712A	公开（公告）日：	2018-04-13
发明（设计）人：	刘刚;胡昱临;孙素艳	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于术语提取语言信息匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于术语提取的跨语言信息匹配方法，其特征是：

步骤1：以句子为单位作为术语提取的基础，通过对文本断句、分词以及过滤停用词的过程提取数据集合；

步骤2：经过中文分词之后得到待过滤的词汇集合；

步骤3：加载停用词文本，从词汇集合中读入一个词汇，将词汇在停用词文本中进行查找，若找到，则过滤掉该字符，否则不过滤；

步骤4：句子为单位进行分词和停用词过滤；

步骤5：若word.natures是名词则保留该名词，若word.nature是形容词，则判断下一个词的词性，若下一个词是名词，则保留该名词；若word.nature是动词，则判断前后两个词，若是名词，则保留该名词；

步骤6：通过步骤3-5的方法对文本集合进行过滤，得到过滤后的文本集List，返回规则过滤后的集合List；

步骤7：假设字符串s的长度L(s)＞1，并且s是某个词的左右词边界，这个字符串s被作为一个完整的词语；

步骤8：假如s是词语w相应的左词边界，将w写成w＝sx，其中x是任意字符串；假如s是词w相应的右词边界，将w写成w＝ys，其中y是任意字符串；假如s同时是词w的左右词边界，那么必然有：(1)s与w相同；(2)w＝sxs这两种情况里面的一种，并且x是任意字符串；

步骤9：根据基于术语规则过滤的结果，得到候选术语集合；

步骤10：计算候选术语集合中词语的左右信息熵，然后根据左右信息熵计算总信息熵，相同词语的信息熵进行相加，对总信息熵进行排序，保留满足左右信息熵H(s)＞IE_min的词语，其中IE_min是自定义的一个数值；

步骤11：对每个词语的得分进行排序，如果词语的得分相同，则依次按照信息熵的大小和反文档频率IDF的大小对集合进行排序；

步骤12：对排序后的集合，取得分大于预定阈值即Score＞Score_min的词进行保留，其中Score_min是人工得到的数值；

步骤13：对Term进行机器翻译得到术语翻译集合Term_Translate；

步骤14：若术语翻译集合Term_Translate是根据字典进行的翻译，将其加入到字典翻译集合Term_entrem中，否则加入中英文对齐后的英文集合Map_Result.put；

步骤15：对字典翻译集合List_EnTerm中的集合求笛卡尔积List_Descartes；

步骤16：遍历笛卡尔积List_Descartes集合中的每一个集合，如果匹配，则Sum＝Sum+Value；然后将这个词语插入到未登陆词相应的数据表内，查找具有最大Sum相应的存储英文序列的集合List_Max；返回英文最终结果Map_Result；

步骤17：用英文搜索引擎Lucene对英文信息文本进行创建倒排索引；

步骤18：根据英文搜索引擎Lucene自带排序方式对文本得分进行计算，并根据得分返回排序结果；

步骤19：搜索引擎一旦接收到关键字信息便开始在资源文本中进行检索；

步骤20：根据检索文本的得分情况，对检出的文本进行排序然后提交给使用者。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711101619.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载