[发明专利]一种面向学科领域的新专业词汇识别方法无效

专利信息
申请号: 201010299588.7 申请日: 2010-10-08
公开(公告)号: CN101950309A 公开(公告)日: 2011-01-19
发明(设计)人: 刘清堂;黄涛;刘瑶瑶;黄焕;吴林静 申请(专利权)人: 华中师范大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 武汉天力专利事务所 42208 代理人: 吴晓颖;冯卫平
地址: 430079 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 学科 领域 专业 词汇 识别 方法
【权利要求书】:

1.一种面向学科领域的新专业词汇识别方法,该方法使用的硬件部分包括文本预处理部件、基于贪婪的原子词汇构词法的新词串构建与统计部件、垃圾词串过滤部件、重复子串筛选部件、新专业词汇提炼和结果排序部件,其特征在于该方法包括以下步骤:

(1)文本预处理部件对文本格式进行转换,进行文本清洗、去除噪音文字,再抽取出文中用特殊符号标志的长度不大于10的词串,形成候选新词表1;

(2)基于贪婪的原子词汇构词法的新词串构建与统计部件首先对经过上述文本预处理后的内容进行分词,然后按照词性去除不能构词的词语,再采用原子词汇构词法对文中的候选词串进行统计,形成候选新词表2;

(3)垃圾词串过滤部件针对领域特点对候选新词表进行过滤,过滤掉不符合领域特点的部分;

(4)重复子串筛选部件利用频率相减法对包含有相同内容的重复子串进行筛选;

(5)新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来筛选掉部分垃圾词串,生成新词表,再通过排序算法计算所发现的每个新词的序值对结果进行排序;其中领域词汇库是从专业领域文献、教材、资料等中预先分拣出的属于该专业领域的词所组成的。

2.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法,其特征在于:步骤(1)中所述的文本预处理部件包括格式转换模块、文档清洗模块和具有特殊符号标志的词串抽取模块;其中格式转换模块是把其他格式的文档全部转换为便于处理的TXT格式;文档清洗模块是去除文中的无用信息,包括图形图像、图表、作者信息和参考文献;具有特殊符号标志的词串抽取模块是指抽取出用“”、‘’、()、《》标记的长度不大于10的内容。

3.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法,其特征在于步骤(2)中所述的基于贪婪的原子词汇构词法的新词串构建与统计部件的具体工作步骤如下:

(2-1)用基于通用词库的分词系统对所有文章进行分词,并做好词性标注;分词结果中,词与词之间用空格隔开,标点符号和停用词都去掉,在其所在的位置用“#”代替;所述通用词库的分词系统为中国科学院的ICTCLAS系统、哈尔滨工业大学统计分词系统或者SEG分词系统和SEGTAG系统;

(2-2)对于分词结果,考虑到现代汉语中有很多不具有构词能力或者构词能力较弱的词语,而这些词语多是助词、介词、代词、叹词、副词、连词、语气词、方位词、时间词、数词、拟声词、成语,所以将属于这些词性的词语直接从分词结果中删除;

(2-3)对处理过后的分词结果,使用原子词汇构词法进行候选新词串统计,将可能构成新词的候选词串全部写进候选新词表2中;具体实现过程如下:

(2-3-1)针对分词结果,以“#/”为分隔符将全文切分成一个个字符串,并去掉只包含有一个词语的字符串;

(2-3-2)对每个字符串从后向前进行扫描,每次以一个词语作为一个扫描单位,进行如下处理: 

(a)将当前扫描的词串作为后缀1,后缀2为空;

(b)扫描下一个词语,作为前缀;

(c)判断后缀1是否为空,若为空转到步骤(e),如果不为空,用前缀+后缀1组成新词串;

(d)判断新词串是否已存在于候选新词表2中,如果在就将其频次加1,如果不在就将它加到新词表2中;

(e)判断后缀2是否为空,如果是,转到步骤(g),如果不为空,用前缀+后缀2组成新词串;

(f)判断新词串是否已存在于候选新词表2中,如果在就将其频次加1,如果不在就将它加到新词表2中;

(g)将当前前缀作为后缀2,当前词串作为后缀1;

(h)判断当前前缀是否为该字符串中最后一个字符,如果是则算法结束,如果不是转向步骤(b)。

4.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法,其特征在于步骤(3)中所述的垃圾词串过滤部件的具体工作步骤如下:对构造出来的候选新词串,利用已有的规则库、词库或者模式库,如常用前缀词汇库、后缀词汇库、“互斥性子串”过滤规则、特殊词过滤、模式匹配规则,对于凡是不满足上述规则要求的词串全部删除。

5.根据权利要求1所述的一种面向学科领域的新专业词汇识别方法,其特征在于步骤(5)中所述的新专业词汇提炼和结果排序部件的具体工作步骤如下:

(5-1)利用已有的领域词汇库,根据库中各热点词根的频度,计算新词串为专业词汇的概率值;库中各词根频度的计算方法为,取该词根在领域词汇库中的出现频次,除以该表中所有词根的总频次,若新词串中包含有领域词汇库中的词,那么直接利用各个热点词根的频度;若构成新词串的词不在领域词汇库中,那么其频度的计算方法为:以把该词加入到领域词汇库中后的词根数量作为被除数,除数为1,取二者之商作为其频度;最后通过将构成该新词串的所有词语的频度值相乘得到该新词串的概率值;即对于新词ABC,若词根A、B和C在学科领域词汇库中的概率分别为P(A)、P(B)和P(C),则新词ABC的领域相关度的计算方法为P(A)×P(B)×P(C)。经多次实验测试,根据数据的正态分布特征,取所有数据的前25%进行保留,加入新词表,否则进行删除;

(5-2)对于已选出来候选新词表1中的内容,如果词条的长度大于6,将其进行分词,按以上步骤进行处理,对于长度不大于6的词条,去掉表示序号而与新词无关的词,然后将其直接加入新词表中;

(5-3)计算各个新词的序值,对新词进行排序输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010299588.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top