[发明专利]一种面向学科领域的新专业词汇识别方法无效
申请号: | 201010299588.7 | 申请日: | 2010-10-08 |
公开(公告)号: | CN101950309A | 公开(公告)日: | 2011-01-19 |
发明(设计)人: | 刘清堂;黄涛;刘瑶瑶;黄焕;吴林静 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖;冯卫平 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 学科 领域 专业 词汇 识别 方法 | ||
技术领域
本发明属于计算机应用和自然语言处理领域,特别涉及一种面向学科领域的新专业词汇识别方法。
背景技术
面向学科领域的专业词汇与通用词汇不同,具有鲜明的领域特色,通常由基本词根、专业基础词汇等构成,是在通用词汇基础上发展起来的词汇用语。新专业词汇是专业领域的未登录词和新词。未登录词被定义为未在词典中出现的词,通常包括缩略词、专有名词、派生词、复合词、数字类复合词等。新词也是未在词典中出现的词,属于未登录词,包含两层含义:通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语;出现在某一时间段内或自某一时间点以来首次出现的具有新词形、新词义或者新用法的词汇等。
自然语言处理领域的专家一直尝试借助计算机从大规模的文本中自动抽取新词和未登录词。
新词发现的方法通常有基于规则或基于统计方法。基于规则的方法是根据构词特征或词语外型特点建立规则库或模式库,然后通过匹配规则发现新词。领域专家根据语言学原理,结合领域知识体系制定一系列规则来处理各种语言现象,以发现新词。这种方法可发现较高质量的新词,但是灵活性差,而且要制定全面的规则费时费力。基于统计的方法是通过对词语的共现进行概率统计来提取候选串,然后再利用语言知识过滤掉垃圾串;或计算相关度,寻找相关度最大的字与字的组合。这种方法适用于任何领域,但需要大量的训练语料,而且查找的效率并不是很高。主要原因是忽略了不同词语的构词模式,构词能力和上下文语义关系等对各个词语构成新词的影响。比较实用的方法是结合概率统计和规则几何方法进行新词发现,如采用二元统计模型或质子串分解等,利用频次统计选择候选词串,然后利用组词规则等过滤,最后由人工选择确定最终的新词结果。
目前,由于新词出现的速度之快,形式之灵活,且没有固定的形成规律,导致当前并没有权威的标准来判断一个词语是否为新词,所以对结果的检验很大程度上依赖于人工的经验判断。常用的方法中,统计的方法会受数据稀疏问题的影响,不利于低频新词和长度较长的新词的发现。基于规则的方法中,过滤的效果也依赖于规则获取的完备性。
发明内容
本发明就是针对上述背景技术中的不足之处,而提出的一种面向学科领域的新专业词汇识别方法,以快速发现较高质量的新词。
本发明的目的是通过如下技术措施来实现的。
一种面向学科领域的新专业词汇识别方法,该方法使用的硬件部分包括文本预处理部件、基于贪婪的原子词汇构词法的新词串构建与统计部件、垃圾词串过滤部件、重复子串筛选部件、新专业词汇提炼和结果排序部件,其特征在于该方法依次包括以下步骤:
(1)文本预处理部件对文本格式进行转换,然后进行文本清洗、去除噪音文字,再抽取出文中用特殊符号标志的长度不大于10的词串,形成候选新词表1;
(2)基于贪婪的原子词汇构词法的新词串构建与统计部件首先对经过上述文本预处理后的内容进行分词,然后按照词性去除不能构词的词语,再采用原子词汇构词法对文中的候选词串进行统计,形成候选新词表2;
(3)垃圾词串过滤部件主要是针对领域特点来对候选新词表进行过滤,过滤掉不符合领域特点的部分,具体可以利用专业词库、规则库或者模式库等进行匹配过滤;
(4)重复子串筛选部件利用频率相减法对包含有相同内容的重复子串进行筛选;
(5)新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来进一步筛选掉部分垃圾词串,生成新词表,再通过排序算法计算所发现的每个新词的序值来对结果进行排序。领域词汇库主要是从专业领域文献、教材、资料等中预先分拣出的属于该专业领域的词所组成的。
在上述技术方案中,步骤(1)中所述的文本预处理部件包括格式转换模块、文档清洗模块和具有特殊符号标志的词串抽取模块;其中格式转换模块是把其他格式的文档全部转换为便于处理的TXT格式;文档清洗模块是去除文中的无用信息,包括图形图像、图表、作者信息和参考文献;具有特殊符号标志的词串抽取模块是指抽取出用“”、‘’、()、《》标记的长度不大于10的内容。
在上述技术方案中,步骤(2)中所述的基于贪婪的原子词汇构词法的新词串构建与统计部件的具体工作步骤如下:
(2-1)用基于通用词库的分词系统,如中国科学院的ICTCLAS系统、哈尔滨工业大学统计分词系统或者SEG分词系统和SEGTAG系统等对所有文章进行分词,并做好词性标注;分词结果中,词与词之间用空格隔开,标点符号和停用词都去掉,在其所在的位置用“#”代替;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010299588.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:安置图标的方法和装置
- 下一篇:数字键盘及其协调数字锁定模式的方法