[发明专利]一种面向学科领域的新专业词汇识别方法无效
申请号: | 201010299588.7 | 申请日: | 2010-10-08 |
公开(公告)号: | CN101950309A | 公开(公告)日: | 2011-01-19 |
发明(设计)人: | 刘清堂;黄涛;刘瑶瑶;黄焕;吴林静 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖;冯卫平 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机应用和自然语言处理领域,提供一种面向学科领域的新专业词汇识别方法,其原理是将初始文档经过文本预处理、新词串统计、垃圾词串过滤和结果排序等步骤后,输出从文中发现的新词语,本发明可以较好地发现学科领域的专业术语,并对结果进行排序,弥补了现有算法的不足,更有利于人们把握这个学科的发展动向和核心价值。 | ||
搜索关键词: | 一种 面向 学科 领域 专业 词汇 识别 方法 | ||
【主权项】:
一种面向学科领域的新专业词汇识别方法,该方法使用的硬件部分包括文本预处理部件、基于贪婪的原子词汇构词法的新词串构建与统计部件、垃圾词串过滤部件、重复子串筛选部件、新专业词汇提炼和结果排序部件,其特征在于该方法包括以下步骤:(1)文本预处理部件对文本格式进行转换,进行文本清洗、去除噪音文字,再抽取出文中用特殊符号标志的长度不大于10的词串,形成候选新词表1;(2)基于贪婪的原子词汇构词法的新词串构建与统计部件首先对经过上述文本预处理后的内容进行分词,然后按照词性去除不能构词的词语,再采用原子词汇构词法对文中的候选词串进行统计,形成候选新词表2;(3)垃圾词串过滤部件针对领域特点对候选新词表进行过滤,过滤掉不符合领域特点的部分;(4)重复子串筛选部件利用频率相减法对包含有相同内容的重复子串进行筛选;(5)新专业词汇提炼和结果排序部件先借助领域词汇库的热点词根来筛选掉部分垃圾词串,生成新词表,再通过排序算法计算所发现的每个新词的序值对结果进行排序;其中领域词汇库是从专业领域文献、教材、资料等中预先分拣出的属于该专业领域的词所组成的。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010299588.7/,转载请声明来源钻瓜专利网。
- 上一篇:安置图标的方法和装置
- 下一篇:数字键盘及其协调数字锁定模式的方法