[发明专利]一种英文文献关键短语自动抽取方法与系统在审

专利信息
申请号: 201610363382.3 申请日: 2016-05-26
公开(公告)号: CN106066866A 公开(公告)日: 2016-11-02
发明(设计)人: 符文君;周海波;强成仓;马娟;张振海 申请(专利权)人: 同方知网(北京)技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京远大卓悦知识产权代理事务所(普通合伙) 11369 代理人: 史霞
地址: 100084 北京市海淀区清华*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种英文文献关键短语自动抽取方法与系统,包括信息处理模块、英文文本解析模块、候选短语挖掘模块、候选短语过滤模块、候选短语排序模块、同义短语归一化模块及关键短语选取模块,英文文本解析模块主要对缩略语还原后的文本数据进行文本解析,候选短语挖掘模块主要对英文文本解析后的数据进行候选短语挖掘,候选短语排序模块主要对过滤后的候选短语进行权值计算,并根据权值按照大小进行排序,同义短语归一化模块主要对相同含义的短语进行归一化,关键短语选取模块,主要用于根据权值输出指定数目的关键短语。
搜索关键词: 一种 英文 文献 关键 短语 自动 抽取 方法 系统
【主权项】:
一种英文文献关键短语自动抽取方法与系统,其特征在于:包括信息处理模块、英文文本解析模块、候选短语挖掘模块、候选短语过滤模块、候选短语排序模块、同义短语归一化模块及关键短语选取模块,信息处理模块主要对原始数据进行噪声字符过滤、全角字符转换为半角字符、句子智能纠错、缩略语识别及还原等功能,输出的文本数据提供给英文文本解析模块使用,英文文本解析模块主要对缩略语还原后的文本数据进行文本解析,候选短语挖掘模块主要对英文文本解析后的数据进行候选短语挖掘,候选短语排序模块主要对过滤后的候选短语进行权值计算,并根据权值按照大小进行排序,同义短语归一化模块主要利用词形还原技术,对词形还原相同的短语进行归一化,关键短语选取模块主要根据候选短语的权值,按照大小进行排序,输出预先设定数目的关键短语,用于标引英文文献,具体步骤如下:步骤一:信息处理模块,包括数据提取、信息过滤、字符半角转换、智能纠错和数据缩略语识别和还原,具体步骤为,第一,从英文文献数据库中提取出每一篇文献的标题、副标题、摘要等文本数据以及主题分类号等附属数据,第二,对包含标题、副标题、摘要等文本数据中的噪声字符进行过滤,设定的噪声字符包括:'“','”','/','‘','α','#','$','H∞',以及控制字符\x31,第三,对过滤后的文本数据中的全角字符转换为半角字符,避免全角字符影响后续短语抽取的精度,第四,对字符半角化后的文本数据进行智能纠错,主要针对数据录入时,一个单词被空格分割为两个或多个单词等这类问题进行处理,如data,数据录入时由于OCR识别等问题,可能会被分割为da ta,本发明通过文本智能纠错方法,将da ta还原为data,其中,纠错方法采用基于编辑距离的纠错方法,第五,数据缩略语识别和还原,缩略语识别与还原过程为,首先将文本全部转换为小写,提取小括号中的文本,假定其为缩略语,然后提取出含有假定缩略语的句子,一般情况下,缩略语原词的长度不会超过200个字符,在本实施例中,取小括号前200字符内的文本作为含有假定缩略语的句子,如果在括号前面匹配到以括号中文本为开头的短语,则认为括号中的文本为缩略语,匹配到的短语为原词,本实施例中,舍弃如下形式的缩略语,缩略语为单个字母,全写短语长度大于(缩略语长度+2),全写短语以“and”单词开头;步骤二:英文文本数据解析模块,具体包括分句、分词、词性标注、浅层句法分析(也即组块分析),具体步骤为,首先,利用分句技术将文本数据切分为独立的句子,其次,对分句后的句子进行英文分词,然后,对分词后的文本进行词性标注。本实施例中,采用基于神经网络模型的词性标注算法,最后,对词性标注后的文本进行浅层句法分析,其中,浅层句法分析采用基于神经网络模型的组块分析算法;步骤三:候选短语挖掘模块,主要包括两部分,一部分是基于频繁模式挖掘算法抽取候选短语,另一部分是基于词性标注和浅层句法分析的结果,基于语法规则抽取候选短语,最终将两部分短语去重、合并为候选短语集合,具体步骤为,第一步,获取上述文献的主题分类号,文本及对应的词性标注信息、浅层句法分析信息,第二步,基于文本的词性标注信息,抽取出文本中的形容词与名词,基于文献所属的各个主题分类号,分别查询对应该分类号的主题词表,获取主题词表中包含这些单词的短语,构成各个主题分类号的待挖掘词组,第三步,对上述各个主题分类号的待挖掘词组进行频繁模式挖掘,得到各个主题分类号的频繁模式集合,基于FP‑Growth算法,进行频繁模式挖掘,第四步,对各个主题分类号的频繁模式集合中的短语进行过滤,过滤规则包括短语中任意一个单词不在文档中,短语中停用词数目等于短语的单词数目,短语单词个数小于2,对于满足过滤规则的短语进行过滤,第五步,对过滤后的各个主题分类号的频繁模式集合中的短语计算权值,权值主要考虑4个维度,包括短语的主题表现度、纯净度、构成度、完整度,相对应地,计算短语的主题表现因子、纯净因子、构成因子以及完整因子,权值计算公式为,<mrow><msub><mi>r</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>0</mn><mo>,</mo><msubsup><mi>&pi;</mi><mi>t</mi><mrow><mi>c</mi><mi>o</mi><mi>m</mi></mrow></msubsup><mo>(</mo><mi>p</mi><mo>)</mo><mo>&le;</mo><mi>&gamma;</mi></mtd></mtr><mtr><mtd><msubsup><mi>&pi;</mi><mi>t</mi><mi>cov</mi></msubsup><mo>(</mo><mi>p</mi><mo>)</mo><mo>&lsqb;</mo><mo>(</mo><mn>1</mn><mo>-</mo><mi>&omega;</mi><mo>)</mo><msubsup><mi>&pi;</mi><mi>t</mi><mrow><mi>p</mi><mi>u</mi><mi>r</mi></mrow></msubsup><mo>(</mo><mi>p</mi><mo>)</mo><mo>+</mo><mi>&omega;</mi><msubsup><mi>&pi;</mi><mi>t</mi><mrow><mi>p</mi><mi>h</mi><mi>r</mi></mrow></msubsup><mo>(</mo><mi>p</mi><mo>)</mo><mo>&rsqb;</mo></mtd></mtr></mtable></mfenced></mrow>主题表现因子,ft(p)为短语p属于主题分类号t的频率,纯净因子,P(et,t’(p))为短语p属于主题分类号t和主题分类号t’两者短语集取并集后的集合的频率,其中,t,=0,1,2,...k,t’≠t,构成因子,p={w1...wn};P(et(w))为短语p中的单词w属于主题分类号t的频率,完整因子,p’是真包含短语p的短语,w是属于短语p’而不属于短语p的短语或单词;如果包含短语p的短语p’出现,短语p也会相应出现,表明短语p并不完整,例如,‘vector machines’并不是一个完整的短语,‘support vector machines’则是一个完整的短语,因为‘support’经常伴随‘vector machines’一起出现,参数γ,ω∈[0,1],γ与ω均设置为0.5,第六步,基于各个主题分类号的频繁模式集合中的短语的权值,再乘以该短语所属主题分类号对应的权重,得到每个短语的权值,文献在录入时,专业编辑会对此文献进行人工主题分类,并给该文献对应的多个主题分类号设定排名,排名靠前的主题分类号比排名靠后的主题分类号具备更强的信息表达能力,因此,人工设定规则,如果文献有两类主题分类号,各主题分类号的权重依次按照0.6,0.4进行分配,如果有三类主题分类号,各主题分类号的权重依次按照0.5,0.3,0.2进行分配,如果有四类主题分类号,各主题分类号的权重依次按照0.5,0.25,0.15,0.1进行分配,一篇文献一般不会超过四类主题分类号,第七步,对各个主题分类号下的短语进行去重、合并,如果不同主题分类号下存在相同短语,则权值相加,按照权值大小排序,得到权值最大的前N个短语,作为频繁模式挖掘算法抽取出的候选短语,N设置为20,第八步,基于词性标注和浅层句法分析,抽取出所有的名词性短语,名词性短语满足(N N|N N S|N N P|N N P S|J J|J J R|J J S)*(N N|N N S|N N P|N N P S),譬如,complexity,effective algroithm,grid computing,distributed web‑service discovery architecture,第九步,针对步骤三中第八步中的名词性短语,保留满足一定频率的短语,抽取规则为针对一个单词的短语,单词在整篇文档中的出现次数大于等于2,则抽取,针对多个单词的短语,则抽取出这个短语,第十步,如果短语为of‑PP格式,则变换短语,变换形式如number of sensor改变为sensor number,第十一步,如果短语为所有格格式,则变换短语,变换形式如agent’s goal改变为goal of agent,第十二步,获取基于语法规则抽取的候选短语,第十三步,将步骤三中第七步与步骤三中第十二步所抽取的候选短语去重后进行合并,组成候选短语集合;步骤四:候选短语过滤模块,主要基于语法规则,对不符合语法规则的候选短语进行过滤;步骤五:候选短语排序模块,计算候选短语的主题表现因子、相对词频、相对篇频、位置因子、长度因子等因子,然后对短语的各个因子进行相乘运算,得到各个候选短语的权值,并按照从大到小的顺序排序,具体步骤为,候选短语的权值计算函数如,A1,计算短语的主题表现因子,短语wi的主题表现能力,n(wi)代表短语wi在由文献dj所得到的频繁模式集合Ij(步骤三中第七步获取的基于频繁模式挖掘算法抽取出的候选短语)中构成固定搭配的个数(如果两个短语被频繁模式挖掘算法抽取出,即这两个短语同时出现在频繁模式集合中的一个短语中,则认为这两个短语形成了一条固定搭配),如果短语wi没有出现在频繁模式集合中,则n(wi)为固定值0,g(wi)也为0;如果出现,n(wi)大于等于1,则g(wi)大于0,A2,计算短语在上述文献中的相对词频,是文献dj中的短语wi的相对词频,fj(wi)是短语wi在文献dj中出现的次数,n(dj)是文献dj中的实词的数目,A3,计算短语在数据库中的相对篇频,idf=log2(N/n),是短语wi的相对篇频,N为数据库中的文献总数,n是数据库中包含短语wi的文献数目,如果短语为多单词短语,则n设为1;如果短语为一个单词,则n为数据库中包含短语wi的文献实际数目,A4,计算短语的位置因子,其中,Pf是短语的位置因子,根据这个短语wi出现的位置,如出现在标题中或者没有出现在标题赋予不同的权重,如果既出现在标题又出现在摘要中,则按照出现在标题中计算,ft(wi)是wi在标题中出现的次数,st(dj)是文档dj的标题中包含的实词个数,A5,计算短语的长度因子,len(wi),短语wi的包含的单词个数,保证单词数目较多的短语权重较大一些,A6,将A1‑A5计算的各个因子相乘,得到短语对应的权值,A7,按照权值,由大到小,进行排序,输出候选短语及其权值;步骤六:同义短语归一化模块,主要是对候选短语进行词形还原,将词形相同的短语的权值相加,并赋值给这些词形相同的短语中权值最大的短语,其他短语舍弃,首先,对候选短语中的每个单词进行词形还原,再以空格作为连接符,词形还原后的单词所组合的候选短语,即为词形还原后的候选短语,其次,将词形相同的候选短语对应的权值相加,赋值给词形相同的候选短语中权值最大的短语,并且只保留这个短语,其他短语舍弃,最后,输出候选短语与对应的新的权值;步骤七:关键短语选取模块,将得到的候选短语的权值,按照从大到小的顺序,对各个候选短语排序,输出预先设定的关键短语数量K=15,从所述排序中权值最大开始输出15个权值,15个权值所对应的候选关键短语即为最终关键短语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610363382.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top