[发明专利]一种基于信息熵和术语可信度的金融领域术语识别方法有效
申请号: | 201610404892.0 | 申请日: | 2016-06-07 |
公开(公告)号: | CN106095753B | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 黄德根;梁晨 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;李宝元 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于信息熵和术语可信度的金融领域术语识别方法。本发明仅选择简单的特征,用CRF模型识别金融术语;在识别结果中根据基于边缘概率的信息熵公式,通过设定阈值筛选出属于特定错误类型的候选术语,对候选术语的处理更有针对性;过滤候选术语时将词转换为蕴含丰富语义信息的词向量,通过计算相似度与传统的互信息方法互为补充,可过滤得到大量的金融领域术语。利用本发明能有效避免现有机器学习模型过于繁琐的特征选择过程,后处理部分灵活而不局限于特定语料,不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的术语识别方法。 | ||
搜索关键词: | 一种 基于 信息 术语 可信度 金融 领域 识别 方法 | ||
【主权项】:
1.一种基于信息熵和术语可信度的金融领域术语识别方法,其特征在于,步骤如下:(1)使用CRF模型初步识别出金融语料中的金融领域术语,选取的特征如下:1)词和词性;2)点式互信息:表示两个词的关联程度,pmif和pmir分别为当前词与前一词、后一词的点式互信息,其中,wi代表当前词,wi‑1代表wi的前一词,wi+1代表wi的后一词;为降低数据稀疏,对得到的浮点数取整;![]()
(2)采用基于信息熵的术语可信度模型处理CRF的识别结果1)根据识别结果中标签的边缘概率求信息熵,筛选出候选术语采用BIO标记方法对步骤(1)识别结果进行标记,即B为术语的首词,I为术语的中间和尾部,O为非术语;将CRF识别结果分为6类术语标注错误:尾部缺失即术语尾部未识别、尾部多余即术语尾部冗余、头部缺失即术语头部未识别、头部多余即术语头部未冗余、整体缺失即术语整体未识别和整体多余即术语整体冗余;在CRF识别结果中,每个词均有为B、I、O三种标记以及其对应的边缘概率,CRF将概率最大的标记作为最终的标注结果;如果某个词的边缘概率不具有明显的区分性,即该词的标记具有很大的不确定性,那么该词极有可能被标注错误;通过token标记信息熵定量观察标记的不确定性;某一个词W有3种可能的标记T1=B,T2=I,T3=O,对应的边缘概率为PB,PI,PO,且PB+PI+PO=1,W的token标记信息熵为H(W),如式(3)所示:
由信息熵原理可知,H(W)越大,则这个标记的不确定性越大;当H(W)≥α时,即该词的标记是不确定的,作为候选术语进一步判断;其中α是H(W)的阈值,针对不确定的强度,分别有α1、α2、α3三个阈值,α1=0.92,α2=0.6,α3=0.5;token标记信息熵筛选算法,筛选“整体缺失”型的候选术语:输入:CRF识别结果;输出:候选术语集合;wordList:CRF识别结果的词表,包含特征、标记和边缘概率信息;secMaxP:第二大边缘概率;termStart:候选术语的开始位置;termEnd:候选术语的结束位置;L1:将CRF识别结果存入wordList中;L2:如果当前词wordList[i]的标记不为‘O’,则当前词不属于“整体缺失”型,退出返回;L3:如果当前词wordList[i]的标记为‘O’,满足条件⑴:H(wordList[i])≥α1且wordlist[i]的secMaxP是‘B’,记录此位置为termStart;L4:如果下一个词wordList[++i]的标记为‘O’,满足条件⑵:H(wordList[i])≥α2且wordlist[i]的secMaxP是‘I’,重复步骤L4;若该词标记不为‘O’,就跳到L5;若不满足条件⑵,就记录此位置为termEnd,跳到L6;L5:当前词的标记不为‘O’,若满足条件⑶:H(wordList[i]) ②正向术语度:
③术语相似度:
其中,pmi是求两个词的点式互信息,具体公式参考式(1)或(2);avg是求数据集合的平均值;max是求数据集合的最大值;cos是求两个词所对应的词向量的余弦距离,反应了两个词的相似程度;X,Y是单位化向量;余弦距离公式见式(4):
上述条件①和②分别从反向和正向计算术语词对之间的关联程度,判断是否大于或等于已知术语搭配的互信息平均值;而条件③则将词转换为词向量,考察了候选词与已知搭配词的相似度是否大于或等于已知搭配词之间的整体相似度;ⅱ.当词长=1时,设有候选术语A,统计训练语料中词长为1的术语Dk,k=1,2,3…,如果满足式(5),则认为候选术语A具有术语可信度,其中β为阈值;
基于术语可信度的候选术语过滤方法:输入:候选术语集合;输出:修正后的序列标注文件;L1:判断候选术语所属错误类型,若它属于“头部缺失”的类型跳到L2,“尾部缺失”的类型跳到L3,“整体缺失”的类型跳到L4,“头部多余”的类型跳到L5,“尾部多余”的类型跳到L6,“整体多余”的类型跳到L7;L2:如果候选术语A1A2…An的缺失部分为A1A2…Ai,1≤i≤n‑1,若A1A2…Ai+1中每两个相邻词对AjAj+1,1≤j≤i,都具有术语可信度,则跳到L8;L3:如果候选术语A1A2…An的缺失部分为AiAi+1…An,1
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610404892.0/,转载请声明来源钻瓜专利网。
- 上一篇:云平台下的大数据访问方法
- 下一篇:一种水果保鲜剂及其制备方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置