[发明专利]一种基于感知数据的标签提取方法有效

专利信息
申请号: 201711253610.2 申请日: 2017-12-02
公开(公告)号: CN107862089B 公开(公告)日: 2020-03-13
发明(设计)人: 丁治明;刘凡;才智;曹阳 申请(专利权)人: 北京工业大学
主分类号: G06F16/335 分类号: G06F16/335;G06F16/33;G06F16/35
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于感知数据的标签提取方法,对象数据包括数值数据和文本数据,标签提取首先将这两部分数据分开处理,提取出各自标签后,再通过概率统计将其关联。数值特征标签提取,特征标签提取是通过聚类来选出质心来做为类的最终标签,聚类的好坏直接关系特征标签提取的效果。标签都代表着某类别最突出的特征点,即在语义上与本类中的所有实例的差别最小。大多数聚类算法都遵循着这个原则,但实际上数值特征标签本身并不需要表示出本簇的特征语义。序列特征标签提取过程主要分为聚类以及质心的选择两部分。将传入的感知数据与标签库中的标签进行相似度匹配,得出相应的数值标签。通过与文本标签库的关联获取相应的文本标签并返回。
搜索关键词: 一种 基于 感知 数据 标签 提取 方法
【主权项】:
一种基于感知数据的标签提取方法,其特征在于:该方法的实现步骤为:步骤一:对象数据包括数值数据和文本数据,标签提取首先将这两部分数据分开处理,提取出其中各自标签后,再通过概率统计将其关联;在数值标签部分,根据外貌相似和性格相似,设计一种标量相似度和矢量相似度结合的对象相似度计算方法,计算对象之间的相似度;步骤1.1:数值实体的相似度指的是某实例语义间的相似度,相似度越高代表实例越有可能属于同一个类;数值实体由若干属性组成,而其中最终的属性值既包含单个数值又包含由多个数值组成的数值序列,由此数据实体的相似度计算分为单个数值相似度计算和数值序列相似度计算以及结构匹配;在比较两个单个数值是否相似时,考虑两个单个数值之间的差值以及自身大小特征;且在当两数值差距较小时即差值小于较小数值10%突出相似度的变化趋势,在差距较大时即差值大于较小数值10倍以上减少相似度的变化等;单个数值相似度S计算公式:S(x,y)=21-|x-y|max(x,y)-1---(1)]]>其中,x、y为任意两个大于零的数,max()为取较大值函数;该公式满足以下几点:1)取值范围在0‑1之间;2)两个单个数值之间的相似度与两数之间的差值成反比,且与自身数值大小形成参照;3)该函数为对称函数,即S(x,y)=S(y,x);4)两个单个数值之间的相似度变化趋势随着差值增大而减小;以上几点基本符合日常认知,在得出各属性值间的相似度后,将各属性值相似度组合成新的数值序列,通过上述数值序列相似度计算方法计算新序列间的相似度从而得出最终实体间的相似度结果;步骤1.2数值序列相似度计算;数值实体的相似度重点在于数值序列间的相似度计算,数值型序列的特征主要有两点,一是序列的数值特征S1,二是序列的波形特征S2;数值特征由序列的平均值、最大值、最小值、方差组成,序列的波动特征则利用函数拟合或余弦相似度完成计算,接着通过权衡两个特征值得到最终的相似度值;而非时序序列则由一个个的单独的数值属性值组成,并没有时序序列中的波形特征,只需根据数值特征计算公式得出各属性值间的相似度在进行加权求和即可;具体计算过程如下:对于两个长度为n的序列X<x1,x2,...,xn>与序列Y<y1,y2,...,yn>,取序列平均值数值特征为S1,取序列间的余弦相似度做为序列波动特征S2,则最终相似度结果为S=θ1*S1+θ2*S2;其中θ1,θ2为权值参数,且和为1;接着各序列减去本序列中的最小值,即X=X‑min(X),Y=Y‑min(Y);这使数值特征与波形特征间的交叉影响最小,提高两序列间数值特征与波形特征的差异,同时也是为了预防数值负数或其他等问题;然后根据单个数值相似度计算公式求出数值特征方面的相似度:S1=21-|mean(X)-mean(Y)|max(mean(X),mean(Y))-1---(2)]]>S2=X·Y||X||*||Y||---(3)]]>其中,mean()为求平均值函数,max()为取较大值函数;由公式简单推导就能证明S1,S2取值范围均为(0,1),且也可保证最终的相似度取值区间在(0,1)之间;最后借助监督学习算法例如梯度下降训练求得最佳参数值θ1、θ2,根据公式求得最终相似度;步骤二:数值特征标签提取;特征标签提取是通过聚类来选出质心来做为类的最终标签,所以聚类的好坏直接关系特征标签提取的效果;标签都代表着某类别最突出的特征点,即在语义上与本类中的所有实例的差别最小;大多数聚类算法都遵循着这个原则,但实际上数值特征标签本身并不需要表示出本簇的特征语义;聚类算法加入与相邻簇质心的距离特征,旨在选出最佳的类划分点;序列特征标签提取过程分为聚类以及质心的选择两部分;步骤2.1聚类;聚类过程是基于数值序列的相似度计算将记录间的相似度当作距离,即dist(x,y)=S(x,y);首先借助基于密度的算法思想完成初步分类,设置参数半径R以及最小用例个数MinPts,将相似度大于R且案例个数大于Minpts的点归为一类,并选取簇内距离最小的点作为初步质心;即:minL(xi)=Σn=1NS(xi,xn)---(4)]]>其中xi为任意一个数值实体,xn为除xi外的任意实体,S为相似度计算函数;步骤2.2调整质心;由于在利用系统进行结果预测时,是以与标签的相似度来当作距离进行归类的,也即是说一个类的的空间是以该类的标签为中心以该类标签和相邻类标签的距离的一半为半径的类圆形空间;所以在完成聚类后,为找出能够使区域区分最佳的点作为质心,加入与相邻簇质心的距离这个特征,即依据公式F=θ1*C1+θ2*C2,C1:本类成员距离,C2:与相邻类质心的距离,θ1、θ2为权值参数,选取F值最大的点作为类别标签;按上述步骤依次迭代直至收敛,将这时的质心做为最终的类别标签;步骤三:文本处理;由于文本目标是简短的文本对象,按照以往的标签抽取模式很难定位到准确的语义标签,由此文本标签抽取主要是基于词频统计和主题词库的匹配;主要是通过处理文本数据,抽取出其中的主题并将主题词做为相应数值实体的语义标签;整体结构为三层贝叶斯网络,具体为属性词层、主题词层以及类别层;其中文本标签提取对应属性词‑主题词层,数值文本语义关联对应主题词‑类别层;步骤3.1:文本分词;首先用停止词将文本进行分块,然后通过词库对词块进行匹配,匹配成功的即为主题词和剩余的当作属性词;最后通过对属性词做词频统计,将词频大于阈值α和词频小于阈值β的属性词剔除并加入停止词;步骤3.2:主题贡献度计算;依据属性词与主题词单独出现或同时出现的频率,计算出属性词与主题词之间的关系度;采用类似TF‑IDF值作为属性词对主题词的贡献度,计算公式如下所示:tfi,j=ni,jnj---(5)]]>idfi=logDwi---(6)]]>tfidfi,j=tfi,j*idfi  (7)其中,ni,j为属性词i、主题词j同时出现次数,nj为主题词j出现总次数,D为文档总数,wi为属性词i的出现的总次数;步骤3.3:文本标签提取;文本标签提取与自然语言处理技术不同,针对的是简短且语义方向确定的文本数据;当提取出主题词时,直接选取该词做为标签并更新相应属性词的贡献度,当没有匹配成功的主题词时,根据各属性词对主题词的贡献度选择贡献度最高的一个或多个主题词做为文本标签;步骤3.4:数值标签与文本标签的语义关联;语义关联主要针对由同一个实例生成的数值序列和文本数据的语义关联;由于事先数值实例是经过聚类,而文本数据是经过主题词提取的;所以最终形成的数据结构是一个类别对应多个主题词,而一个主题词也可能对应着多个类别;若直接将一条数据中的数值实例的特征标签与主题词一对一对应的关联起来,则会损失大量的其他关联信息;所以主题词与类别是多对多的结构关系,采用概率的形式最大程度的保留语义信息;该贝叶斯网络的公式为P(C,T,W)=P(W)*P(T|W)*P(C|T),其中C为数值序列类别,T为主题词,W为属性词;通过统计分析即可得出各相应概率值,其中在给定数值实例特征标签,预测主题词公式如下所示:P(T|C)=P(C|T)*P(T)P(C)---(8)]]>当给定一个类c时,通过比较P(C|T)*P(T)的值大小,返回值最大的一个或多个文本值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711253610.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top