[发明专利]一种基于实体突发特征的文本表示方法在审
申请号: | 201810095748.2 | 申请日: | 2018-01-31 |
公开(公告)号: | CN108228570A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 马乐荣;高兴慧 | 申请(专利权)人: | 延安大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 罗磊 |
地址: | 716000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 突发特征 文档 文本表示 文档表示 时序 语义 表示模型 分类系统 建模实体 目标实体 时间信息 特征表示 向量表示 语义信息 分类 线索 融入 | ||
1.一种基于实体突发特征的文本表示方法,其特征在于,包括下列步骤:
步骤1:建立基于实体突发特征的文本表示向量;
步骤2:抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中;
步骤3:建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集,利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型,之后对实体-文档测试集数据进行分类。
2.如权利要求1所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤1具体包括:
步骤1.1:确定目标实体e及相应的查询数量序列V=(v1,v2,…,ve),通过目标实体突发期检测算法计算得到目标实体e的突发期序列及其对应的权重,记实体e的所有压缩突发期构成的集合为eb={Bi[tstart,tend]|i=1,…,|eb|},其中|eb|表示目标实体e所有压缩突发期对应集合的大小;tstart为突发期的开始时间,tend为突发期结束时间;Bi[tstart,tend]为实体e的第i个突发期;
步骤1.2:确定实体-文档对(e,d),利用实体突发特征词袋模型表示实体-文档对(e,d)为一个向量,记为
f(e,d)=(f1(e,d),f2(e,d),…,f|eb|(e,d)) (1)
步骤1.3:建立文档d与目标实体e之间的时间相关性,则向量f(e,d)的第j个分量fj(e,d)的权值为:
式(2)中,t表示文档d发表的时间。
3.如权利要求2所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤1.1中目标实体突发期检测算法的计算步骤包括:
步骤1.1.1:对实体查询量序列V=(v1,v2,…,ve)进行归一化;
步骤1.1.2:给定滑动窗口的宽度w,通过以下公式计算移动平均序列MAw,
式(3)中,偏移量offset为窗口宽度的一半w/2;
步骤1.1.3:计算拐点cutoff,cutoff=mean(MAw)+β·stdev(MAw);
步骤1.1.4:计算目标实体突发序列集d={i|MAw(i)≥cutoff};
步骤1.1.5:计算目标实体突发期的权重:
步骤1.1.6:把目标实体的连续突发期压缩合并为分片连续的突发期,并计算压缩合并后的实体突发期权重bw(tstart,tend),其权重为各连续突发期权重的算术平均值;
步骤1.1.7:返回目标实体突发期及其对应的权重。
4.如权利要求3所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤2具体包括:
步骤2.1:抽取实体-文档对的语义特征如下:
表1 实体-文档(e,d)对的语义特征
步骤2.2:将抽取的实体-文档对的语义特征融入到步骤1中得到的文本表示向量中得到:
f(e,d)=[f1(e,d),…,f|eb|(e,d),N um(erel),…,weekday(d)] (5)。
5.如权利要求4所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤3具体包括:
步骤3.1:建立实体-文档的Logistic Regression分类模型如下:
式(6)中,P(r|e,d)表示实体e和文档d相关性度量,r∈{-1,1}为二元随机变量,r取1表示文档d与目标实体e相关,r取-1表示文档d与目标实体e无关;K为(e,d)对应的特征向量的个数;σ(x)=1/(1+exp(-x))是Sigmoid函数;ωi是特征向量第i个分量的组合系数,其中w0=b为常数项,f0=1;
步骤3.2:令T={(e,dv)|v=1,…,N}}表示实体-文档对训练集合,R={rev|v=1,…,N}是对应训练集的相关性判别标签集合,则训练集T的似然函数为:
步骤3.3:对式(7)通过极大化对数似然函数求wi的局部最优解,记为将其代入实体-文档的Logistic Regression分类模型,得到实体-文档的相关性分类模型,如下式
步骤3.4:利用步骤3.3学习到的实体-文档的Logistic Regression分类模型,对实体-文档测试集数据进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延安大学,未经延安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810095748.2/1.html,转载请声明来源钻瓜专利网。