[发明专利]一种基于实体突发特征的文本表示方法在审

专利信息
申请号: 201810095748.2 申请日: 2018-01-31
公开(公告)号: CN108228570A 公开(公告)日: 2018-06-29
发明(设计)人: 马乐荣;高兴慧 申请(专利权)人: 延安大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 西安弘理专利事务所 61214 代理人: 罗磊
地址: 716000 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 突发特征 文档 文本表示 文档表示 时序 语义 表示模型 分类系统 建模实体 目标实体 时间信息 特征表示 向量表示 语义信息 分类 线索 融入
【权利要求书】:

1.一种基于实体突发特征的文本表示方法,其特征在于,包括下列步骤:

步骤1:建立基于实体突发特征的文本表示向量;

步骤2:抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中;

步骤3:建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集,利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型,之后对实体-文档测试集数据进行分类。

2.如权利要求1所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤1具体包括:

步骤1.1:确定目标实体e及相应的查询数量序列V=(v1,v2,…,ve),通过目标实体突发期检测算法计算得到目标实体e的突发期序列及其对应的权重,记实体e的所有压缩突发期构成的集合为eb={Bi[tstart,tend]|i=1,…,|eb|},其中|eb|表示目标实体e所有压缩突发期对应集合的大小;tstart为突发期的开始时间,tend为突发期结束时间;Bi[tstart,tend]为实体e的第i个突发期;

步骤1.2:确定实体-文档对(e,d),利用实体突发特征词袋模型表示实体-文档对(e,d)为一个向量,记为

f(e,d)=(f1(e,d),f2(e,d),…,f|eb|(e,d)) (1)

步骤1.3:建立文档d与目标实体e之间的时间相关性,则向量f(e,d)的第j个分量fj(e,d)的权值为:

式(2)中,t表示文档d发表的时间。

3.如权利要求2所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤1.1中目标实体突发期检测算法的计算步骤包括:

步骤1.1.1:对实体查询量序列V=(v1,v2,…,ve)进行归一化;

步骤1.1.2:给定滑动窗口的宽度w,通过以下公式计算移动平均序列MAw

式(3)中,偏移量offset为窗口宽度的一半w/2;

步骤1.1.3:计算拐点cutoff,cutoff=mean(MAw)+β·stdev(MAw);

步骤1.1.4:计算目标实体突发序列集d={i|MAw(i)≥cutoff};

步骤1.1.5:计算目标实体突发期的权重:

步骤1.1.6:把目标实体的连续突发期压缩合并为分片连续的突发期,并计算压缩合并后的实体突发期权重bw(tstart,tend),其权重为各连续突发期权重的算术平均值;

步骤1.1.7:返回目标实体突发期及其对应的权重。

4.如权利要求3所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤2具体包括:

步骤2.1:抽取实体-文档对的语义特征如下:

表1 实体-文档(e,d)对的语义特征

步骤2.2:将抽取的实体-文档对的语义特征融入到步骤1中得到的文本表示向量中得到:

f(e,d)=[f1(e,d),…,f|eb|(e,d),N um(erel),…,weekday(d)] (5)。

5.如权利要求4所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤3具体包括:

步骤3.1:建立实体-文档的Logistic Regression分类模型如下:

式(6)中,P(r|e,d)表示实体e和文档d相关性度量,r∈{-1,1}为二元随机变量,r取1表示文档d与目标实体e相关,r取-1表示文档d与目标实体e无关;K为(e,d)对应的特征向量的个数;σ(x)=1/(1+exp(-x))是Sigmoid函数;ωi是特征向量第i个分量的组合系数,其中w0=b为常数项,f0=1;

步骤3.2:令T={(e,dv)|v=1,…,N}}表示实体-文档对训练集合,R={rev|v=1,…,N}是对应训练集的相关性判别标签集合,则训练集T的似然函数为:

步骤3.3:对式(7)通过极大化对数似然函数求wi的局部最优解,记为将其代入实体-文档的Logistic Regression分类模型,得到实体-文档的相关性分类模型,如下式

步骤3.4:利用步骤3.3学习到的实体-文档的Logistic Regression分类模型,对实体-文档测试集数据进行分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延安大学,未经延安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810095748.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top