[发明专利]一种基于实体突发特征的文本表示方法在审
申请号: | 201810095748.2 | 申请日: | 2018-01-31 |
公开(公告)号: | CN108228570A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 马乐荣;高兴慧 | 申请(专利权)人: | 延安大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 罗磊 |
地址: | 716000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 突发特征 文档 文本表示 文档表示 时序 语义 表示模型 分类系统 建模实体 目标实体 时间信息 特征表示 向量表示 语义信息 分类 线索 融入 | ||
本发明公开的一种基于实体突发特征的文本表示方法,包括提出了一种基于实体突发特征的文档表示模型,称为Entity Burst based Document Representation(EBDR),用于实体‑文档相关性分类任务。EBDR将时间信息和语义信息同时融入到实体‑文档的特征表示中。使用这种表示模型将实体‑文档对作为向量表示,然后利用Logistic Regression进行分类。本发明一种基于实体突发特征的文本表示方法,以目标实体的突发特征为线索,提出一种新的实体‑文档表示模型,该模型从时序和语义两个方面建模实体‑文档的特征,以此来提高实体‑文档相关性分类系统的性能。
技术领域
本发明属于知识工程、信息检索和文本分类技术领域,具体涉及一种基于实体突发特征的文本表示方法。
背景技术
随着互联网的快速发展,特别是以移动互联网为基础的各种社交网络、即时通讯平台在人们日常生活中的普及,大量用户生成的数据随之而来,这些大数据具有巨大的科研、商业应用价值,蕴含了大量的人类碎片化知识。因此,从这些用户生成的大数据中检索并更新知识库中目标实体的内容,对以知识库为基础的其它应用来说是具有重要意义的。如查询扩展、实体链接、问答系统和实体检索等应用。对于这些应用的性能和准确性而言,维护知识库的时效性是非常至关重要的。当知识库中关于现存文章主题的状态、行为或境况的即时信息一旦出现,知识库就应该更新其对应的内容。知识库中的实体可以是人、实施、机构或概念等;实体的即时信息为“新奇”信息。
考虑到新实体随时可能出现,以及由用户生成的网络文本大数据相当巨大,因此,要保持百科知识库内容的时效性面临很大的理论和技术挑战。为了缓解或解决这个挑战,2012年,国际文本检索大会(TREC)启动了知识库加速-累积文档推荐(KBA-CCR)。累积文档推荐(CCR)的任务旨在从文本大数据流中发现包含目标实体重要信息高度相关的文档并作为目标实体的文档。在以前的研究中,实体的突发活动已被证明能有效地挖掘其潜在的候选引用。目标实体突发活动最直观的想法是:当目标实体发生了重要事件时,人们通过知识库搜索实体的查询数量将急剧上升。如图1所示,在2011年10月1日至2011年12月31日期间,道格拉斯·卡斯韦尔实体在维基百科知识库中被用户搜索数量的统计。从图1中可以看出该实体有两个显而易见的突发时期。第一次爆发的时期是道格拉斯·卡斯韦尔对关于英国脱欧的辩论演讲,第二次是道格拉斯·卡斯韦尔提出英国与全世界国家贸易的问题,而不仅仅是与欧盟的贸易。
在先前的累积文档推荐(CCR)工作中,实体的突发特征通常作为实体-文档相关性分类的语义特征补充。在这些工作中,只是简单的统计目标实体在知识库中的查询量或者在某个时间段提及目标实体的文档数,没有充分挖掘目标实体突发特征在文档推荐中的作用。此外,CCR被视为分类任务,相对于知识库中的目标实体,文档被分为相关或不相关两类。对于分类任务,需要将文档表示为固定长度的向量。经典的文本表示方法,如词袋模型中的向量每一个维度对应一个词项,其权重由TF-IDF来确定,无法处理文档中的时间信息。另一个是文本表示的可扩展性问题,当文本大数据流中的文档数量增加时,流语料库生成的词汇量可能会非常大,因此需要大量的时间和空间来处理文本大数据流,这在实际的应用系统中几乎无法实现。
发明内容
本发明的目的在于提供一种基于实体突发特征的文本表示方法,来提高实体-文档相关性分类系统的性能。
本发明所采用的技术方案是:一种基于实体突发特征的文本表示方法,包括下列步骤:
步骤1:建立基于实体突发特征的文本表示向量;
步骤2:抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中;
步骤3:建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集,利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型,之后对实体-文档测试集数据进行分类。
本发明的特点还在于,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延安大学,未经延安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810095748.2/2.html,转载请声明来源钻瓜专利网。