[发明专利]一种基于多故事线的微博事件摘要提取方法有效
申请号: | 201610179286.3 | 申请日: | 2016-03-25 |
公开(公告)号: | CN105787121B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 林鸿飞;刘龙飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 盖小静 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于多故事线的微博事件摘要提取方法,包括:S1、微博语料预处理;S2、微博矢量化;S3、初步提取微博事件故事线;S4、故事线合并;S5、故事线重构;S6、展示摘要结果。本发明利用词嵌入技术将微博矢量化,通过矢量余弦值获得微博间的相似度配合改进条件随机域方法,实现故事线的构建与合并;本发明对某一微博事件可以生成一份包含多条故事线的微博事件摘要,故事线中的节点内容为该时间段内最有代表性微博。通过多条故事线对事件的多个方面进行刻画,可以让用户更加高效、更加全面的了解某个微博事件。为了评估摘要的优劣,在n位置上的精度P@N被选作度量标准。本发明达到的精度基本上维持在0.6以上,明显优于现有方法。 | ||
搜索关键词: | 一种 基于 故事 事件 摘要 提取 方法 | ||
【主权项】:
1.一种基于多故事线的微博事件摘要提取方法,其特征在于,包括以下步骤:S1、微博语料预处理:采集包含所关注的微博事件的微博语料集,对所述微博语料集中的每条微博进行分词处理并去除标点符号得到每条微博的微博词语集,统计微博词语集中的词语个数,将词语个数少于第一预设阈值的微博及其微博词语集删除;将微博语料集中的剩余微博作为微博事件摘要提取集,提取微博事件摘要提取集中的每条微博的发布时间信息并对所述微博进行编号,将微博内容、微博的发布时间、及微博编号存入字典数据库中;S2、微博矢量化:利用词嵌入技术将微博事件摘要提取集中每条微博所对应的微博词语集中的词语表示为词矢量的形式,得到每条微博所对应的微博词语矢量集;将每个微博词语矢量集中的词语矢量累加即得到每条微博的矢量表示;S3、初步提取微博事件故事线:A1、根据步骤S2得到的每条微博的矢量表示,随机选取其中任一微博的矢量表示作为一条微博事件故事线;A2、从剩余微博中任取一条微博,分别计算该微博与已有的微博事件故事线的矢量相似度并提取出矢量相似度最大的微博事件故事线作为最大相似微博事件故事线;若该微博与最大相似微博事件故事线的矢量相似度大于第一阈值,则将该微博的矢量表示归入最大相似微博事件故事线中作为一条微博事件故事线,并将二者的矢量和作为该条微博事件故事线的矢量表示;若所述矢量相似度小于第一阈值,则将该微博作为新的微博事件故事线;A3、重复步骤A2直至所有微博的矢量表示以微博事件故事线的形式输出;S4、故事线合并:B1、对于步骤S3中得到的微博事件故事线,任取一条微博事件故事线作为一条合并故事线;B2、从剩余的微博事件故事线中任取一条微博事件故事线,分别计算该微博事件故事线与已有的合并故事线的矢量相似度并提取出矢量相似度最大的合并故事线作为最大相似合并故事线;若该微博事件故事线与最大相似合并故事线的矢量相似度大于第二阈值,则将该微博事件故事线的矢量表示归入最大相似合并故事线中作为一条合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;若所述矢量相似度小于第二阈值,则随机生成一实数r,其中,0〈=r〈=1,若r小于第二阈值,则将该微博事件故事线单独作为一条合并故事线;否则,将该微博事件故事线归入最大相似合并故事线中作为合并故事线,并将二者的矢量和作为该合并故事线的矢量表示;B3、重复步骤B2,直至每条微博事件故事线以合并故事线的形式输出;S5、故事线重构:将步骤S4获得的每条合并后的故事线中所包含的微博按照时间顺序进行排列,选取每个预设时间段内的代表性微博作为该故事线在每个时间段内节点的内容;选取代表性微博的方法如下:提取每条故事线中发布时间在预设时间段内的所有微博,作为代表性微博提取集,将所述代表性微博提取集中所有微博的矢量形式进行加和得到所述代表性微博提取集的矢量表示;枚举代表性微博提取集中的每一条微博,计算该微博与代表性微博提取集的矢量夹角余弦值作为代表性微博相似度,将所得到代表性微博相似度值降序排列,选取前K个代表性微博相似度值所对应的微博作为该条故事线在预设时间段内的节点内容,其中K为自然数;S6、展示摘要结果:利用Javascript在网页上将每条合并后的故事线以线状形式展示出来。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610179286.3/,转载请声明来源钻瓜专利网。