[发明专利]面向多源信息的混合文本话题发现方法有效
申请号: | 201910403543.0 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110263153B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 吴旭;颉夏青;王昕喆;许晋;方滨兴;陆月明 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247;G06F40/289 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 信息 混合 文本 话题 发现 方法 | ||
本发明涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。本发明具体包括以下步骤:步骤一、对原始数据进行特征融合,得到特征均匀的结果集D;步骤二、对步骤一中得到特征均匀的结果集D,基于狄利克雷多项式混合模型的聚类方法进行聚类。本发明能够将文本向量特征不均匀的多源文本数据均匀化;通过DMM模型,提升对高噪声、低信息量的短文本数据的话题检测效果;能自动识别出聚类的类别个数,不需要事先给定簇的个数。
技术领域
本发明涉及话题发现领域,特别涉及一种面向多源信息的混合文本话题发现方法。
背景技术
随着信息技术的广泛应用和网络空间的蓬勃发展,网络空间安全问题已成为社会热点。其中,利用话题发现技术掌握民意的走向,对于网络空间安全的治理起着至关重要的作用。有时舆情监管者需要进行热门话题检测的信息源可能来自多种类别,比如一个文本集中既有新闻网站的信息,也有网络社区和社交媒体的信息。由于文本集混杂着不同信息源的文本,所以文本的长度之间有很大的差异性。对这类文本进行多源文本集合的话题检测时,由于新闻网站类信息源的信息和其余两类信息源的信息特点差异较大,就造成了文本向量特征不均匀的现象。面向多源信息的混合文本由于其信息源的多样性,导致文本特征不均匀。近年来的研究中,对于特征分布均匀的文本进行话题聚类的研究较多,而文本向量特征不均匀的问题一直是聚类算法的一个难题。若使用现有的针对特征均匀文本的话题聚类方法,来对特征分布不均匀的文本进行话题聚类,则聚类结果容易被篇幅较长的某个文本所主导话题,短文本的特征将被长文本的特征所稀释,最终话题聚类的结果具有很大的不稳定性。所以使用单独的某个聚类方法来进行文本向量特征不均匀的文本信息话题检测,准确度会很低。
话题检测及追踪(Topic Detection and Tracking,TDT)的概念最早由美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)提出,目标是能在没有人工干预的情况下自动判断新闻数据流的主题。自此之后,该领域进行了多次大规模评测,为信息识别、采集和组织等相关技术提供了新的技术支持。目前,国内外关于文本的话题检测研究已经取得了一定的进展,这些话题检测方法主要分为两类,一类是针对新闻网站信息源信息文本的话题检测研究,另一类是针对网络社区和社交媒体信息源中的用户原创内容(User Generated Content,UGC)的话题检测研究。
针对新闻网站信息源信息的话题检测,在国际上,宾夕法尼亚州立大学的三人于2010年提出一种用于寻找更好的初始种子的改进K-Means算法的聚类算法,用于进行新闻信息的话题检测。基于此算法的新闻信息聚类结果较传统的K-Means算法而言,具有更高的准确度和稳定性。在国内,李琮,袁方,刘宇等人于2016年提出了一种基于LDA模型的中文新闻话题检测方法,该方法能快速有效的实现新闻聚类。
针对网络社区和社交媒体信息源信息的话题检测,在国际上,南加利福尼亚大学的Vivek Kumar Rangarajan Sridhar于2015年提出了一种基于高斯混合模型(GaussianMixture Model,GMM)的针对短文本的无监督主题模型,并且通过实验,证明了该模型在进行短文本聚类时要优于LDA模型。在国内,黄健翀、邓玫玲等人于2017年提出了一种基于LSTM自动编码机的短文本聚类方法,该方法更着重于匹配整体的文档结构,得到的聚类结果句子间的结构相似度较高。
上述研究工作对热门话题检测都有着巨大的贡献,但是还存在着很多不足。主要体现在,上述研究工作都是针对文本特征均匀的数据进行热门话题检测,但是对于多信息源文本的热门话题检测,存在着很大的局限性。主要表现在以下几个方面:需要预先设定聚类结果簇的数目,并且聚类结果的好坏与预先设定的值有很大的关系;多信息源的文本特征不均匀,聚类效果不理想;处理海量数据时的效率较低。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910403543.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置