[发明专利]基于Pitman-Yor过程的新闻热点发现方法有效
申请号: | 201610469344.6 | 申请日: | 2016-06-25 |
公开(公告)号: | CN106156276B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 黄瑞章;钟文良 | 申请(专利权)人: | 贵州大学;贵州耕云科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9535;G06F16/35;G06F16/36 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 李亮;程新敏 |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Pitman‑Yor过程的新闻热点发现方法。本发明可以自动从新闻数据集中自动挖掘热点个数,而不需要人为的设定吗,也就是新闻热点的个数随着随着数据集大小而变化;然后,在现实的新闻数据集中,一个新的热点往往是处于新闻样本个数少量的类别中,另一方面,大多数已存在的、过时的新闻主题的类别的样本个数巨大,从而造成新热点的样本难以有效的识别出来。所以,本发明的另一个贡献在于新热点可以从这种极端不平衡的数据集中识别出新的热点样本。最终实现了新闻热点在这种真实存在的数据分布情况下的有效识别。 | ||
搜索关键词: | 基于 pitman yor 过程 新闻 热点 发现 方法 | ||
【主权项】:
1.一种基于Pitman‑Yor过程的新闻热点发现方法,其特征在于:包括如下步骤:1)根据从互联网中抓取新闻文本原始数据集,利用数据预处理工具处理抓取到的原始数据集,去除不在正常值内的文档背景词项,该正常值的范围为1≤词频≤5000,统计文本中出现的每个词项次数,最终生成相应的词汇字典和合成一个含有全部数据的语料库数据矩阵;2)根据词汇字典和合成的语料库数据矩阵,对语料库的数据矩阵进行初始化,即每个文本为一个类簇,则初始的类簇个数为N;3)利用基于PYP模型的新闻热点发现聚类算法,则聚类分析的类簇个数为[1,N];4)对聚类分析结果采用NMI聚类评价方法进行评估结果;若NMI接近于1;此时得到聚类结果中的极小类簇,就是发现的新闻热点;步骤3)中所述的聚类算法为:1)含有N个文本样本数据集的语料库:X={x1,x2,...,xN},初始化,每个文本为一个类簇;2)随机选取其中一个文本进行采样,剩余的N‑1篇作为观察量;计算这个文本在已存在的K个类簇中分布概率和分配为新类簇K+1的分布概率,进一步找出K+1中分布概率最大的类簇Cm,最后计算出最大类簇与剩下K个类簇的文本数的比值
3)依据上一步的比值对相应类簇的大小进行惩罚,获得这个文本分配到K+1类簇的最终生成概率;4)同理对剩下的文本,重复2)、3)两步骤,直至全部样本采样完成,最后计算全部更新后的语料库的目标函数
以判断是否可以收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学;贵州耕云科技有限公司,未经贵州大学;贵州耕云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610469344.6/,转载请声明来源钻瓜专利网。