[发明专利]一种新闻热点标签的生成方法及系统有效
申请号: | 201310308455.5 | 申请日: | 2013-07-22 |
公开(公告)号: | CN103336847B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 伏峰;章正道;林胜通 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 邸建凯 |
地址: | 361008 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种新闻热点标签的生成方法及系统。该方法包括:提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;确定提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点标签。通过本发明,能够提高获取新闻热点标签的准确性。 | ||
搜索关键词: | 一种 新闻 热点 标签 生成 方法 系统 | ||
【主权项】:
一种新闻热点标签的生成方法,其特征在于,包括:提取新闻数据集中的新闻簇,其中,所述新闻数据集由多个新闻记录组成,一个所述新闻簇包括至少两个所述新闻记录;确定提取出的多个所述新闻簇中的热点新闻簇;提取所述热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个所述关键字组合的组合词,其中,一个新闻记录对应一个或多个所述组合词;以及根据所述组合词的热度值生成新闻热点标签,其中,提取新闻数据集中的新闻簇包括:计算所述新闻数据集中两个新闻记录之间的相似度;判断所述相似度是否大于第一预设阈值;以及若所述相似度大于所述第一预设阈值时,确定所述两个新闻记录属于同一新闻簇,计算两个新闻记录之间的相似度包括:将所述两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;采用以下任意一个公式计算所述相似度:Sim(X,Y)=(X*Y)/(||X||*||Y||),
或者![]()
其中,Sim(X,Y)为所述相似度,X为所述第一向量,Y为所述第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分别为X和Y的欧几里得范数,所述第一向量对应的新闻记录为第一新闻记录,将所述第一新闻记录进行特征化提取,得到所述第一向量包括:对所述第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;根据词元在所述第一新闻记录中出现的次数计算所述第一词元集中词元对应的特征值;删除所述第一词元集中特征值小于第二预设阈值的词元;以及生成所述第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn所述第一词元集中词元,c1,c2,c3,...,cn分别为词元对应的特征值,n为所述第一词元集中词元的个数,计算所述第一词元集中词元对应的特征值包括采用以下公式进行计算:ci=a1+a2*T+a3*P+a4*K其中,ci为所述第一词元集中第i个词元对应的特征值,a1为所述第i个词元在所述第一新闻记录中出现的次数,a2为所述第i个词元在所述第一新闻记录的标题中出现的次数,a3为所述第i个词元在所述第一新闻记录的段首或段尾中出现的次数,a4为所述第i个词元在所述第一新闻记录的关键句中出现的次数,T、P、K均为无量纲参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310308455.5/,转载请声明来源钻瓜专利网。