[发明专利]一种新闻热点标签的生成方法及系统有效

申请号：	201310308455.5	申请日：	2013-07-22
公开（公告）号：	CN103336847B	公开（公告）日：	2016-11-30
发明（设计）人：	伏峰;章正道;林胜通	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京恒都律师事务所 11395	代理人：	邸建凯
地址：	361008 福建省厦门***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种新闻热点标签的生成方法及系统。该方法包括：提取新闻数据集中的新闻簇，其中，新闻数据集由多个新闻记录组成，一个新闻簇包括至少两个新闻记录；确定提取出的多个新闻簇中的热点新闻簇；提取热点新闻簇中各新闻记录的关键字；生成由一个新闻记录的至少两个关键字组合的组合词，其中，一个新闻记录对应一个或多个组合词；以及根据组合词的热度值生成新闻热点标签。通过本发明，能够提高获取新闻热点标签的准确性。
搜索关键词：	一种新闻热点标签生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种新闻热点标签的生成方法，其特征在于，包括：提取新闻数据集中的新闻簇，其中，所述新闻数据集由多个新闻记录组成，一个所述新闻簇包括至少两个所述新闻记录；确定提取出的多个所述新闻簇中的热点新闻簇；提取所述热点新闻簇中各新闻记录的关键字；生成由一个新闻记录的至少两个所述关键字组合的组合词，其中，一个新闻记录对应一个或多个所述组合词；以及根据所述组合词的热度值生成新闻热点标签，其中，提取新闻数据集中的新闻簇包括：计算所述新闻数据集中两个新闻记录之间的相似度；判断所述相似度是否大于第一预设阈值；以及若所述相似度大于所述第一预设阈值时，确定所述两个新闻记录属于同一新闻簇，计算两个新闻记录之间的相似度包括:将所述两个新闻记录分别进行特征化提取，得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量；采用以下任意一个公式计算所述相似度：Sim(X,Y)＝(X*Y)/(||X||*||Y||)，或者

<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>*</mo><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></msqrt><mo>,</mo></mrow>

其中，Sim(X,Y)为所述相似度，X为所述第一向量，Y为所述第二向量，X＝(x₁,x₂,x₃,...,x_n)，Y＝(y₁，y₂,y₃,...,y_n)，||X||和||Y||分别为X和Y的欧几里得范数，所述第一向量对应的新闻记录为第一新闻记录，将所述第一新闻记录进行特征化提取，得到所述第一向量包括：对所述第一新闻记录的标题和正文进行分词，得到由多个词元组成的第一词元集；根据词元在所述第一新闻记录中出现的次数计算所述第一词元集中词元对应的特征值；删除所述第一词元集中特征值小于第二预设阈值的词元；以及生成所述第一向量：X＝(<w₁,c₁>,<w₂,c₂>,<w₃,c₃>,...,<w_n,c_n>)，其中，w₁,w₂,w₃,...,w_n所述第一词元集中词元，c₁,c₂,c₃,...,c_n分别为词元对应的特征值，n为所述第一词元集中词元的个数，计算所述第一词元集中词元对应的特征值包括采用以下公式进行计算：c_i＝a1+a2*T+a3*P+a4*K其中，c_i为所述第一词元集中第i个词元对应的特征值，a1为所述第i个词元在所述第一新闻记录中出现的次数，a2为所述第i个词元在所述第一新闻记录的标题中出现的次数，a3为所述第i个词元在所述第一新闻记录的段首或段尾中出现的次数，a4为所述第i个词元在所述第一新闻记录的关键句中出现的次数，T、P、K均为无量纲参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司，未经厦门市美亚柏科信息股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310308455.5/，转载请声明来源钻瓜专利网。

上一篇：一种刻蚀和沉积工艺三维元胞信息存储结构及操作方法
下一篇：一种电子设备上网页缩放后对齐的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种新闻热点标签的生成方法及系统有效

专利文献下载