[发明专利]一种资讯处理方法及装置有效
申请号: | 201710106771.2 | 申请日: | 2017-02-27 |
公开(公告)号: | CN106933993B | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 闫丹凤;韩昫;柯楠;林荣恒;赵耀;邹华 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/14 | 分类号: | G06F16/14 |
代理公司: | 11413 北京柏杉松知识产权代理事务所(普通合伙) | 代理人: | 孙翠贤;项京 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种资讯处理方法及装置,该方法在获得针对预设时间段的目标资讯组之后,分别对目标资讯组中的每一目标资讯进行数据清洗,得到针对每一目标资讯的纯文本形式的第一处理资讯,然后对得到的第一处理资讯进行关键词提取,将提取到的关键词作为预设时间段的资讯热点。应用本发明实施例提供的方案对资讯进行处理,无需人工主观地处理资讯,而是通过对资讯进行数据清洗以及关键词提取,能够快速准确地提取到资讯热点。 | ||
搜索关键词: | 一种 资讯 处理 方法 装置 | ||
【主权项】:
1.一种资讯处理方法,其特征在于,所述方法包括:/n获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;/n分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;/n对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点;/n针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度;/n所述对所述第一处理资讯进行关键词提取,包括:/n利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;/n将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列;/n所述计算所述目标资讯的热度所采用的公式为:/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710106771.2/,转载请声明来源钻瓜专利网。