[发明专利]一种文本数据统计方法、装置和服务器在审

专利信息
申请号: 201711436235.5 申请日: 2017-12-26
公开(公告)号: CN108197102A 公开(公告)日: 2018-06-22
发明(设计)人: 雍倩;尹存祥;吴伟佳;黎爱坤;鄢胜利;韦庭 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京市铸成律师事务所 11313 代理人: 王珺;徐瑞红
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 比对 文本 目标文本 文本相似度 分析对象 文本集合 文本数据 服务器 语义相似度 获取目标 统计结果 一次搜索 统计 短文本 受众 算法 搜索 输出 分析
【说明书】:

发明提出一种文本数据统计方法、装置和服务器,所述方法包括:获取目标文本和第一待比对文本集合;其中,所述第一待比对文本集合包括多个待比对文本,每个待比对文本为用户在一次搜索中输入的搜索文本;根据短文本语义相似度算法,计算每个待比对文本与所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对象;和基于用户的至少一个属性,对所述待分析对象对应的用户进行统计,生成并输出统计结果。本发明实施例中,能够实现针对对目标文本感兴趣的用户、即目标文本对应的事件所针对的受众的分析。

技术领域

本发明涉及互联网领域,并具体涉及一种文本数据统计方法、装置和服务 器。

背景技术

目前,互联网技术在全球范围内得到了广泛的应用,人们越来越多地通过 互联网来进行各种活动,而网络媒体也成为了不容忽视的新兴媒体,得到了广 泛关注。

与报纸、无线广播和电视等传统的传播媒体相比,网络媒体具有进入门槛 低、信息超大规模、信息发布与传播迅速、参与群体庞大、实时交互性强等综 合性特点。由于网络信息的发布成本极低,信息的提供者、传播者和阅读者之 间已经没有明显的界限。信息网络已成为一个“虚拟社会”,具有非常明显的社 会群体特征。特别是当有事件发生时,人们都会通过新闻评论、社区论坛、微 博等方式参与讨论。而通过相应的舆情分析,则可以了解到民众的关心问题等 重要信息。

舆情分析很重要的一点是对事件受众的分析和确定。如何通过对网络上产 生的海量数据的分析来得到事件的准确受众,是一个亟待解决的重要问题。

发明内容

本发明实施例提供一种文本数据统计方法、装置和服务器,以至少解决现 有技术中的以上技术问题。

第一方面,本发明实施例提供了一种文本数据统计方法,包括:

获取目标文本和第一待比对文本集合;其中,所述第一待比对文本集合包 括多个待比对文本,每个待比对文本为用户在一次搜索中输入的搜索文本;

根据短文本语义相似度算法,计算每个待比对文本与所述目标文本之间的 文本相似度,并且将所述文本相似度大于第一阈值的待比对文本作为待分析对 象;和

基于用户的至少一个属性,对所述待分析对象对应的用户进行统计,生成 并输出统计结果。

结合第一方面,本发明在第一方面的第一种实施方式中,所述根据短文本 语义相似度算法,计算每个待比对文本与所述目标文本之间的文本相似度,并 且将所述文本相似度大于第一阈值的待比对文本作为待分析对象包括:

利用Elasticsearch,计算每个待比对文本和所述目标文本之间的第一相似 度;

从所述第一待比对文本集合中筛选出所述第一相似度大于第二阈值的待比 对文本,并且将剩余的待比对文本作为第二待比对文本集合;

针对所述目标文本和所述第二待比对文本集合中的每个文本进行分词,得 到用于每个文本的至少一个关键词;

利用word2vec模型对所述至少一个关键词进行向量表示,并且将用于每个 文本的向量进行累加,得到相应的累加结果;和

根据用于所述目标文本的累加结果和用于所述第二待比对文本集合中的每 个待比对文本的累加结果,计算所述第二待比对文本集合中的每个待比对文本 和所述目标文本之间的文本相似度,并且将所述文本相似度大于第一阈值的待 比对文本作为待分析对象。

结合第一方面的第一种实施方式,所述文本相似度为余弦相似度,并且利 用以下公式来计算所述余弦相似度:

其中,x和y均为向量,sim(X,Y)为向量x和y之间的相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711436235.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top