[发明专利]舆情获取和词粘度模型训练方法及设备、服务器和介质在审
申请号: | 202011058837.3 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112052375A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 章文俊;黄强;方军;潘旭;李云聪;杨哲;洪赛丁 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/216;G06F40/289;G06F40/30;G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06N20/20 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 获取 粘度 模型 训练 方法 设备 服务器 介质 | ||
1.一种视频舆情获取方法,包括:
接收舆情获取请求,其中所述舆情获取请求包括所要获取的舆情关键词;
将所述所要获取的舆情关键词与包含识别结果的视频数据进行匹配,其中,所述识别结果是对所述视频数据进行预定义内容识别获得的,所述预定内容识别包括文本识别和图像识别;以及
确定经匹配得到的视频数据作为结果视频数据。
2.如权利要求1所述的方法,其中,对所述视频数据进行预定义内容识别包括:
定时从视频源获取源视频数据;
根据预定义条件对所获取的源视频数据进行过滤;以及
将所述过滤后的源视频数据转码为预定义格式,以用于预定义内容识别。
3.如权利要求2所述的方法,其中,所述预定义条件包括以下中的一个或多个:视频时长、视频类别、发布时间。
4.如权利要求1所述的方法,所述文本识别包括:
对所述视频进行取帧,以获得所提取的每一帧的图片;
对所述图片中的文本进行识别,以作为文本信息;以及
对所述文本信息进行关键词抽取,以将所述抽取的关键词作为识别结果。
5.如权利要求1所述的方法,所述文本识别包括:
获取所述视频周边文本,以作为文本信息,其中所述周边文本包括以下中的一个或多个:标题、描述文本、语音文本;
对所述文本信息进行分词处理;
将经分词处理的的词输入经训练的词粘度模型,以获得每一个所述词能与其后一个词连在一起的概率;以及
筛选所述概率大于阈值概率的词,以将所述词组成关键短语,作为识别结果。
6.如权利要求5所述的方法,筛选所述概率大于阈值概率的词,以将所述词组成关键短语,作为识别结果包括:
获得所述组成的关键短语中的每个词的逆文档频率;
计算所述关键短语中的所有词的逆文档频率之和,以作为所述关键短语的逆文档频率;
选择其逆文档频率最高的预定个数的关键短语作为所述识别结果。
7.如权利要求4或5所述的方法,还包括:
对所述文本信息进行情感分析,其中所述情感包括正面情感、中性情感和反面情感;以及
对所述文本信息进行敏感度识别。
8.如权利要求1所述的方法,所述图像识别包括人脸识别,其中,对所述视频数据进行预定义内容识别包括:
对所述视频进行取帧,以获得所提取的每一帧的图片;以及
对所述图片中的人脸进行识别,以基于人脸数据库识别出所述人脸对应的名称。
9.如权利要求1所述的方法,所述图像识别还包括:场景识别、实体识别以及标识识别,其中,对所述视频数据进行预定义内容识别包括:
将所述视频进行取帧,以获得所提取的每一帧的图片;
对所述图片中的场景进行识别;
对所述图片中的实体进行识别;以及
对所述图片中的标识进行识别。
10.如权利要求1所述的方法,所述舆情获取请求还包括所要过滤掉的舆情关键词,其中,确定经匹配得到的结果视频数据包括:
将匹配得到的视频数据中包括所述所要过滤掉的舆情关键词相对应的识别结果的视频数据进行过滤;以及
确定所述过滤后的视频数据作为所述结果视频数据。
11.一种词粘度模型训练方法,包括:
对文本语料进行分词,以获得多个词对作为训练样本,其中所述词对包括前词和后词两个词;
基于所述训练样本训练所述词粘度模型,以使得所述词粘度模型输出每一个词对能够组成关键短语的概率;以及
通过梯度下降训练所述词粘度模型,直到所述词粘度模型达到预设条件则停止训练,其中所述预设条件包括预设精度或预设训练次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011058837.3/1.html,转载请声明来源钻瓜专利网。