[发明专利]舆情获取和词粘度模型训练方法及设备、服务器和介质在审
申请号: | 202011058837.3 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112052375A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 章文俊;黄强;方军;潘旭;李云聪;杨哲;洪赛丁 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/216;G06F40/289;G06F40/30;G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06N20/20 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 获取 粘度 模型 训练 方法 设备 服务器 介质 | ||
本公开提供一种舆情获取和词粘度模型训练方法及设备、服务器和介质,涉及人工智能技术领域,具体涉及图像识别、自然语言处理,可用于云平台。一种视频舆情获取方法,包括:接收舆情获取请求,其中所述舆情获取请求包括所要获取的舆情关键词;将所要获取的舆情关键词与包含识别结果的视频数据进行匹配,其中,识别结果是对所述视频数据进行预定义内容识别获得的,预定内容识别包括文本识别和图像识别;以及确定经匹配得到的视频数据作为结果视频数据。
技术领域
本公开涉及人工智能技术领域,具体涉及图像识别、自然语言处理,特别涉及一种舆情获取和词粘度模型训练方法及设备、服务器和介质。
背景技术
目前的舆情监控系统主要是从各媒体网站、社交平台、移动端采集文本类舆情信息。但随着技术的发展,越来越多的舆情信息采用富媒体的方式发布和传播,如视频。现有的舆情产品对视频数据的识别也是基于其周边文本如视频标题、视频描述等进行识别,以根据用户输入的关键词与识别信息进行匹配并召回,缺少对视频内容本身的理解。而且,现有的舆情产品虽然可以实现文本类型的识别和匹配,但其文本类型的识别和匹配一般较简单,容易出现描述偏差;而且对视频数据的信息挖掘不够充分,可能导致最终的舆情预测精度不够准确,无法对视频中提及或展示的内容进行召回,导致系统的召回率低。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一个方面,提供了一种视频舆情获取方法,包括:接收舆情获取请求,其中舆情获取请求包括所要获取的舆情关键词;将所要获取的舆情关键词与包含识别结果的视频数据进行匹配,其中,识别结果是对所述视频数据进行预定义内容识别获得的,预定内容识别包括文本识别和图像识别;以及确定经匹配得到的视频数据作为结果视频数据。
根据本公开的另一个方面,提供了一种词粘度模型训练方法,包括:对文本语料进行分词,以获得多个词对作为训练样本,其中所述词对包括前词和后词两个词;基于所述训练样本训练所述词粘度模型,以使得所述词粘度模型输出每一个词对能够组成关键短语的概率;以及通过梯度下降训练所述词粘度模型,直到所词粘度模型达到预设条件则停止训练,其中预设条件包括预设精度或预设训练次数。
根据本公开的又一个方面,提供了一种视频舆情获取设备,包括:接收单元,配置为接收舆情获取请求,其中所述舆情获取请求包括所要获取的舆情关键词;匹配单元,配置为将所要获取的舆情关键词与包含识别结果的视频数据进行匹配,其中,识别结果是对所述视频数据进行预定义内容识别获得的,预定内容识别包括文本识别和图像识别;以及确定单元,配置为确定经匹配得到的视频数据作为结果视频数据。
根据本公开的又一个方面,提供了一种词粘度模型训练设备,包括:取样单元,配置为对文本语料进行分词,以获得多个词对作为训练样本,其中所述词对包括前词和后词两个词;训练单元,配置为基于所述训练样本训练所述词粘度模型,以使得所述词粘度模型输出每一个词对能够组成关键短语的概率;以及响应单元,配置为通过梯度下降训练所述词粘度模型,直到所述词粘度模型达到预设条件则停止训练,其中所述预设条件包括预设精度或预设训练次数。
根据本公开的又一个方面,提供了一种服务器,包括:处理器;以及存储程序的存储器,该程序包括指令,该指令在由处理器执行时使处理器执行本公开中所述的视频舆情获取方法。
根据本公开的又一个方面,提供了一种存储程序的计算机可读存储介质,该程序包括指令,该指令在由服务器的处理器执行时,致使服务器执行本公开中所述的视频舆情获取方法。
根据本公开的又一个方面,提供了一种服务器,包括:处理器;以及存储程序的存储器,该程序包括指令,该指令在由处理器执行时使处理器执行本公开中所述的词粘度模型训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011058837.3/2.html,转载请声明来源钻瓜专利网。