[发明专利]基于视频字幕的知识图谱构建方法、装置及计算设备在审
申请号: | 202010450442.1 | 申请日: | 2020-05-25 |
公开(公告)号: | CN113722540A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 李薇;曹旭;周波;王锋;周丽莎 | 申请(专利权)人: | 中国移动通信集团重庆有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/783;H04N5/278 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 王广涛 |
地址: | 401121*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 字幕 知识 图谱 构建 方法 装置 计算 设备 | ||
本发明实施例涉及视频处理技术领域,公开了一种基于视频字幕的知识图谱构建方法、装置及计算设备,该方法包括:获取用户上传的视频实体,并根据所述视频提取的视频字幕;根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组;将视频实体标识、视频实体名称以及所述关键词组构成的数据集传输至服务器端以根据所述关键词组获取所述视频实体与知识图谱中其他视频实体的实体关系,构建新的知识图谱。通过上述方式,本发明实施例能够精确定位视频类别和主题,提供准确的视频分类数据,提供准确的视频关联数据,提供视频推荐能力。
技术领域
本发明实施例涉及视频处理技术领域,具体涉及一种基于视频字幕的知识图谱构建方法、装置及计算设备。
背景技术
现有的视频推荐、舆情分析等服务常用的视频关系方法有三种:1)根据视频提交者所提供的关键词,视频标题等信息进行分类,当用户浏览、搜索、观看或者收藏过类似关键词、视频标题的视频后,会对某户的偏好权重进行调整,进而更新用户偏好模型,或者根据实时热点,或者实时上升热点视频等信息更新舆情模型。当对用户进行视频推荐时,采用用户偏好模型和舆情模型,推算出用户当前最感兴趣的分类/关键词,按照热度、播放量、是否曾经观看等因素或者用户自定义排序进行展示。当对舆情进行监控时,则需要对最近播放量/播放视频的分类和标题,偏好用户特征进行统计,输入相应模型进行分析。2)根据视频评论及热度进行分析,根据一定的NLP(自然语言处理)算法提取评论中的关键词进行后续步骤。3)采用视频标题、分类以及视频评论一起进行判断,是前面两种方法的集成。
对于使用视频关键词、视频标题进行分类和视频推荐的方法,由于视频标题、关键词等内容由用户自定义,受人为主观因素影响,会出现脏数据,导致结果不能真实反映视频内容;当出现恶意视频时,上传者只需要通过规避恶意关键词,选择其他分类或者采用无恶意标题等方法,就可以“安全”上传。对于使用视频评论进行分类和推荐的方法,评论由视频的观看人员主动评论,内容由发布者自行决定,其核心观点及内容与视频本身有区别,或者由人为引导有所偏差。由于上述数据问题导致后续结果有偏差或者有错误,在实际使用的情况下将会引起不可预见的结果,例如将不合适内容推送给儿童、关联视频不能引起用户兴趣导致用户流失、对舆论热点把握错误引起社会问题等。
另外现有技术中,所有的运算过程在服务器端进行,当大体量、高并发用户行为产生时,给后台带来大量运行压力,需要考验后台服务器运算能力,将会加大使用者开销,有极大的可能性影响用户感知。
发明内容
鉴于上述问题,本发明实施例提供了一种基于视频字幕的知识图谱构建方法、装置及计算设备,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种基于视频字幕的知识图谱构建方法,所述方法包括:获取用户上传的视频实体,并根据所述视频提取的视频字幕;根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组;将视频实体标识、视频实体名称以及所述关键词组构成的数据集传输至服务器端以根据所述关键词组获取所述视频实体与知识图谱中其他视频实体的实体关系,构建新的知识图谱。
在一种可选的方式中,所述根据所述视频实体以及所述视频字幕获取所述视频实体的关键词,构成关键词组,包括:将所述视频实体标识、所述视频实体名称以及所述视频字幕组成分布式数据集,并对所述分布式数据集进行预处理;对所述分布式数据集进行分词操作,获取分词后的词语数据;将获取的所述词语数据进行二次干扰处理;从二次干扰处理后的所述词语数据中提取所述视频实体的关键词,构成所述关键词组。
在一种可选的方式中,所述从二次干扰处理后的所述词语数据中提取所述视频实体的关键词,构成所述关键词组,包括:采用第一算法从所述词语数据中提取第一关键词数据;采用第二算法从所述词语数据中提取第二关键词数据;合并所述第一关键词数据和所述第二关键词数据,构成所述关键词组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团重庆有限公司;中国移动通信集团有限公司,未经中国移动通信集团重庆有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010450442.1/2.html,转载请声明来源钻瓜专利网。