[发明专利]一种判断文件内容与标题间一致性的方法及装置有效
申请号: | 201210303895.7 | 申请日: | 2012-08-23 |
公开(公告)号: | CN103631769A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 朱中的 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 判断 文件 内容 标题 一致性 方法 装置 | ||
【技术领域】
本发明涉及数据处理技术,特别涉及一种判断文件内容与标题间一致性的方法及装置。
【背景技术】
随着互联网技术的发展,网络上资源越来越丰富,用户通过向搜索引擎输入检索关键字,即可得到自己想要的信息资源。例如,用户向音乐网站的搜索引擎输入“北京欢迎您”,就可以从音乐网站得到与“北京欢迎您”相关的音乐文件。然而,由于互联网上存在大量的资源,在音乐网站的数据库中,有可能存在歌曲名为“北京欢迎您”的音乐文件,其实质的音频内容却是“北京一夜”,即现有网络资源中存在着文件内容与标题不一致的现象,这种现象会导致向用户返回数据时出现错误。
此外,由于互联网成为越来越开放的平台,用户除了可以从网络上获取资源,也可以将自己的资源分享到网络上。当用户将文件上传到网络上时,用户有可能出于有意或无意的目的,将文件内容与标题保存得不一致。例如有的用户故意将某个非法视频的名称保存为“建国大业”,或者有的用户误将音频内容为“北京一夜”的文件名记错为“北京欢迎您”而导致错误上传。
【发明内容】
本发明所要解决的技术问题是提供一种判断文件内容与标题间一致性的方法及装置,以对文件内容与标题间不一致的情况做出准确判断。
本发明为解决技术问题而采用的技术方案是提供一种判断文件内容与标题间一致性的方法,包括:A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类;C.确定聚类结果中的最优类簇;D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
根据本发明之一优选实施例,所述方法在所述步骤D后进一步包括:E.当所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
根据本发明之一优选实施例,所述步骤B包括:B1.提取所述目标文件及各候选文件的内容特征;B2.基于所述内容特征对所述目标文件及各候选文件进行聚类。
根据本发明之一优选实施例,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
根据本发明之一优选实施例,当所述目标文件的类型为视频时,所述步骤B1包括:B11.分别从所述目标文件及各候选文件中分离出各自的音频;B12.提取每个音频的音频指纹特征作为对应文件的内容特征。
根据本发明之一优选实施例,所述步骤B2包括:B21.依次将所述目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识;B22.将具有相同标识的文件确定为一个类簇。
根据本发明之一优选实施例,所述步骤C包括:C1.从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;C2.从各有效类簇中选取最优类簇。
根据本发明之一优选实施例,所述步骤C2包括:C21.基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;C22.根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;C23.选取得分最高的有效类簇为最优类簇。
本发明还提供了一种判断文件内容与标题间一致性的装置,包括:检索单元,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;聚类单元,用于将所述目标文件及各候选文件基于内容之间的相似度进行聚类;确定单元,用于确定聚类结果中的最优类簇;判断单元,用于当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
根据本发明之一优选实施例,所述装置进一步还包括:替换单元,用于当所述判断单元确定所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
根据本发明之一优选实施例,所述聚类单元包括:特征提取单元,用于提取所述目标文件及各候选文件的内容特征;文件聚类单元,用于基于所述内容特征对所述目标文件及各候选文件进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210303895.7/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法