[发明专利]一种判断文件内容与标题间一致性的方法及装置有效
申请号: | 201210303895.7 | 申请日: | 2012-08-23 |
公开(公告)号: | CN103631769A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 朱中的 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 判断 文件 内容 标题 一致性 方法 装置 | ||
1.一种判断文件内容与标题间一致性的方法,包括:
A.利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;
B.将所述目标文件及各候选文件基于内容之间的相似度进行聚类;
C.确定聚类结果中的最优类簇;
D.当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
2.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤D后进一步包括:
E.当所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B1.提取所述目标文件及各候选文件的内容特征;
B2.基于所述内容特征对所述目标文件及各候选文件进行聚类。
4.根据权利要求3所述的方法,其特征在于,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
5.根据权利要求3所述的方法,其特征在于,当所述目标文件的类型为视频时,所述步骤B1包括:
B11.分别从所述目标文件及各候选文件中分离出各自的音频;
B12.提取每个音频的音频指纹特征作为对应文件的内容特征。
6.根据权利要求3所述的方法,其特征在于,所述步骤B2包括:
B21.依次将所述目标文件及各候选文件中各个未被标识的文件W的内容特征与预设的内容特征库中的内容特征进行比对,如果比对成功,则将所述内容特征库中相匹配的内容特征所对应的文件标识赋予W,否则为W赋予新的文件标识,并将W的内容特征保存在所述内容特征库中以供与下一个未被标识的文件的内容特征比对时使用,其中所述内容特征库初始包含的内容特征数为非负整数,且每个内容特征对应一个文件标识;
B22.将具有相同标识的文件确定为一个类簇。
7.根据权利要求1所述的方法,其特征在于,所述步骤C包括:
C1.从聚类结果中确定各有效类簇,其中有效类簇为该类簇中的文件数与参与聚类的文件数之比大于设定阈值的类簇;
C2.从各有效类簇中选取最优类簇。
8.根据权利要求7所述的方法,其特征在于,所述步骤C2包括:
C21.基于以下至少一个因素确定每个有效类簇中的各个候选文件的得分:候选文件的网站置信度、候选文件的检索词置信度、候选文件标题与所述目标文件标题之间的匹配度;
C22.根据每个有效类簇中的各个候选文件的得分确定该有效类簇的得分;
C23.选取得分最高的有效类簇为最优类簇。
9.一种判断文件内容与标题间一致性的装置,包括:
检索单元,用于利用目标文件的标题在至少一个候选网站进行检索,以获取与所述目标文件类型相同的候选文件;
聚类单元,用于将所述目标文件及各候选文件基于内容之间的相似度进行聚类;
确定单元,用于确定聚类结果中的最优类簇;
判断单元,用于当所述目标文件不属于所述最优类簇时,确定所述目标文件内容与标题不一致,否则确定所述目标文件内容与标题一致。
10.根据权利要求9所述的装置,其特征在于,所述装置进一步还包括:
替换单元,用于当所述判断单元确定所述目标文件内容与标题不一致时,使用所述最优类簇中的候选文件替换保存在文件库中的所述目标文件。
11.根据权利要求9所述的装置,其特征在于,所述聚类单元包括:
特征提取单元,用于提取所述目标文件及各候选文件的内容特征;
文件聚类单元,用于基于所述内容特征对所述目标文件及各候选文件进行聚类。
12.根据权利要求11所述的装置,其特征在于,当所述目标文件的类型为音频时,所述内容特征为音频指纹特征。
13.根据权利要求11所述的装置,其特征在于,当所述目标文件的类型为视频时,所述特征提取单元包括:
分离单元,用于分别从所述目标文件及各候选文件中分离出各自的音频;
提取单元,用于提取每个音频的音频指纹特征作为对应文件的内容特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210303895.7/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法