[发明专利]基于人工智能的网页原创性识别方法、装置及存储介质有效
申请号: | 201710209215.8 | 申请日: | 2017-03-31 |
公开(公告)号: | CN107169011B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 马晋;程刚;张晋;周志奋;李田赫 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958;G06F21/10 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 网页 原创 识别 方法 装置 存储 介质 | ||
本发明公开了基于人工智能的网页原创性识别方法、装置及存储介质,其中方法包括:分别对保存在数据库中的各网页进行句子提取;根据提取出的句子生成句子级的原创查找词典;根据原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子;根据识别结果确定出待识别的网页的原创性。应用本发明所述方案,能够提高识别结果的准确性等。
【技术领域】
本发明涉及互联网技术,特别涉及基于人工智能的网页原创性识别方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着近年来互联网数据的爆炸性增长,搜索引擎公司开始检索千亿级别的网页资源。在海量网页资源的背后,存在相当一部分数量的站长或资源产生方,为了减少网页制作的成本,或是利用其它的优质网页为自己的网站吸取点击增加流量等,转载甚至抄袭其它的优质原创网页。
这种现象虽然在一定程度上有利于网络资源的快速传播,但由于原创内容的作者花费了一定的时间和精力创作内容,上述的转载或抄袭行为会削减甚至消除原创作者的创作价值;另外,对于搜索引擎而言,如果搜录了大量重复的资源,会消耗掉更多的成本如储存和检索时间等。
因此,需要对网页的原创性进行识别,一方面可以保护原创作者的权益,另一方面,搜索引擎可以利用节省出来的成本去搜录更多的原创网页,从而促进高价值内容的成长以及内容生态的建设。
现有技术中,主要采用以下方式来进行网页的原创性识别:从整个网页中,提取出一个最长句子,根据提取出的最长句子的签名进行分组,同组内根据title的皮尔逊距离(计算网页内容的相似度)和链接发现时间进行原创性网页的识别,即判断同组内谁是真正的原创。
但是,这种方式在实际应用中会存在一定的问题,即识别结果的准确性较低,比如,网页中的句子有细微的变化,或者最长句子的提取发生小的变化等,都会造成签名的变化,进而影响后续的分组等处理。
【发明内容】
有鉴于此,本发明提供了基于人工智能的网页原创性识别方法、装置及存储介质,能够提高识别结果的准确性。
具体技术方案如下:
一种基于人工智能的网页原创性识别方法,包括:
分别对保存在数据库中的各网页进行句子提取;
根据提取出的句子生成句子级的原创查找词典;
根据所述原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子;
根据识别结果确定出所述待识别的网页的原创性。
一种基于人工智能的网页原创性识别装置,包括:处理单元以及识别单元;
所述处理单元,用于分别对保存在数据库中的各网页进行句子提取,并根据提取出的句子生成句子级的原创查找词典;
所述识别单元,用于根据所述原创查找词典,分别识别出从待识别的网页中提取出的各句子是否为原创句子,根据识别结果确定出所述待识别的网页的原创性。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209215.8/2.html,转载请声明来源钻瓜专利网。