[发明专利]信息输出方法和装置在审
申请号: | 201711383167.0 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108073708A | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 黄波;李大任 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 历史文本 信息输出 待检测文本 方法和装置 重复 文本 提取特征 特征词 预设 输出 申请 | ||
本申请实施例公开了信息输出方法和装置。该方法的一具体实施方式包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定该多个历史文本中的至少一个候选历史文本;确定该至少一个候选历史文本中的各个候选历史文本与该待检测文本的文本重复度;基于所确定的文本重复度和预设重复度阈值的比较,确定该至少一个候选历史文本中的目标历史文本,并输出该目标历史文本。该实施方式提高了信息输出的灵活性。
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息输出方法和装置。
背景技术
随着计算机技术的发展,移动互联网迎来了全民自媒体的时代。随着原创作品的日渐丰富,抄袭的现象也越来越多。因此,需要对用户发布的作品进行重复度检测,确定其是否为抄袭作品。
现有的方式通常是直接检索两篇文章中相同句子的数量,将相同句子的数量与待检测文章中的句子总数的比值作为重复度,来判断待检测文章的抄袭程度,进而输出用于表征该重复度的数值。
发明内容
本申请实施例提出了信息输出方法和装置。
第一方面,本申请实施例提供了一种信息输出方法,该方法包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本;确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。
在一些实施例中,分别从待检测文本和多个历史文本中提取特征词,包括:分别对待检测文本和多个历史文本中的各个历史文本进行分词;对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。
在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,包括:对于多个历史文本中的每一个历史文本,确定该历史文本与待检测文本的共同特征词,并确定共同特证词在该历史文本中的权重与共同特证词在待检测文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。
在一些实施例中,在对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取预设数量的词,将所选取的词确定为该文本的特征词之后,该方法还包括:对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,关联历史文本信息包括关联历史文本的标识、该特征词在关联历史文本中的权重和关联历史文本的发布时间;将所建立的各个索引归入倒排索引列表。
在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,包括:将从待检测文本所提取的特征词作为目标特征词,从倒排索引列表中检索与目标特征词相对应的索引;从检索到的索引所对应的关联历史文本信息中提取目标特征词在与目标特征词在相对应的各个关联历史文本中的权重;对于与目标特征词相对应的每一个关联历史文本,确定目标特征词在待检测文本中的权重与目标特征词在该关联历史文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。
在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,还包括:响应于确定所确定的权重的和中不存在大于预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711383167.0/2.html,转载请声明来源钻瓜专利网。