[发明专利]一种相似网络页面的搜索方法及设备在审

专利信息
申请号: 201910502242.3 申请日: 2019-06-11
公开(公告)号: CN110390044A 公开(公告)日: 2019-10-29
发明(设计)人: 杨祎;王炜 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/9532 分类号: G06F16/9532;G06F17/27
代理公司: 深圳中一专利商标事务所 44237 代理人: 郭鸿
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明适用于互联网技术领域,提供了一种相似网络页面的搜索方法及设备,包括:获取目标页面的文本信息,并基于文本信息构建目标页面的页面语料库;对所有网络页面进行遍历搜索,确定包含页面关键词的网络页面为目标页面的候选页面;基于候选页面预设的各个页面标签在候选页面中的出现次数,确定各个页面标签的标签权重;根据候选页面包含的页面内容,生成候选页面的内容特征信息;根据候选页面的各个页面标签的标签权重以及内容特征信息,计算候选页面与目标页面的页面相关度;将页面相关度大于相关阈值的候选页面确定为目标页面的相似页面。本发明通过网路页面的页面类型以及内容特征,进行多维度的相似度筛选,提高了页面搜索的准确性。
搜索关键词: 候选页面 页面 目标页 页面标签 内容特征信息 网络页面 文本信息 相似网络 相关度 权重 搜索 标签 互联网技术 相似度筛选 遍历搜索 获取目标 内容特征 页面类型 页面内容 页面搜索 多维度 语料库 网路 构建 预设
【主权项】:
1.一种相似网络页面的搜索方法,其特征在于,包括:获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面;基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重;根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度;将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910502242.3/,转载请声明来源钻瓜专利网。

同类专利
  • 一种相似网络页面的搜索方法及设备-201910502242.3
  • 杨祎;王炜 - 平安科技(深圳)有限公司
  • 2019-06-11 - 2019-10-29 - G06F16/9532
  • 本发明适用于互联网技术领域,提供了一种相似网络页面的搜索方法及设备,包括:获取目标页面的文本信息,并基于文本信息构建目标页面的页面语料库;对所有网络页面进行遍历搜索,确定包含页面关键词的网络页面为目标页面的候选页面;基于候选页面预设的各个页面标签在候选页面中的出现次数,确定各个页面标签的标签权重;根据候选页面包含的页面内容,生成候选页面的内容特征信息;根据候选页面的各个页面标签的标签权重以及内容特征信息,计算候选页面与目标页面的页面相关度;将页面相关度大于相关阈值的候选页面确定为目标页面的相似页面。本发明通过网路页面的页面类型以及内容特征,进行多维度的相似度筛选,提高了页面搜索的准确性。
  • 一个多语言电子商务网站处理语言搜索方法-201910449578.8
  • 徐源 - 成都美美臣科技有限公司
  • 2019-05-28 - 2019-10-18 - G06F16/9532
  • 本发明公开了一个多语言电子商务网站处理语言搜索方法,属于电子商务领域,现在电子商务全球化,不同国家或地区的用户提供不同的内容,那么用户使用不同语言的搜索,电子商务网站会尝试查找与搜索者语言相匹配的网页,并为搜索者找到正确的区域设置页面,本发明实现在同一个网站/应用程序上处理多种语言,这意味着用户可使用相同的帐户进行法语、英语等等多语言搜索,消除了处理编码的复杂性,用户可以在任何支持的语言中使用搜索的全部功能。
  • 用于获取信息的方法及装置-201910575974.5
  • 王乐义;黄相凯;安思宇;刘明浩;郭江亮;李旭 - 北京百度网讯科技有限公司
  • 2019-06-28 - 2019-09-27 - G06F16/9532
  • 本公开的实施例公开了用于获取信息的方法及装置,涉及云计算领域。该方法的一具体实施方式包括:获取包含搜索关键词的至少一条初始信息,其中,初始信息包含上述搜索关键词;对于上述至少一条初始信息中的初始信息,计算上述搜索关键词在该初始信息中的权重值,上述权重值用于表征搜索关键词在初始信息中的重要程度;将大于设定权重阈值的权重值对应的初始信息标记为备选信息,并展示上述备选信息;响应于接收到对应上述备选信息的选择信号,将上述选择信号对应的备选信息设置为目标信息。该实施方式提高了目标信息的有效性。
  • 一种基于政务大数据的爬虫分析平台-201910364873.3
  • 谢文龙;杨嘉欣;杨嘉烨 - 广东鼎义互联科技股份有限公司
  • 2019-04-30 - 2019-08-27 - G06F16/9532
  • 本发明公开了一种基于政务大数据的爬虫分析平台,支持数据的分布式协同抓取,可视化抓取,智能分析用户行为快速筛选出用户需要的数据,分布式协同抓取只要进行足够的集群就可以大大提高系统的处理能力。智能分析筛选数据,支持用户自定义数据筛选规则,分析用户筛选数据的行为,让筛选越加精准。以及平台提供丰富高效的数据处理能力,以及各种自定义规则,智能行为分析等能力,帮助企业采集各种需要的政务数据,同时完成用户和政务之间的交互与反馈,形成数据闭环,让对接政务数据不再困难。
  • 搜索引擎实现方法、搜索方法以及装置-201410849988.9
  • 杨震;杨世民;方宇;徐敏捷;夏艳 - 中国电信股份有限公司
  • 2014-12-31 - 2019-08-20 - G06F16/9532
  • 本发明公开一种搜索引擎实现方法、搜索方法以及装置。该方法包括:获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果;根据搜索表达式历史确定表达关键词序列;根据表达关键词序列和目标结果生成语义网,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重。本公开提供的搜索引擎实现方法、搜索方法以及装置,基于用户输入的表达关键词和选择的目标结果进行统计建立语义网,获取关键词与关键词之间以及关键词与目标结果之间的距离和权重关系,当用户搜索目标结果时,可以基于该语义网为用户提供服务,节约用户搜索服务信息时间,为用户提供更准确高效的信息服务。
  • 一种联系人检索方法和装置-201910245147.X
  • 张鸿鹏;安君超;焦克新;潘廷勇 - 视联动力信息技术股份有限公司
  • 2019-03-28 - 2019-08-16 - G06F16/9532
  • 本发明实施例提供了一种联系人检索方法和装置,所述方法应用于视联网存储网关,所述方法包括:接收并保存视联网终端发送的视联网用户信息;其中,所述视联网用户信息为所述视联网终端根据视联网协议,将进行视联网业务的双方用户对应的用户信息进行格式转换所得到;所述双方用户包括:视联网业务发起方用户和视联网业务接收方用户;接收所述视联网终端发送的联系人检索请求;其中,所述联系人检索请求中携带有检索关键词;向所述视联网终端发送与所述检索关键词相匹配的视联网用户信息。满足了视联网中快速、便捷、准确地获取联系人信息的需求。
  • 应用程序评论的监控方法、装置及存储介质、计算机设备-201910295938.3
  • 温锴昕 - 平安国际智慧城市科技股份有限公司
  • 2019-04-12 - 2019-08-16 - G06F16/9532
  • 本发明提供一种应用程序评论的监控方法、装置及存储介质、计算机设备,所述方法包括:根据预设周期时间周期性爬取目标应用程序在第三方应用市场的评价列表,得到所述市场评论数据;所述市场评论数据为所述第三方应用市场中用户对所述目标应用程序的评论数据;分析所述市场评论数据,判断所述市场评论数据中是否包含有负面评价信息;当所述市场评论数据中包含有负面评价信息时,触发用于提示处理所述负面评价信息的警报。上述方法可减少人工查验软件在第三方应用市场舆论的工作量,实现全自动化监控。
  • 多榜单生成的方法、装置、存储介质及终端设备-201910305719.9
  • 陈慕仪 - 广州虎牙信息科技有限公司
  • 2019-04-16 - 2019-08-06 - G06F16/9532
  • 本申请公开了多榜单生成的方法、装置、存储介质及终端设备,其中所述方法包括:获取搜索词集合;确定目标词集合,所述目标词集合中包括需要在总榜单中展示的目标词以及各目标词需要展示的指定位置;按照所述指定位置,将所述目标词填充到总榜单的对应位置,并从所述搜索词集合中选取搜索词填充到所述总榜单的剩余位置,以得到总榜单;根据所述总榜单生成一个或多个子榜单,其中,各子榜单具有不同的分类类别。本实施例可以使得榜单既可以包括运营推广的目标词又可以包括真实的搜索词,提升了生成榜单的方式的灵活性,满足运营商的个性化需求。
  • 舆论信息爬取方法、装置、计算机设备及存储介质-201910198371.8
  • 李晨光 - 深圳壹账通智能科技有限公司
  • 2019-03-15 - 2019-08-02 - G06F16/9532
  • 本发明公开了舆论信息爬取方法、装置、计算机设备及存储介质。该方法包括:将待爬取的用户清单中每一用户名称与预设的爬取关键词集合中各关键词进行组合,得到定向爬虫集合;通过定向爬虫集合从预设的网址清单中爬取与各用户对应的用户舆情信息,以得到用户舆情信息集合;对用户舆情信息集合中每一用户舆情信息进行关键词提取,得到对应的关键词列表;将每一用户舆情信息对应的关键词列表与对应的用户唯一身份识别信息进行封装,以得到与每一用户对应的处理后数据;将所选定的处理后数据输入至预先训练的朴素贝叶斯模型,得到对应目标用户的舆情评分值。该方法实现了自动化高效爬取指定用户的舆情信息,而且能获取其对应的舆情评分值。
  • 用于成员搜索的非线性模型-201811570390.0
  • 胡泊;周山;郭奇;吴显仁;A·R·奈尔;P·章 - 微软技术许可有限责任公司
  • 2018-12-21 - 2019-07-26 - G06F16/9532
  • 一种系统和方法,包括:接收搜索查询,以及从数据库获得成员的成员数据。对于多个非线性模型中的每个非线性模型,基于特性与条件的比较来遍历非线性模型以获得分数,其中,在各非线性模型之中,至少一个特性是基于以下各项中的至少一项而推断的特性:成员在在线网络系统中的活动;以及成员在在线网络系统中的连接。对从非线性模型中的每个非线性模型获得的分数进行组合以获得经组合分数,并且用户界面至少部分地基于经组合分数来显示与成员相关的信息。
  • 数据引擎优化方法、装置、设备和计算机可读存储介质-201910217261.1
  • 吴成锐;刘国昌 - 广东瑞恩科技有限公司
  • 2019-03-21 - 2019-07-26 - G06F16/9532
  • 本发明公开了一种数据引擎优化方法,在网页的搜索窗口中接收到用户输入的问题后,从所述问题中筛选出关键词;根据所述关键词与预设数据类型的映射关系,确定所述关键词对应的数据类型;在确定的数据类型所在的数据库中,查找与所述关键词的匹配率达到预设阈值的数据内容,并按照匹配率从高到低的顺序在网页中显示查找到的数据内容。本发明还公开了一种数据引擎优化装置、设备和计算机可读存储介质。本发明提高了数据引擎查找数据的效率。
  • 基于共现词的检索方法、装置、设备及可读存储介质-201910191570.6
  • 朱世新;田磊;王海君;李山亭;钟亮;韦柏松;王婉君 - 平安城市建设科技(深圳)有限公司
  • 2019-03-13 - 2019-07-19 - G06F16/9532
  • 本发明公开一种基于共现词的检索方法、装置、设备及可读存储介质,所述方法包括:爬取多个文本语料,并对各所述文本语料进行分词处理,生成多个分词;根据各所述分词确定多个常用词,基于预设算法计算与各所述常用词对应的共现词,并将各所述常用词及对应共现词建立常用词组,形成词典存储;当接收到检索词时,将所述检索词和所述词典中的各所述常用词组对比,确定目标常用词组,并以所述目标常用词组进行检索。本方案基于人工智能确定与各常用词具有相似性的相似词,在搜索时以和检索词对应的目标常用词组中的常用词和共现词进行扩展检索,使得检索所匹配的结果更为广泛,且更容易覆盖用户的搜索意图;提高了搜索效率以及准确性。
  • 一种网络搜索结果推荐方法及电子设备-201510640670.4
  • 陈耀攀 - 北京奇虎科技有限公司;奇智软件(北京)有限公司
  • 2015-09-30 - 2019-05-31 - G06F16/9532
  • 本发明涉及互联网领域,公开了一种网络搜索结果推荐方法及电子设备,以解决现有技术中基于搜索引擎进行搜索时所获得的信息量较少的技术问题。该方法包括:首接收在第一搜索引擎进行网络搜索的第一搜索操作;然后响应第一搜索操作,通过第一搜索引擎搜索获得的第一搜索结果;接着基于第一对应关系,从至少两个搜索类别中确定出特定搜索类别,第一对应关系基于用户对第一搜索类别或者第二搜索类别的搜索结果中的任一搜索进入进行操作的选择结果而确定。达到了增加基于搜索引擎进行搜索时所获得的信息量的技术效果。
  • 分布式语义描述符上的语义查询-201780060515.2
  • 李旭;王重钢;李庆光;D·锡德 - 康维达无线有限责任公司
  • 2017-09-29 - 2019-05-21 - G06F16/9532
  • 目前,没有用于直接在分布式语义描述符(例如,oneM2M资源)上进行语义查询处理的现有解决方案。本文讨论的是针对分布式语义描述符上的语义查询的多个应用。在第一示例性方法中,当信息存储在单个语义描述符中时,考虑语义查询。在第二示例性方法中,当请求或以其它方式需要的信息未存储在语义描述符中时,考虑语义查询。在第三示例性方法中,当信息分布在不同但相关的语义描述符中时,考虑语义查询。在第四示例性方法中,当信息分布在不同且不相关或对等的语义描述符中时,考虑语义查询。在第五种方法中,可以通过充分利用现有的语义资源发现机制来间接查询来自目标资源的信息。
  • 基于符号识别的智能检索方法及装置-201811378766.8
  • 谢玉辉;王端佩;卓金宏;李晓阳;童大山 - 广州搜料信息技术有限公司
  • 2018-11-19 - 2019-04-26 - G06F16/9532
  • 本发明公开了一种基于符号识别的智能检索方法及装置,方法包括如下步骤:A)在搜料网平台输入搜索词;B)分析所述搜索词中的符号对语义的影响;C)判断是否保留所述符号,如是,执行步骤D);否则,执行步骤F);D)所述搜料网平台根据所述符号前后的内容,采用不同的分词策略对所述搜索词进行分词,得到相应的分词结果;E)所述搜料网平台利用分析得到的所述分词结果,在检索库中进行搜索,返回最符合预期的搜索结果给用户,执行步骤G);F)将所述符号去除,执行步骤D);G)结束。实施本发明的基于符号识别的智能检索方法及装置,具有以下有益效果:能得到精确的搜索结果。
  • 一种网络搜索行为的管控方法及装置-201811185481.2
  • 陈杰 - 北京奇虎科技有限公司
  • 2018-10-11 - 2019-04-05 - G06F16/9532
  • 本发明提供了一种网络搜索行为的管控方法及装置,所述方法包括:获取终端设备当前运行的应用程序返回的搜索结果数据,提取所述搜索结果数据中的指定参数;基于所述指定参数获取与所述搜索结果数据对应的至少一个搜索关键词,并根据所述搜索关键词判断终端设备用户的网络搜索行为是否属于待管控网络搜索行为;若所述终端设备用户的网络搜索行为属于待管控网络搜索行为,则根据预设管控策略对所述终端设备用户的网络搜索行为进行管控。基于本发明实施例提供的方法可以对搜索结果数据进行分析提取指定参数可以准确推断用户的搜索类型,进而反推出用户输入的搜索关键词,对其判断即可有效获知用户的网络搜索行为是否属于待管控网络搜索行为。
  • 关键词的拓展方法和装置-201410758214.5
  • 张运 - 北京国双科技有限公司
  • 2014-12-10 - 2019-03-26 - G06F16/9532
  • 本发明公开了一种关键词的拓展方法和装置。其中,关键词的拓展方法包括:搜索包括待拓展关键词的初始推广信息,并获取初始推广信息的属性信息;从待拓展关键词的预设配置信息中查找目标配置项的第一配置内容;以及将属性信息中的目标配置项的第二配置内容替换为第一配置内容,得到待拓展关键词的目标推广信息。通过本发明,解决了现有技术中确定推广信息比较耗时的问题,达到了缩短推广信息的确定时长、提高效率的效果。
  • 交互式搜索方法和装置-201410228820.6
  • 李婷婷;万伟;赵世奇 - 百度在线网络技术(北京)有限公司
  • 2014-05-27 - 2019-03-12 - G06F16/9532
  • 本发明提出一种交互式搜索方法和装置,其中,该方法包括:接收用户输入的第一查询信息;根据第一查询信息获取意图澄清引导语句;接收用户输入的针对意图澄清引导语句的反馈信息,并根据第一查询信息、意图澄清引导语句和反馈信息生成第二查询信息;根据第二查询信息提供搜索结果。本发明的交互式搜索方法,减少了用户的输入操作,降低了用户记忆负担,在提高了搜索引擎识别用户搜索意图的准确性,满足了用户的需求的同时,提升了用户体验。
  • 大规模高维数据快速检索方法及系统-201711350995.4
  • 王建民;龙明盛;曹越;刘斌 - 清华大学
  • 2017-12-15 - 2019-02-05 - G06F16/9532
  • 本发明提供了一种基于乘积量化与多重倒排索引的大规模高维数据近似近邻检索方法及系统,包括基于训练后的乘积量化单元,获取待检索数据对应的二进制码,所述二进制码用于确定与所述待检索数据距离最近的聚类中心;将所述二进制码输入至与所述训练后的乘积量化单元匹配的多重倒排索引单元中,获取预设数据库中与所述待检索数据距离最小的数据构成的集合;根据所述集合中每一数据与所述待检索数据的距离大小,对所述集合中的所有数据进行排序,并将排序后的所有数据作为检索结果。本发明通过提供一种基于高维数据的大规模相似性检索方法及系统,可以大大提高检索的准确度和时间效率。
  • 一种相关关键词推荐方法和装置-201310029622.2
  • 鲁四喜 - 腾讯科技(深圳)有限公司
  • 2013-01-25 - 2019-01-29 - G06F16/9532
  • 本发明实施例公开了一种相关关键词推荐方法,包括:接收输入的第一查询词;检索关键词相似库,并根据所述关键词相似库中各相关关键词与所述第一查询词的相似度值,返回预定数量的相关关键词;接收输入的第二查询词;判断访问过的所述第一查询词的搜索结果中是否包括所述第二查询词,若为是,则增加所述第二关键词与第一关键词之间的相似度值;更新所述关键词相似库,保存所述第二查询词与所述第一查询词的关联关系。采用本发明,解决现有技术中搜索引擎无法推荐与查询词语义不相关内容却相关的相关关键词。
  • 一种基于互联网平台实现药品自动比价的方法-201811079036.8
  • 丁继锋;张来卿;庞严冬 - 珠海横琴盛达兆业科技投资有限公司
  • 2018-09-17 - 2019-01-04 - G06F16/9532
  • 本发明涉及医药行业领域,具体涉及一种基于互联网平台实现药品比价的方法。本发明所述的方法包含以下几个步骤:1、通过爬虫技术及指定药品商城抓取药品名称、价格、供应商等信息;2、将抓取药品信息与基本药品库进行匹配;3、将同一品种不同来源的药品信息进行价格等多方位比较;4、根据比较结果制定最优的采购价格和销售价格。本发明解决了医药行业企业在进行药品比价时无法及时全面的掌握市面药品销售的最新信息,以及不能准确制定最优且合理的价格方案的问题,可广泛应用于医药行业中。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top