[发明专利]主题网络语料库有效
申请号: | 201611233014.3 | 申请日: | 2016-11-17 |
公开(公告)号: | CN107025261B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | X·格勒昂;M·尚普努瓦 | 申请(专利权)人: | 达索系统公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/954 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 邬少俊;王英 |
地址: | 法国韦利济*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 网络 语料库 | ||
1.一种计算机实现的方法,其由存储搜索引擎的索引的服务器执行,以用于向客户端发送与主题有关的网络语料库中的页面的URL,其中所述方法包括:
从所述客户端接收与所述主题相对应的结构化的查询,所述结构化的查询由至少一个关键词的析取组成;
在所述索引中确定由与所述查询相匹配的所有页面的URL组成的组,其中,所述确定包括:
在所述索引上读取所述查询的所述析取的所述关键词,从而从所述索引中取回URL的至少一个集合,以及
针对所取回的所述URL的至少一个集合执行与所述查询的所述析取相对应的集合操作的方案,从而产生URL的组作为结果;以及
将所述组中的URL作为流而发送至所述客户端,其中,URL在其被确定为结果后被发送,使得所述服务器不需要存储所述组中的所有URL,其中,所述组中的URL不经排序而被发送。
2.根据权利要求1所述的计算机实现的方法,其中,将所述组中的URL作为流而发送至所述客户端包括:
与所述客户端建立网络连接;
在所述网络连接上流式传输所述组中的URL;以及
关闭所述网络连接。
3.根据权利要求2所述的计算机实现的方法,其中,所述网络连接是HTTP连接。
4.一种计算机实现的用于构建与主题有关的网络语料库的方法,其中所述方法包括:
由客户端向存储搜索引擎的索引的服务器发送与所述主题相对应的结构化的查询,所述结构化的查询由至少一个关键词的析取组成;以及
基于所述结构化的查询并且根据权利要求1、2或3所述的方法,由所述服务器将所述网络语料库中的页面的URL作为流而发送至所述客户端。
5.根据权利要求4所述的计算机实现的方法,其中,所述方法进一步包括,由所述客户端将作为流而从所述服务器接收的所述URL本地地存储。
6.根据权利要求4或5所述的计算机实现的方法,其中,所述方法进一步包括,由所述客户端爬取从所述服务器接收的所述URL的页面或将从所述服务器接收的所述URL传输至网络爬取器。
7.一种计算机实现的方法,其由客户端执行,所述方法用于构建与主题有关的网络语料库,其中,所述方法包括:
向服务器发送对应于所述主题的结构化的查询,所述结构化的查询由至少一个关键词的析取组成;
作为流而从所述服务器接收所述网络语料库中的页面的URL,其中,所述URL未被排序;以及
爬取从所述服务器接收的所述URL的页面,或者将从所述服务器接收的所述URL传输至网络爬取器。
8.根据权利要求7所述的计算机实现的方法,进一步包括将作为流而从所述服务器接收的所述URL本地地存储。
9.一种包括用于执行权利要求1-8中的任何一项所述的计算机实现的方法的单元的装置。
10.一种具有记录在其上的指令的计算机可读介质,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-8中的任何一项所述的计算机实现的方法。
11.一种包括处理器的系统,所述处理器耦合至具有记录在其上的指令的存储器,所述指令在被所述处理器执行时,使得所述处理器执行如权利要求1-8中的任何一项所述的计算机实现的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达索系统公司,未经达索系统公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611233014.3/1.html,转载请声明来源钻瓜专利网。