[发明专利]根据文件内容确定特征词并用于检索的方法有效

专利信息
申请号: 201010001183.0 申请日: 2010-01-15
公开(公告)号: CN101763424A 公开(公告)日: 2010-06-30
发明(设计)人: 刘二中 申请(专利权)人: 刘二中
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100089 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 根据 文件 内容 确定 特征 用于 检索 方法
【说明书】:

技术领域

本技术属于计算机检索技术或搜索引擎技术。

背景技术

多年来,计算机数据库检索技术有了极大发展,特别是网络技术的进展, 使得人们可以共享的数据库的规模达到了天文数字。这也给人们查找所需信息带 来了很大困难。

以查询词搜索为核心的搜索引擎技术为用户带来了便利。该系统可以通过 客户机上的交互界面以及通讯网络得到查询者的关键词查询请求,在文本索引 库或文本库中进行查询,并进行关键词请求与文本的相关性分析,得到相关结 果并排序,再经由通讯网络或线路提供到交互界面。这种搜索系统使用起来十 分便利迅速,但返还结果包含的索引总数仍然十分庞大,难于逐一查阅。

第6,285,999号美国专利提出了基于网页超级链接结构,能将潜在的对查 询者最有价值的查询结果尽量排在前面以方便查询(佩奇链接)的技术,超过 了其他排序技术,获得空前成功。然而,该技术以及其他各种排序技术,仅仅 是在统计学意义上提高了关键词搜索的效率,并不能保证每个人希望的查询结 果都能排在庞大索引表的前面。我们在读到期望的信息之前,却无奈地读到种 种主要内容一再重复的无关信息。

为了解决该问题,人们还求助于垂直分类技术和以该技术为基础的目录检 索系统。为了给海量信息分类或确定特征,出现了各种计算机文本分类方法。然 而,由机器判断某一网页或文件属于哪一条特征或类别是十分困难的,其可靠 性和准确率不高,特别是在多级分类中,错误率高得令人无法忍受。因此,计算 机分类仅仅用于最简单的粗略分类,例如根据若干组词出现的频度或格式特征, 判定网上文件是“网页”还是“地图”或是“MP3”等等。

目前,准确率较高的垂直分类技术还离不开人工参与。例如20世纪90年代雅 虎等网站的人工信息分类系统,只能承担极少一部分网上信息的分类加工。其它 如“百度百科”、“维基百科”、“淘宝网”、“阿里巴巴”的各种数量十分有限的 专业分类信息,都是通过各自专门的数据库平台,由注册会员或注册用户或网站 工作人员针对特定范围的词条,按照特殊的编写规则汇集而成的,其中包含的附 带分类内容也只能是针对本数据库的少量词条或文本的,范围很小。可以说,对 于非特定网上数据库内容的广大用户来说,在搜索时得到的帮助十分有限。

因此,国内外广大网民迫切需要一种新技术,使得计算机系统或搜索引擎系 统不仅能向查询者提供亿万文件的题录信息,还能严格准确地判定文件作者认 可的各种文件的特征或类别,得到各种不同特征词或类别词的文件索引或其题录 索引,并按查询者的查询要求和对文件特征或类别的要求,提供准确率和集中度 大为改善的搜索结果。

发明内容

本发明的目的在于提供一种适于计算机系统(包括计算机检索系统或搜索引 擎系统)使用的方法,使其能在不同网站来源的大量相关文件的内容中寻找隐含 的特征词信息,为各个文件确定特征词,并对相关信息进行处理,以便产生便于 用户利用的包含不同特征词或分类结果的资料或检索工具,大大提高检索或搜索 的效率。

本发明为一种计算机执行的多个文件的处理方法,包括以下操作:

操作A:获得多个文件;

操作B:确定(或规定或选择)一种或者多种字符或字符组合作为特征词内容标 记;

操作C:核查各个文件的内容里面所含有的所述特征词内容标记的位置;将每 个文件所含有的特征词内容标记在规定方向邻接的(邻接的可以是指最接近的)一 个或多个字词,作为该文件或其题录对应的一个或多个特征词。

所述的计算机可以是独立系统,也可以是计算机检索系统或搜索引擎系统,或 其组成部分。

所述文件可以是电子文件(包括非电子形式转化而来的电子文件)或网页或者 网页的部分内容或者是检索系统或其它计算机系统存储或转存内容(如网页快 照),可以包含文字内容,也可以包含图象内容或音频内容或视频内容。

所述方法所述文件可以带有特征词内容的图形文件或音频文件或视频文 件。

所述题录可以是文件的标题或摘要或标题加摘要,可以包含图象内容或音频 内容或视频内容。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘二中,未经刘二中许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010001183.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top