[发明专利]一种基于同义词的个人桌面文件搜索方法有效
申请号: | 201310128267.4 | 申请日: | 2013-04-15 |
公开(公告)号: | CN103177122B | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 李玉坤;赵喜燕;赵德新 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司12002 | 代理人: | 侯力 |
地址: | 300384 天津市西青*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于同义词的个人文件搜索方法。该方法通过现有的分词工具将数据集中的文件名进行分词,分词后,利用在线词典网站进行同义词的匹配,利用网页爬取技术将在线词典网站返回的该词语的同义词以及近义词信息抽取出来得到用户个性化的同义词表;然后基于输入的关键词,利用字符串匹配方法,并且结合对应的同义词表,将包含搜索词或其同义词的文件作为搜索结果返回,并基于用户对于文件名所含词语的偏好度来排序。本发明将个人桌面文件与同义词结合起来,针对个人数据管理中文件的查询问题,提出以上解决方案,该方法具有简洁实用、容易实现的特性,同时还可以大大减少用户的文件搜索时间,便于用户查询个人桌面文件,提高文件的召回率以及准确率。 | ||
搜索关键词: | 一种 基于 同义词 个人 文件 搜索 方法 | ||
【主权项】:
一种基于同义词的个人桌面文件搜索方法,其特征在于该方法包括:第1,通过现有的分词工具将通过原型系统搜集的数据集中的文件名进行分词,同时将分词后的那些没有实际意义的、包含数字的词语过滤掉,然后将文件名与其对应的词语存入数据库,作为用户的词语列表;第2,文件名经过分词后,利用一个在线词典网站进行同义词的匹配;第2.1遍历所有的词语,对于每一个词语,将其作为在线词典网站的搜索词;第2.2该网站会返回一个关于此词语的一个查询结果网页,该网页包含了该词语的基本释义、同义词、近义词、反义词信息,利用网页爬取技术将该词语的同义词以及近义词信息爬取下来;第2.3对于爬取出来的同义词、近义词中的每一个词语,去遍历该用户分词后的词语列表,如果词语列表中包含有这些爬取出来的词语,那么就将搜索词与其同义词作为一对有关系的词语存入数据库,作为同义词表;第3,基于输入的关键词,利用字符串匹配方法,并且结合对应的同义词进行查询;第3.1输入要查询桌面文件的一个关键词K;第3.2在数据库的同义词表中进行查询,查询该关键词的对应同义词集合S;第3.3将该关键词和查到的同义词作为一个查询文档的查询关键词,作为集合SK;第3.4遍历集合SK中的每一个词语,在数据库的用户词语列表中查询对应的文件名;第3.5返回查询结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310128267.4/,转载请声明来源钻瓜专利网。
- 上一篇:混合动力三轮车
- 下一篇:一种发动机前悬置软垫总成、发动机组件及车辆