[发明专利]基于语义的查找、集成和提供评论信息的方法及搜索系统有效
申请号: | 201110278049.X | 申请日: | 2011-09-19 |
公开(公告)号: | CN102279894A | 公开(公告)日: | 2011-12-14 |
发明(设计)人: | 周诚 | 申请(专利权)人: | 嘉兴亿言堂信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 金祺 |
地址: | 314000 浙江省嘉*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 查找 集成 提供 评论 信息 方法 搜索 系统 | ||
技术领域
本发明涉及互联网搜索技术,特别涉及实现了对异构的和层次化的评论内容的评估、集成和整合的方法和搜索引擎系统。
背景技术
人们利用搜索引擎查找关于产品、服务、活动、人物等评论信息已非常普遍。显然,评论信息的可信度对用户使用该信息有直接的影响。本发明所述“评论”一词是指,但不限于,散布在网页上的评论,评价,意见,言论,判断,评估等。此外,它也泛指文字评论信息和包括了静态图像、动态图像、动画、影像等任何多媒体数字文件类型的非文字评论信息。
现实情况是,所有的搜索引擎仅仅把包含评论信息的链接返回给用户,由用户自己判断信息的真伪。有极少数搜索引擎在返回的信息旁边加上手工验证信息,如“评论人身份被确认”等。在上述情形中,搜索引擎框架中缺乏信息真实性评估模块,无法更好地满足用户的需求。
此外,很多评论信息包含了异构信息(即文字信息和非文字信息,下同)。例如,不少评论者在论坛、博客和邮件中用情感图标(Emoticon)和GIF图片表达态度和观点。另一个典型例子是,cnet、tigerdirect等网站大量使用影像信息来评论产品。随着iPhone、数码摄像机和网络摄像机的逐步流行,可以预见,互联网上非文字评论信息将更加广泛地传播。从用户体验来看,非文字信息具有直观、易懂的优点。更重要的是,它们是用户评论不可分隔的部分,忽略这些信息会造成用户无法获得全面信息等问题。在现有的搜索引擎框架中(如图1所示),由于缺乏非文字信息提取、非文字信息与文字信息的有效映射、非文字信息集成等功能模块,非文字信息的处理被忽略掉了。
另一个值得注意的问题是,评论对象往往不是孤立的,与之相关的对象也能为用户提供有价值的信息。例如,消费者在购买一款数码相机(如Powershot 4500IS)时,最先关注的往往是这款相机的品牌(如佳能)。在用户查找关于一款相机的评论信息时,搜索引擎自动返回与这款相机相关的信息(如对品牌的评论)是很有意义的。换言之,赋予搜索引擎框发现、创建和管理与评论对象相关的评论信息的新功能将能够更好地服务广大用户。
总之,能够合理评估信息的真伪和同时管理异构信息不应被看成是现有搜索引擎可有可无的功能特点,而是搜索引擎技术进一步发展中所必备的功能。此外,如佳能相机的例子所述,搜索引擎需要新的系统设计和方法来自动发掘、集成、总结和管理评价对象的层级关系。
发明内容
本发明要解决的问题是,克服现有技术中的不足,提供一种基于语义的查找、集成和提供评论信息的搜索方法和搜索引擎系统。为解决技术问题,本发明的解决方案是:
提供一种基于语义的查找、集成和提供评论信息的方法,包括利用搜索引擎发现和集成文字评论信息,并按主题分类和汇总评论文本;该方法还包括对非文字评论信息的提取,并挖掘非文字评论信息与文字评论信息之间的语义联系,在此基础上集成这两类信息以供搜索服务需要;其实现的步骤包括:
(1)主动识别提供评论信息的数据源或被动接收包含评论信息的信息源的链接请求,建立与该数据源的链接,并将包含评论信息在内的数据保存到抓取服务器上;
(2)分析包含评论信息的数据,提取元信息以建立文字评论信息和非文字评论信息的语义注解标签;
(3)利用语义注解标签从包含评论信息的数据中提取文字评论信息和非文字评论信息;
(4)对文字评论信息与非文字评论信息进行标准化处理,通过语义分析来评估、过滤不合适的评论信息,并进行异常处理;
(5)对已评估的信息根据评价对象及其内在的语义关系进行集成;
(6)为集成好的信息和原始数据建立索引;
(7)利用索引信息处理查询要求,返回匹配的内容。
在本说明中,元信息泛指对信息的特征的描述。而步骤(2)中所述的元信息在此处特指对评论信息的描述、说明,比如评论人、评论时间等。元信息可以用来建立评论信息的注解标签。
本发明所述步骤(1)中,抓取服务器能够主动抓取数据源,也能够自动接收数据源,并识别数据源是否包含评论信息和建立与包含评论信息的数据源的链接。
本发明所述步骤(2)包括判断评论信息所在的分类,具体如下:
(A)利用键-值表的键属性检索数据源和评论信息的元信息;如键属性匹配到某项元信息,则相应的值属性的值被当成信息分类返回;如键属性无法匹配元信息,则执行下一步;
(B)检索评论信息源文件中的标签;如果标签的属性包含了指定的分类词或词组,则将这些词或词组做为信息分类返回;如果所有标签属性都不包含指定的分类词或词组,则执行下一步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于嘉兴亿言堂信息科技有限公司,未经嘉兴亿言堂信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110278049.X/2.html,转载请声明来源钻瓜专利网。