[发明专利]结构化文档管理装置、结构化文档检索方法无效
申请号: | 201280002969.1 | 申请日: | 2012-07-20 |
公开(公告)号: | CN103415850A | 公开(公告)日: | 2013-11-27 |
发明(设计)人: | 国分智晴;真锅俊彦;仲野亘 | 申请(专利权)人: | 株式会社东芝;东芝解决方案株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 杨谦;胡建新 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文档 管理 装置 检索 方法 | ||
技术领域
本发明的实施方式涉及结构化文档管理装置和结构化文档检索方法。
背景技术
现有技术中,已知作为结构化文档制作电子数据,从而使信息的共享变得容易,或可更有效地检索信息的技术。例如,HTML(Hyper Text Markup Language)中,可以通过用标签(tag)来记载文档的结构要素、例如文档的标题、正文、列表结构等,来表现文档的结构。还可应用能够对应于目的独自定义表示文档结构的标签的XML(Extensible Markup Language)。在对这种结构化文档进行检索时,通过标签可容易把握什么样的数据在文档中的哪个位置上,能够使检索性提高。
作为这种显示检索到结构化文档后的结果的方法,已知有从检索结果的文章中自动生成摘要来加以显示的文档摘要技术。作为文档摘要技术的代表技术,已知有KWIC(上下文关键字(KEYWORD IN CONTEXT))摘要技术,KWIC中,从检索对象文档中提取包含检索用关键字的文本前后预定字符数来加以显示。
另外,作为显示检索结构化文档后的结果的方法,已知有将标题作为检索结果加以显示的方法,该标题对应于含有与用于检索的关键字一致的词汇的文档。
现有技术文献
专利文献
专利文献1:日本特开2002-278972号公报
发明内容
发明要解决的问题
但是,在将标题作为检索结果加以显示时,即使在检索用关键字和文档中的词汇一致时,在标题与检索用关键字之间关联度低的情况下,使用者也不能识别该信息是自己寻找的信息。在该情况下,使用者需要实际阅读该文章,来确认是否是与自己想要寻找的内容接近的内容,故要求进一步提高检索的便利性。
本发明鉴于上述问题而作出,提供一种可提高检索時的便利性的结构化文档管理装置。
用于解决问题的手段
为了解决上述问题,实现发明目的,实施方式的结构化文档管理装置包括文档存储部、标题提取部、关联度计算部、文档检索部、标题选择部和标题显示部。文档存储部存储多个结构化文档。标题提取部提取结构化文档的标题,并制作包含所提取的标题的标题列表。关联度计算部分别计算结构化文档中的词汇与对应于结构化文档的标题之间的概念上的关联度。文档检索部检索含有与检索用关键字一致的词汇的结构化文档。标题选择部将相对于与检索用关键字一致的词汇的关联度较大的标题比关联度较小的标题更加优先地加以选择。显示控制部将由标题选择部选出的标题作为显示标题,显示在显示部上。
附图说明
图1是表示结构化文档管理系统的系统构筑例的模式图;
图2是服务器和客户终端的模块结构图;
图3是表示第1实施方式的服务器和客户终端的示意结构的框图;
图4是表示第1实施方式的结构化文档的一例的图;
图5是表示第1实施方式的结构化文档的一例的图;
图6是表示第1实施方式的标题列表的一例的图;
图7是表示第1实施方式的概念词典的一例的图;
图8是表示第1实施方式的词汇间的关联度的数据图;
图9是表示第1实施方式的正文中的词汇相对标题的关联度的图;
图10是表示第1实施方式的检索结果的显示方式的一例的图;
图11是表示第1实施方式的检索结果的显示方式的变形例的图;
图12是表示第1实施方式的登记结构化文档时的处理流程的流程图;
图13是表示第1实施方式的计算正文中的词汇相对标题的关联度的处理流程的流程图;
图14是表示在第1实施方式的检索时,决定作为检索结果显示的标题的处理流程的流程图;
图15是表示在第2实施方式的检索时,决定作为检索结果显示的标题的处理流程的流程图。
具体实施方式
(第1实施方式)
下面,根据附图来详细说明本发明的结构化文档管理装置的第1实施方式。图1是表示第1实施方式的结构化文档管理系统的系统构筑例的模式图。这里,作为实施方式的结构化文档管理系统,如图1所示,假定在作为结构化文档管理装置的服务器计算机(以下称作服务器)1上经LAN(Local Area Network)等网络2连接了多台客户计算机(以下,称作客户终端)3而成的服务器客户系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝解决方案株式会社,未经株式会社东芝;东芝解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280002969.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:打印产品代码的方法
- 下一篇:便携式计算系统和适用于其的便携式计算机