[发明专利]段落分割方法、装置以及程序有效
申请号: | 201210548190.1 | 申请日: | 2012-12-17 |
公开(公告)号: | CN103377187A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | 柿下容弓;服部英春;村上智一;今一修 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;郭凤麟 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 段落 分割 方法 装置 以及 程序 | ||
技术领域
本发明涉及电子化的文件的处理,尤其涉及电子化文件的段落分割技术。
背景技术
近年,文件的电子化或数据库化得到了进步,由此,自然语言处理技术也取得很大发展,例如进行了大量用于文件的自动摘要或文件检索的自动关键字提取等的研究。但是,成为这些技术的对象的文件,多数情况下设想按照每个段落、即按照每个话题或者内容的意义归纳单位被分割,或者仅包含单一的段落的文件。因此,对于包含多个段落的文件,预先分割段落是有效的。目前,作为这种段落分割方法,已知专利文献1或专利文献2中记载的文本分割(text segmentation)方法等。
但是,现有的与段落分割、文本分割相关的方法,当在一个文件中含有包含意义相近的句子、即其特征量相似的句子的多个段落时,难以正确地分割段落。结果无法高效率地进行用于文件的自动摘要或文件检索的自动关键字提取等。
专利文献1:日本特开2009-15795号公报
专利文献2:日本特开2004-145790号公报
发明内容
鉴于上述课题而提出本发明,其目的在于提供一种有效地分割包含多个段落的文件的段落分割方法、装置以及程序。
为了达成上述目的,在本发明中,提供一种通过处理部将文档分割为段落的段落分割方法,其中,处理部将文档分割为句子单位,将分割后的句子作为查询,从预先存储的多个文档中提取出关联的文档,生成特征量,使用所生成的特征量内的两个特征量的类似度在预定的阈值以上的该两个特征量的通用要素来更新特征量。
另外,为了达成上述目的,在本发明中提供一种将输入的文档分割为段落的段落分割装置,其中,具备处理部和存储部,处理部将文档分割为句子单位,将分割并存储的句子作为查询,从预先存储在存储部中的多个文档中提取出关联的文档,生成特征量,使用所生成的特征量内的两个的类似度在预定的阈值以上的该特征量的通用要素来更新特征量。
而且,为了达成上述目的,在本发明中提供一种段落分割程序,其通过具备处理部和存储部,并将所输入的文档分割为段落的段落分割装置的处理部执行,其中,使处理部进行如下动作:将文档分割为句子单位,将分割后的句子作为查询,从预先存储在存储部中的多个文档中提取出关联的文档,使用提取出的关联的文档向量来生成特征量,使用所生成的特征量内的两个的类似度在预定的阈值以上的该特征量的通用要素来更新特征量。
根据本发明,即使在一个文件中包含了含有意义相近的句子、即特征量相似的句子的多个段落时,也能够正确地分割段落。
附图说明
图1A是表示第一实施例的段落分割装置的一个功能结构的图。
图1B是表示第一实施例的段落分割装置的一个硬件结构的图。
图2是表示第一实施例的段落分割程序的动作的一例的图。
图3是表示第一实施例的根据文档向量的类似度连接句子的情形的图。
图4是表示第二实施例的段落分割装置的一个功能结构的图。
图5是表示第二实施例的段落分割程序的动作的一例的图。
图6是用于说明各实施例的文档向量的一例的图。
图7是用于说明各实施例的单词向量的一例的图。
符号说明
11 CPU
12 存储部
13 输入输出部
14 通信部
100、400 段落分割装置
101、401 控制部
102、402 输入部
103、403 句子分割部
104、404 特征量计算部
105、405 类似度计算部
106、406 检索查询生成部
107、407 特征量更新部
108、408 段落更新部
109、409 输出部
110、410 句子存储部
111、411 语料库部
112、412 特征量存储部
113、413 段落存储部
114、414 语素分析部
具体实施方式
以下,按照附图说明本发明的实施例,但是本发明不限于以下说明的实施例。在本说明书中,设“文件”和“文档”为相同含义。另外,所谓“段落”,表示话题或者内容的意义归纳的某个单位。而且,所谓文档向量表示以所存储的文档作为维度的向量,所谓单词向量表示以全部文档中出现的全部单词作为维度的向量。并且,在本说明书中,所谓句子的“特征量”,定量地表示句子的意思,例如作为其一例而说明文档向量或者单词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210548190.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轮胎模具的修理架
- 下一篇:带振动筛的塑料切粒机