[发明专利]段落分割方法、装置以及程序有效
申请号: | 201210548190.1 | 申请日: | 2012-12-17 |
公开(公告)号: | CN103377187A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | 柿下容弓;服部英春;村上智一;今一修 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;郭凤麟 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 段落 分割 方法 装置 以及 程序 | ||
1.一种段落分割方法,其通过处理部将文档分割为段落,该段落分割方法的特征在于,
所述处理部,
将所述文档分割为句子单位,
将分割后的所述句子作为查询,从预先存储的多个文档中提取出关联的文档,生成特征量,
使用生成的所述特征量内的两个特征量的类似度在预定的阈值以上的该两个特征量的通用要素来更新特征量。
2.根据权利要求1所述的段落分割方法,其特征在于,
所述处理部使用文档向量作为所述特征量。
3.根据权利要求2所述的段落分割方法,其特征在于,
所述处理部,
在作为所述两个特征量的两个文档向量Vi、Vj的类似度在预定的阈值以上时,选出两个所述文档向量Vi、Vj的通用要素Vij,生成检索查询。
4.根据权利要求3所述的段落分割方法,其特征在于,
所述处理部使用生成的所述检索查询来得到新的文档向量V’ij。
5.根据权利要求4所述的段落分割方法,其特征在于,
所述处理部根据所述新的文档向量V’ij包含所述通用要素Vij的要素的程度,来修正所述新的文档向量V’ij的向量大小。
6.根据权利要求4所述的段落分割方法,其特征在于,
所述处理部将与所述新的文档向量V’ij对应的所述句子或者段落候补连接起来作为新的段落候补。
7.根据权利要求1所述的段落分割方法,其特征在于,
所述处理部使用单词向量作为所述特征量。
8.根据权利要求7所述的段落分割方法,其特征在于,
当作为所述两个特征量的两个单词向量Vi、Vj的类似度在预定的阈值以上时,选出两个所述单词向量Vi、Vj的通用要素Vij,生成检索查询,
使用生成的所述检索查询,得到新的单词向量V’ij。
9.根据权利要求8所述的段落分割方法,其特征在于,
所述处理部根据所述新的单词向量V’ij包含所述通用要素Vij的要素的程度,来修正所述新的单词向量V’ij的向量大小。
10.根据权利要求9所述的段落分割方法,其特征在于,
所述处理部将与所述新的单词向量V’ij对应的所述句子或者段落候补连接起来作为新的段落候补。
11.一种段落分割装置,其将输入的文档分割为段落,该段落分割装置的特征在于,
具备处理部和存储部,
所述处理部,
将所述文档分割为句子单位,
将分割后的所述句子作为查询,从预先存储在所述存储部中的多个文档中提取出关联的文档,生成特征量,
使用生成的所述特征量内的两个的类似度在预定的阈值以上的该特征量的通用要素来更新特征量。
12.根据权利要求11所述的段落分割装置,其特征在于,
所述处理部使用基于关联的所述文档的文档向量或者单词向量来作为所述特征量。
13.根据权利要求12所述的段落分割装置,其特征在于,
所述处理部,
在作为所述两个特征量的两个文档向量或者单词向量Vi、Vj的类似度在预定的阈值以上时,选出两个所述文档向量或者单词向量Vi、Vj的通用要素Vij,生成检索查询,
使用生成的所述检索查询,得到新的文档向量或单词向量V’ij,
根据所述新的文档向量或者单词向量V’ij包含所述通用要素Vij的要素的程度,来修正所述新的文档向量或者单词向量V’ij的向量大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210548190.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轮胎模具的修理架
- 下一篇:带振动筛的塑料切粒机