[发明专利]段落分割方法、装置以及程序有效
申请号: | 201210548190.1 | 申请日: | 2012-12-17 |
公开(公告)号: | CN103377187A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | 柿下容弓;服部英春;村上智一;今一修 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;郭凤麟 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种段落分割方法、装置以及程序。在现有的方法中,在一个文件中含有包含意义相近、特征量相似的句子的多个段落的情况下,难以正确地分割段落。段落分割装置在控制部的控制下,将从输入部输入的输入文件通过句子分割部分割为句子单位。特征量计算部将分割后的句子作为查询,对在语料库部中预先存储的文档进行联想检索来得到文档向量,类似度计算部探索类似度最大的两个文档向量,当类似度在预定阈值以上时,检索查询生成部合并两个句子设为通用要素,生成查询。特征量计算部使用该查询再生成文档向量。特征量更新部基于其可靠度更新特征量,在更新特征量的同时依次连接对应的句子来设为段落。 | ||
搜索关键词: | 段落 分割 方法 装置 以及 程序 | ||
【主权项】:
一种段落分割方法,其通过处理部将文档分割为段落,该段落分割方法的特征在于,所述处理部,将所述文档分割为句子单位,将分割后的所述句子作为查询,从预先存储的多个文档中提取出关联的文档,生成特征量,使用生成的所述特征量内的两个特征量的类似度在预定的阈值以上的该两个特征量的通用要素来更新特征量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210548190.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种轮胎模具的修理架
- 下一篇:带振动筛的塑料切粒机