[发明专利]提取文档中的文本行的方法和装置有效
申请号: | 201410525023.4 | 申请日: | 2014-10-08 |
公开(公告)号: | CN105574530B | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 张明明;许亮;范伟;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/46 | 分类号: | G06K9/46 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 康建峰;陈炜<国际申请>=<国际公布>= |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及提取文档中的文本行的方法和装置。根据本发明的一个方面,提供了一种提取文档中的文本行的方法,包括:对文档中的多个文本块进行粗聚类,以形成多个类;计算每个类的特征;根据每个类的特征,确定所述文档的方向;以及根据所述文档的方向对所述多个文本块进行精细聚类,以提取出文本行。 | ||
搜索关键词: | 提取 文档 中的 文本 方法 装置 | ||
【主权项】:
1.一种提取文档中的文本行的方法,包括:/n对文档中的多个文本块进行粗聚类,以形成多个类;/n计算每个类的特征;/n根据每个类的特征,确定所述文档的方向;以及/n根据所述文档的方向对所述多个文本块进行精细聚类,以提取出文本行,其中,所述精细聚类包括:/na)对于每个文本块,根据所述文档的方向,计算每个文本块与每个类的关联值;/nb)根据计算出的关联值,更新每个文本块在所述多个类中所处的类;/nc)更新每个类的特征,并删除已不包含任何文本块的类;以及/nd)重复a)至c),直至每个文本块所处的类均不发生改变,/n其中,每个文本块与每个类的关联值是根据该文本块的位置信息和该类的特征计算的,其中:/n每个文本块的位置信息包括水平位置信息和竖直位置信息,每个文本块的水平位置信息包括所述文本块的最上侧位置、最下侧位置和/或中心水平位置,每个文本块的竖直位置信息包括所述文本块的最左侧位置、最右侧位置和/或中心竖直位置;/n每个类的特征包括水平特征和竖直特征,每个类的水平特征包括所述类所包含的所有文本块的水平位置信息的平均值和标准差,每个类的竖直特征包括所述类所包含的所有文本块的竖直位置信息的平均值和标准差;/n当确定所述文档的方向是水平方向时,每个文本块与每个类的关联值为所述文本块的竖直位置信息与所述类的竖直特征中的平均值之差;以及/n当确定所述文档的方向是竖直方向时,每个文本块与每个类的关联值为所述文本块的水平位置信息与所述类的水平特征中的平均值之差。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410525023.4/,转载请声明来源钻瓜专利网。