[发明专利]提取文档中的文本行的方法和装置有效

申请号：	201410525023.4	申请日：	2014-10-08
公开（公告）号：	CN105574530B	公开（公告）日：	2019-11-22
发明（设计）人：	张明明;许亮;范伟;孙俊	申请（专利权）人：	富士通株式会社
主分类号：	G06K9/46	分类号：	G06K9/46
代理公司：	11227 北京集佳知识产权代理有限公司	代理人：	康建峰;陈炜<国际申请>=<国际公布>=
地址：	日本神***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及提取文档中的文本行的方法和装置。根据本发明的一个方面，提供了一种提取文档中的文本行的方法，包括：对文档中的多个文本块进行粗聚类，以形成多个类；计算每个类的特征；根据每个类的特征，确定所述文档的方向；以及根据所述文档的方向对所述多个文本块进行精细聚类，以提取出文本行。
搜索关键词：	提取文档中的文本方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种提取文档中的文本行的方法，包括：/n对文档中的多个文本块进行粗聚类，以形成多个类；/n计算每个类的特征；/n根据每个类的特征，确定所述文档的方向；以及/n根据所述文档的方向对所述多个文本块进行精细聚类，以提取出文本行，其中，所述精细聚类包括：/na)对于每个文本块，根据所述文档的方向，计算每个文本块与每个类的关联值；/nb)根据计算出的关联值，更新每个文本块在所述多个类中所处的类；/nc)更新每个类的特征，并删除已不包含任何文本块的类；以及/nd)重复a)至c)，直至每个文本块所处的类均不发生改变，/n其中，每个文本块与每个类的关联值是根据该文本块的位置信息和该类的特征计算的，其中：/n每个文本块的位置信息包括水平位置信息和竖直位置信息，每个文本块的水平位置信息包括所述文本块的最上侧位置、最下侧位置和/或中心水平位置，每个文本块的竖直位置信息包括所述文本块的最左侧位置、最右侧位置和/或中心竖直位置；/n每个类的特征包括水平特征和竖直特征，每个类的水平特征包括所述类所包含的所有文本块的水平位置信息的平均值和标准差，每个类的竖直特征包括所述类所包含的所有文本块的竖直位置信息的平均值和标准差；/n当确定所述文档的方向是水平方向时，每个文本块与每个类的关联值为所述文本块的竖直位置信息与所述类的竖直特征中的平均值之差；以及/n当确定所述文档的方向是竖直方向时，每个文本块与每个类的关联值为所述文本块的水平位置信息与所述类的水平特征中的平均值之差。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于富士通株式会社，未经富士通株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410525023.4/，转载请声明来源钻瓜专利网。

上一篇：一种RF电子标签的信息比对设备及其读取方法
下一篇：一种基于多相互斥水平集的黏连细胞图像分割方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]提取文档中的文本行的方法和装置有效

专利文献下载