[发明专利]形态学先验约束的甲骨文字检测的图像数据集构建方法有效
| 申请号: | 202110822165.7 | 申请日: | 2021-07-20 |
| 公开(公告)号: | CN113362361B | 公开(公告)日: | 2023-09-05 |
| 发明(设计)人: | 宋传鸣;何熠辉;王一琦;洪飏;王相海 | 申请(专利权)人: | 辽宁师范大学 |
| 主分类号: | G06T7/155 | 分类号: | G06T7/155;G06T7/62;G06T7/70;G06T5/40 |
| 代理公司: | 大连非凡专利事务所 21220 | 代理人: | 闪红霞 |
| 地址: | 116000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 形态学 先验 约束 甲骨 文字 检测 图像 数据 构建 方法 | ||
1.一种形态学先验约束的甲骨文字检测的图像数据集构建方法,其特征在于按照如下步骤进行:
步骤1.输入N幅甲骨卜辞文字的拓片图像,组成真实拓片图像数据集RI;
步骤2.通过手工交互的方式,从真实拓片图像数据集RI中分割提取出清晰的M1幅甲骨卜辞单字图像,组成字形图像数据集ST;
步骤3.通过手工交互的方式,从真实拓片图像数据集RI中分割提取出清晰的M2幅斑纹及噪声图像,组成干扰元素数据集SN;
步骤3.1从RI中分割提取出M21幅点状噪声的图像,此类噪声常由甲骨片表面质地粗糙或扫描设备失真原因造成;
步骤3.2从RI中分割提取出M22幅片状噪声的图像,此类噪声常由占卜过程的钻凿造成,其形态多为坑洞;
步骤3.3从RI中分割提取出M23幅齿缝、兆纹、盾纹非文字性的固有纹理的图像,其形态为贯穿于甲骨片的狭长裂痕,所述M2=M21+M22+M23;
步骤4.生成不含点状噪声、片状斑纹和固有纹理污染的、纯净的甲骨卜辞文字拓片图像数据集RC,令图像计数器i1←1;
步骤4.1建立一幅空间分辨率为W×H像素的空白图像作为背景图像,记为Ibg,所述W和H分别表示Ibg的宽度和高度,令文字计数器t1←1;
步骤4.2根据VOC2007格式,对第i1幅甲骨卜辞文字拓片图像的XML描述文件进行初始化,字段信息包括图像的宽度、图像的高度、像素的颜色深度、每个甲骨卜辞文字的包围盒的左上角顶点坐标和右下角顶点坐标;
步骤4.3从字形图像数据集ST中取出一幅甲骨卜辞单字图像,记为Iobi,采用双三次插值对Iobi进行缩放比例为C的随机缩放操作,使得I′obi的8-连通区域面积与Ibg的面积之比服从均值为μ1、标准差为σ1的正态分布,从而得到缩放后的单字图像I′obi;
步骤4.4对I′obi进行角度为R的随机旋转操作,得到单字图像I″obi并且使得I′obi的8-连通区域面积与I″obi的凸包面积之比服从均值为μ2、标准差为σ2的正态分布;
步骤4.5将I″obi转换为灰度图像Iobi_gray,并对Iobi_gray进行基于最大类间方差法的二值化处理,使得文字区域的像素值为255,非文字区域的像素值为0,得到Iobi_bin;
步骤4.6将Iobi_bin的像素进行反色操作,得到图像Imask;
步骤4.7在背景图像Ibg的任意位置上,随机选取一个与Iobi_bin具有相同尺寸并且不含有其他甲骨刻辞文字的图像块,记为Iroi,将其与Imask做逐像素的二进制“与”运算,从而将当前的第t1个单字图像叠加到背景图像Ibg中;
步骤4.8将第t1个单字图像出现在背景图像Ibg中的区域作为待扫描区域,按照沿水平方向的光栅扫描顺序,记录待扫描区域中发生像素值阶跃变化的最小横坐标和最大横坐标再沿竖直方向的从上到下、从左到右的扫描顺序,记录待扫描区域中发生像素值阶跃变化的最小纵坐标和最大纵坐标从而获得第t1个单字图像在Ibg中的包围盒,并且和共同确定了该包围盒的左上角的顶点坐标和共同确定了该包围盒的右下角的顶点坐标
步骤4.9根据VOC2007格式,将和写入XML描述文件
步骤4.10令t1←t1+1,若t1≤Nc,则返回步骤4.3,否则,将叠加了Nc个甲骨刻辞文字的背景图像Ibg进行反色操作,从而得到第i1幅不含点状噪声、片状斑纹和固有纹理污染的甲骨卜辞文字拓片图像并将其存入RC中,执行步骤4.11,所述Nc表示每幅甲骨卜辞文字拓片图像所含有的最大文字数量;
步骤4.11令i1←i1+1,若i1≤Ndata,则返回步骤4.1,否则,执行步骤5,所述Ndata表示甲骨刻辞文字拓片图像数据集所需的最大拓片图像数量;
步骤5.生成含有点状噪声、片状斑纹和固有纹理污染的甲骨卜辞文字拓片图像数据集RN,令图像计数器i2←1;
步骤5.1建立一幅空间分辨率为W×H像素的空白图像作为背景图像,记为并令干扰元素计数器t2←1;
步骤5.2从干扰元素数据集SN中取出一幅甲骨卜辞的噪声图像,记为Inoise,采用双三次插值对Inoise进行缩放比例为C的随机缩放操作,得到缩放后的噪声图像I′noise,所述C∈[0.8,1.3];
步骤5.3对I′noise进行角度为R的随机旋转操作,得到具有一定倾斜角度的噪声图像I″noise,所述R∈[-20°,20°];
步骤5.4将I″noise转换为灰度图像Iobi_noise,并对其进行基于最大类间方差法的二值化处理,使得噪声区域的像素值为255,背景区域的像素值为0,得到Inoise_bin;
步骤5.5将Inoise_bin的像素进行反色操作,得到图像
步骤5.6在背景图像的任意位置上,随机选取一个与Inoise_bin具有相同尺寸的图像块并将与做逐像素的二进制“与”运算,从而将当前的第t2个干扰元素叠加到背景图像中;
步骤5.7令t2←t2+1,若t2≤Ncn,则返回步骤5.2,否则,将叠加了Ncn个干扰元素的背景图像进行反色操作,从而得到第i2幅含有点状噪声、片状斑纹和固有纹理的甲骨卜辞噪声图像所述Ncn表示每幅甲骨卜辞文字拓片图像所含有的最大干扰数量;
步骤5.8将第i2幅纯净的甲骨卜辞文字拓片图像与第i2幅含有点状噪声、片状斑纹和固有纹理的甲骨卜辞噪声图像进行逐像素的二进制“或”运算,从而生成含有点状噪声、片状斑纹和固有纹理污染的甲骨卜辞文字拓片图像并将其存入RN中;
步骤5.9令i2←i2+1,若i2≤Ndata,则返回步骤5.1,否则,执行步骤6;
步骤6.输出不含点状噪声、片状斑纹和固有纹理污染的甲骨卜辞文字拓片图像数据集RC,含有点状噪声、片状斑纹和固有纹理污染的甲骨卜辞文字拓片图像数据集RN,以及所有图像的XML描述文件所述1≤i1≤Ndata。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁师范大学,未经辽宁师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110822165.7/1.html,转载请声明来源钻瓜专利网。





