[发明专利]一种图书书名定位及词性标注的方法及系统在审
申请号: | 201910349580.8 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110197175A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 桂冠;孟洋;孙颖异;杨洁 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性标注 图书封面 字符串类型 图像 自然语言处理 关键词提取 图片文字 图书分类 主题生成 鲁棒性 分词 建档 裁剪 图片 学习 | ||
本发明公开了一种图书书名定位及词性标注的方法及系统,该方法包括:步骤1、对待定位的所述图书封面图像进行定位,获取已定位的图书封面图像;步骤2、在已定位的所述图书封面图像上裁剪,获取仅包含图书书名的图片;步骤3、对获取的仅包含图书书名的所述图片文字识别,获取所述图片的字符串类型;步骤4、对所述字符串类型进行分词划分和词性标注;本发明对进一步关键词提取、主题生成和图书分类建档提供可行性,利用深度学习和自然语言处理的方法,大大节省了人力、物力和财力,并且结果具有很好的准确性和鲁棒性。
技术领域
本发明涉及深度学习与自然语言处理技术领域,具体涉及一种图书书名定位及词性标注的方法及系统。
背景技术:
随着科技的飞速发展,深度学习被广泛的应用到各个领域,减少了大量的人力、物理及财力。人工对图书管的图书进行电子化建档分类是一件极为复杂且繁琐的工作。现有技术为人工手动扫描图书,按照中国图书分类的标准进行图书分类,无法进行智能归档分类,消耗大量的人力,物理和财力。
发明内容
本发明的目的在于提供一种图书书名定位及词性标注的方法及系统,以解决现有技术中导致的上述多项缺陷或缺陷之一。
为达到上述目的,本发明是采用下述技术方案实现的:
一种图书书名定位及词性标注的方法,所述方法包括如下步骤:步骤1、对待定位的所述图书封面图像进行定位,获取已定位的图书封面图像;步骤2、在已定位的所述图书封面图像上裁剪,获取仅包含图书书名的图片;步骤3、对获取的仅包含图书书名的所述图片文字识别,获取所述图片的字符串类型;步骤4、对所述字符串类型进行分词划分和词性标注。
相应的本发明还提供了一种图书书名定位及词性标注的系统,包括:
定位系统,用于对待定位的所述图书封面图像进行定位,获取已定位的图书封面图像;
裁剪系统,用于在已定位的所述图书封面图像上裁剪,获取仅包含图书书名的图片;
识别系统,用于对获取的仅包含图书书名的所述图片文字识别,获取所述图片的字符串类型;
处理系统,用于对所述字符串类型进行分词划分和词性标注。
本发明的优点在于:利用YOLOv3深度学习算法及Darknet53特征提取网络对已打标签的图书封皮进行训练,实现智能定位图书书名区域的功能,调用百度OCR光学文字识别接口,对图片中的书名转化为字符串类型,并利用LTP语言技术平台提供的DDL的程序接口实现了对书名进行分词操作和词性的标注的功能。此方法对进一步关键词提取、主题生成和图书分类建档提供可行性,利用深度学习和自然语言处理的方法,大大节省了人力、物力和财力,并且结果具有很好的准确性和鲁棒性。
附图说明
图1为本发明具体实施方式定位及词性标注的方法的整体流程示意图;
图2为本发明具体实施方式中定位图书书名的图像示意图;
图3为本发明具体实施方式中截取的图书书名图像的示意图;
图4为本发明具体实施方式中分词及词性标注的示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
需要说明的是,在本发明的描述中,术语“前”、“后”、“左”、“右”、“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图中所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不能理解为对本发明的限制。本发明描述中使用的术语“前”、“后”、“左”、“右”、“上”、“下”指的是附图中的方向,术语“内”、“外”分别指的是朝向或远离特定部件几何中心的方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349580.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序