[发明专利]一种面向人物名片的任职关系抽取方法和系统在审
申请号: | 202111544385.4 | 申请日: | 2021-12-16 |
公开(公告)号: | CN114220112A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 李佳静;瞿签新;林润;汪严博;高小涵;张贵鹏;张泽豪;郝亚鑫;曾伟豪 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/413;G06N3/04;G06F40/295;G06N3/08;G06V10/82 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱桢荣 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 人物 名片 任职 关系 抽取 方法 系统 | ||
1.一种面向人物名片的任职关系抽取方法,其特征在于,包括以下步骤:
步骤1、获得人物名片图片,并对人物名片图片进行预处理;
步骤2、对预处理后的人物名片图片中的文字进行提取,得到文字区域;
步骤3、识别出文字区域中的三种实体,三种实体包括人名、工作单位和职位;
步骤4、对步骤3中识别出的人名、工作单位和职位进行修正;
步骤5、根据修正后的人名、工作单位和职位,形成若干个用来表达任职关系的三元组并存储在电子名片数据库中,每个三元组为人名,工作单位,职位。
2.根据权利要求1所述的一种面向人物名片的任职关系抽取方法,其特征在于,步骤1的人物名片图片的获得方式是:拍摄、爬虫或用户提供;
预处理包括:
如果人物名片图片中包含多个名片,首先分割为单个的人物名片,随后对单个的人物名片进行二值化、平滑噪声、倾斜角检测和纠正处理。
3.根据权利要求1所述的一种面向人物名片的任职关系抽取方法,其特征在于,步骤2中的提取包括文字检测和文字识别。
4.根据权利要求1所述的一种面向人物名片的任职关系抽取方法,其特征在于,
步骤1之后还包括对预处理后的人物名片图片自动生成图片训练测试集;
步骤2中采用自动生成图片训练测试集中的人物名片图片对文字进行提取,自动生成训练测试集的方法包括生成汉字的多种字体的不同噪音的图片,以及对人物名片图片自动进行角度调整所生成的多个测试样例。
5.根据权利要求1所述的一种面向人物名片的任职关系抽取方法,其特征在于,步骤3中,基于命名实体识别的方法识别出人名、工作单位和职位三种实体,对于当同一个文字区域中包含两个以上实体时,利用中文词法工具将其划分为单个的实体。
6.根据权利要求1所述的一种面向人物名片的任职关系抽取方法,其特征在于,步骤4中,修正方法如下:
步骤①、对于识别出的人名,在人物名片图片中存在对应人名拼音的情况下,利用中文汉字拼音库中获得具有相同拼音且字形最接近的汉字进行修正;在不存在拼音的情况下,利用字形相似度度量选择字型最接近汉字进行修正;
步骤②、对于识别出的工作单位,根据其位置和字体判断是否为徽标,如果是徽标则调用徽标识别算法进行识别和修正;如果不是徽标但其中包含工作单位的英文、拼音或地址信息,则使用英文、拼音或地址信息作为输入,调用搜索引擎的接口搜索获得工作单位的正确名称进行修正;如果不包含以上信息,则首先利用语言模型得到字,然后在字中利用字形相似度度量选择字型最接近汉字进行修正;
步骤③、对于识别出的职位,根据职位词典库选择编辑距离最小的职位名称进行修正;如果词典中的职位名称的距离都大于预设阈值,则将修正过的工作单位名称和待修正的职位一同输入到语言模型中,得到最有可能的字,然后在该字中利用字形相似度度量选择字型最接近汉字进行修正。
7.根据权利要求6所述的一种面向人物名片的任职关系抽取方法,其特征在于,步骤5中,对于存在多个工作单位和职位,按照位置的临近关系,对工作单位和职位进行配对;如果某个职位在位置上没有临近的工作单位,则将识别出的徽标作为该职位对应的工作单位。
8.一种面向人物名片的任职关系抽取系统,其特征在于,包括
图片训练测试集单元,用于存储包含汉字的多种字体的不同噪音的人物名片图片,以及对人物名片图片自动进行角度调整生成多个测试样例的人物名片图片;
文本知识库单元,用于存储中文汉字拼音库、笔顺库,以及职位和单位名称的词典;
文字提取单元,用于实现对人物名片图片中的文字的提取,得到文字提取结果输出至实体识别单元,文字提取结果包括文字区域;
实体识别单元,用于实现对文字提取结果中的人名、工作单位和职位三种实体的识别;其中还包括对于当同一个文字区域中包含两个或以上实体时,利用中文词法工具将其划分为单个的实体;
实体修正单元,用于实现对识别的人名、工作单位和职位的置信度低于预设值的部分进行修正;
任职关系生成单元,用于生成若干个人名,工作单位,职位的三元组,并存储在数据库中;
其中,实体修正单元包括人名修正子单元,工作单位修正子单元和职位修正子单元:
人名修正子单元,用于对于识别出的人名,在人物名片图片中存在对应人名拼音的情况下,利用中文汉字拼音库中获得具有相同拼音且字形最接近的汉字进行修正;在不存在拼音的情况下,利用字形相似度度量选择字型最接近汉字进行修正;
工作单位修正子单元,对于识别出的工作单位,根据其位置和字体判断是否为徽标,如果是徽标则调用徽标识别算法进行识别和修正;如果不是徽标但其中包含工作单位的英文、拼音或地址信息,则使用英文、拼音或地址信息作为输入,调用搜索引擎的接口搜索获得工作单位的正确名称进行修正;如果不包含以上信息,则首先利用语言模型得到字,然后在字中利用字形相似度度量选择字型最接近汉字进行修正;
职位修正子单元,用于对于识别出的职位,根据职位词典库选择编辑距离最小的职位名称进行修正;如果词典中的职位名称的距离都大于预设阈值,则将修正过的工作单位名称和待修正的职位一同输入到语言模型中,得到最有可能的字,然后在该字中利用字形相似度度量选择字型最接近汉字进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111544385.4/1.html,转载请声明来源钻瓜专利网。