[发明专利]一种电子元器件型号词的自动提取方法及系统在审
| 申请号: | 202110177411.8 | 申请日: | 2021-02-07 | 
| 公开(公告)号: | CN112818693A | 公开(公告)日: | 2021-05-18 | 
| 发明(设计)人: | 樊芳华 | 申请(专利权)人: | 深圳市世强元件网络有限公司 | 
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04 | 
| 代理公司: | 深圳市瑞方达知识产权事务所(普通合伙) 44314 | 代理人: | 郭方伟 | 
| 地址: | 518000 广东省深圳市龙岗区坂田街道雪岗路*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 电子元器件 型号 自动 提取 方法 系统 | ||
1.一种电子元器件型号词的自动提取方法,其特征在于,包括以下步骤:
S1:根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;
S2:获得待提取文档,根据所述型号列名字典进行表格中型号词的匹配提取,和/或根据所述型号词推测模型进行文本中型号词的推测提取。
2.根据权利要求1所述的电子元器件型号词的自动提取方法,其特征在于,所述步骤S1包括:
S11:从至少一训练文档中提取文本数据和/或表格数据;其中,所述训练文档为已标记型号词的文档;
S12:判断是否存在表格数据,若是,则执行步骤S13,若否,则执行步骤S14;
S13:根据表格的表头数据,通过经验推测构建所述型号列名字典;
S14:利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述型号词推测模型中进行识别训练。
3.根据权利要求2所述的电子元器件型号词的自动提取方法,其特征在于,所述步骤S2包括:
S21:从至少一待提取文档中提取文本数据和/或表格数据;
S22:判断是否存在表格数据,若是,则执行步骤S23,若否,则执行步骤S24;
S23:根据所述型号列名字典进行表格数据中表头下的型号词匹配,提取表格中的型号词;
S24:利用分词器对文本数据进行分词,根据所述型号词推测模型对分词后的词语进行是否为型号词的推测,提取文本中的型号词。
4.根据权利要求3所述的电子元器件型号词的自动提取方法,其特征在于,所述型号词推测模型包括用于对单组厂商的型号词进行推测的至少一个单组厂商型号词推测模型和/或用于对所有厂商的型号词进行推测的所有厂商型号词推测模型;
所述步骤S14包括:根据训练文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至与厂商属性对应的所述单组厂商型号词推测模型中进行识别训练;
和/或,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述所有厂商型号词推测模型中进行识别训练;
所述步骤S24包括:
根据待提取文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,根据与厂商属性对应的所述单组厂商型号词推测模型对分词后的词语进行是否为该厂商的型号词的推测,提取文本中为该厂商的型号词;
和/或,利用分词器对文本数据进行分词,根据所述所有厂商型号词推测模型对分词后的词语进行是否为型号词的推测,提取文本中的型号词。
5.根据权利要求3所述的电子元器件型号词的自动提取方法,其特征在于,所述方法还包括:在提取过程中对图片数据和/或乱码数据进行丢弃。
6.根据权利要求1所述的电子元器件型号词的自动提取方法,其特征在于,所述方法还包括:
S3:将提取到的型号词存储至型号词库中,并根据所述型号词库对训练文档中的型号词进行标记。
7.一种电子元器件型号词的自动提取系统,其特征在于,包括:
训练模块,用于预先根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;
提取模块,用于获得待提取文档,根据所述型号列名字典进行表格中型号词的匹配提取,和/或根据所述型号词推测模型进行文本中型号词的推测提取。
8.根据权利要求7所述的电子元器件型号词的自动提取系统,其特征在于,所述训练模块包括:
训练数据模块,用于从至少一训练文档中提取文本数据和/或表格数据;其中,所述训练文档为已标记型号词的文档;
训练判断模块,用于判断是否存在表格数据,若是,则执行字典构建模块,若否,则执行模型训练模块;
字典构建模块,用于根据表格的表头数据,通过经验推测构建所述型号列名字典;
模型训练模块,用于利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述型号词推测模型中进行识别训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世强元件网络有限公司,未经深圳市世强元件网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110177411.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋转楼梯及其制作方法
- 下一篇:口罩全自动包装设备





