[发明专利]一种应用于制造业科学技术文档的命名实体识别模型在审
| 申请号: | 202111643086.6 | 申请日: | 2021-12-29 |
| 公开(公告)号: | CN114510940A | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 王明浩 | 申请(专利权)人: | 中云开源数据技术(上海)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/247;G06F40/126;G06N3/04;G06N3/08;G06N5/02 |
| 代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 俞磊 |
| 地址: | 200131 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 应用于 制造业 科学技术 文档 命名 实体 识别 模型 | ||
本发明公开了一种应用于制造业科学技术文档的命名实体识别模型,其网络结构包括词嵌入层SciBERT,其用于将输入的词转换为固定长度的向量;BiLSTM层,其利用文本序列的上下文信息挖掘隐藏特征,其用于编码文本;注意力层,其用于降低实体内部不相关修饰词的权重,界定实体的边界,避免重要实体抽取的遗漏;CRF层,其作为网络结构的输出层,用于避免文本序列中的实体被错误标注。本发明的命名实体识别模型能从文本中提取信息和生成知识,能解析制造领域中的产品设计文本数据、工程测试文本数据、供应商数据数据、维护记录数据和产品使用数据等各种与制造科学技术相当的文档,能为企业实现各种数据资产互连提供技术基础,是促进企业的数字化转型的关键。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及到一种应用于制造业科学技术文档的命名实体识别模型。
背景技术
随着与制造业相关的科技文献和互联网上可用的数字资源数量呈指数级增长,从制造科学技术文档中搜索和提取有价值的信息具有挑战性。现有的命名实体识别模型在材料科学、生物医学、化学科学、网络安全、维护实践和取证科学等特定领域均有相关研究和应用,但针对制造科学技术文档,研究使用命名实体识别模型并抽取其中有价值的信息尚处于技术语言处理研究和应用的萌芽阶段。
现有其他领域的命名实体识别模型的缺陷如下:
1)现有的标准命名实体识别模型无法识别特定领域的术语和概念。
2)由于不同领域技术文档具有不同的特点,因此针对特定领域开发的命名实体识别模型无法移植到制造业领域。
3)现有技术中心缺乏利用已构建的制造业领域的命名实体识别模型对制造科学技术文档进行自动分类的研究。
发明内容
本发明的目的是提供一种应用于制造业科学技术文档的命名实体识别模型,其从制造科学技术文档中抽取信息,并利用这些信息对制造科学技术文档按不同制造主题分类,组合深度学习模型、注意力机制、预训练模型和条件随机场等技术,构建命名实体识别模型,该模型能从制造科学技术文档中抽取关键的制造概念和实体,能为专注于制造的研究人员、年轻工程师和非技术专业人员提供快速搜索与制造相关的特定信息。
本发明的上述技术目的是通过以下技术方案实现的:
一种应用于制造业科学技术文档的命名实体识别模型,包括如下步骤:
I.数据收集
选取现有目标文本,构成训练命名实体识别模型的原始语料库;
II.数据预处理
去除原始语料库中的标点和停用词,执行词形还原,形成语料库对应的词典;人工定义若干种制造文本类别;并为词典中的每一个词分配一个制造文本类别标签;采用定制化的词表提取算法,用BIOES格式自动标注原始语料库;
III.命名实体识别模型的网络结构
1)词嵌入层SciBERT,其用于将输入的词转换为固定长度的向量;
2)位于词嵌入层SciBERT之上的BiLSTM层,其利用文本序列的上下文信息挖掘隐藏特征,其用于编码文本;
3)位于BiLSTM层之上的注意力层,其用于降低实体内部不相关修饰词的权重,界定实体的边界,避免重要实体抽取的遗漏;
4)位于注意力层之上的CRF层,其作为网络结构的输出层,用于避免文本序列中的实体被错误标注;
IV.命名实体识别模型的训练
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中云开源数据技术(上海)有限公司,未经中云开源数据技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111643086.6/2.html,转载请声明来源钻瓜专利网。





