[发明专利]一种基于半监督学习和聚类的轨道交通实体识别方法在审
申请号: | 202110482650.4 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113191148A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 黑新宏;董林靖;朱磊 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 轨道交通 实体 识别 方法 | ||
本发明是基于半监督学习和聚类的实体识别方法。通过本体库预定义实体类别对轨道交通规范非结构化数据进行标注;对标签数据使用word2vec进行向量化表示,然后对带标签的实体词向量进行层次聚类算法;接着将实体类别与聚类结果联合分析,校对实体类别定义,最终确定轨道交通领域本体库实体类型;最后重新整理数据集,生成的词向量输入到BiLSTM‑CRF深度学习模型中训练命名实体识别模型,使用Softmax函数对识别的实体特征进行标签分类,评估实体标签分类结果。本发明能提高轨道交通规范中实体抽取速度和准确率,从而缩短自动问答统和语义网标注对轨道交通规范的处理时间,提高建筑领域从业人员对轨道交通规范的查询速率,提高了用户体验度。
技术领域
本发明属于人工智能自然语言处理技术领域,涉及一种基于半监督学习和聚类的轨道交通实体识别方法。
背景技术
近几年,人工智能的发展成为了行业重要的发展方向,其中自然语言处理作为该领域的重要研究方向,其研究成果已经应用于医疗、法律、金融等行业中,大大提高了领域智能化水平。但是,轨道交通领域中也存在大量的文本信息,针对此领域的相关研究少之又少。在现有的自然语言处理研究领域,现存涉及到轨道交通规范信息提取的相关方法主要是针对英文的轨道交通法规,而对中文轨道交通设计规范的研究处于起步阶段。因此,人们急需要找到一种能够对中文轨道交通设计规范进行信息化处理的方法,构建轨道交通领域知识图谱,实现利用计算机去思考语义并且推理预测,提升轨道交通设计阶段的信息化水平,提高设计阶段的生产效率。
命名实体识别和关系抽取是自然语言处理的重要子任务,直接影响自然语言处理后续工作的性能。其主要的目的是从非结构化文本中识别实体并抽取实体间的语义关系。将关系抽取技术应用到轨道交通领域,对此领域的非结构化知识进行结构化处理与存储,通过对非结构化数据信息的抽取,可以自动分析提取有用信息,从而提高搜索引擎的速度与智能问答系统的准确性,即提高建筑领域从业人员的对轨道交通规范的查询速率,极大地简化了工作的复杂程度,提高了轨道交通领域智能化水平。
发明内容
本发明的目的是提供一种基于半监督和聚类的轨道交通实体识别方法,能够解决现有轨道交通规范实体识别方法需要标记大量数据,以及专家构建本体库时细粒度实体分类与标注样本有限导致实体识别结果准确率较低的问题。
本发明所采用的技术方案是,
一种基于半监督和聚类的轨道交通规范命名实体识别方法,通过专家构建轨道交通领域本体库,人工标注部分数据;首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据与训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。
具体包括以下步骤:
步骤1:获取轨道交通规范语料;
步骤2:对获取的道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;
步骤3:构建轨道交通领域本体库,然后预定义实体类别;
步骤4:从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体与实体类别;
步骤5,利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,数据集中只包含两列信息,实体和标签;
步骤5.1我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110482650.4/2.html,转载请声明来源钻瓜专利网。