[发明专利]一种基于条件随机场的电信领域命名实体识别方法在审
申请号: | 201711096147.5 | 申请日: | 2017-11-09 |
公开(公告)号: | CN107832296A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 章韵;张歌 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司32200 | 代理人: | 徐莹 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 随机 电信 领域 命名 实体 识别 方法 | ||
技术领域
本发明涉及一种基于条件随机场的电信领域命名实体识别方法,属于计算机的技术领域。
背景技术
随着电信行业的飞速发展,传统的人工服务模式已经难以满足实际需求,于是人们开始关注电信领域知识库构建、电信领域问答系统构建等相关技术,希望能够使用自动化系统代替人工,以满足日益增长的业务需求。电信领域知识大多来自于电信相关文档。面对海量数据,完全依靠人工的手段从中抽取有价值的信息显然是不现实的,于是,人们开始希望通过自动化的方法来抽取信息。
但是,当前电信领域命名实体的自动化识别并不理想,大多数情况下仍依靠人工手段进行信息抽取,尤其是当文本完全是非结构化文本时,基于规则的抽取方法不再适用,无法在非结构化电信文本中有效进行命名实体识别,导致了无法有效的进行电信领域命名实体识别工作。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种基于条件随机场的电信领域命名实体识别方法,解决现有方法对规则模版的过度依赖,尤其是无法在非结构化电信文本中有效进行命名实体识别的问题。
本发明具体采用以下技术方案解决上述技术问题:
一种基于条件随机场的电信领域命名实体识别方法,包括以下步骤:
步骤1、将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注;
步骤2、选择上下文窗口大小及从候选特征集中选取特征以构建特征模版;
步骤3、定义条件随机场CRF模型的特征模版,将经步骤1得到的语料以及步骤2所得特征模版输入条件随机场CRF模型,得到电信领域命名实体识别CRF模型,并利用电信领域命名实体识别CRF模型进行待识别电信文本中的电信领域命名实体识别获得输出标注结果;
步骤4、从步骤3所得输出标注结果中还原识别出的电信领域命名实体。
进一步地,作为本发明的一种优选技术方案:所述步骤1中采用BIEO标注模型进行标注。
进一步地,作为本发明的一种优选技术方案:所述步骤1中进行标注包括特征值标注以及词角色标注。
进一步地,作为本发明的一种优选技术方案:所述步骤2中从候选特征集中选取特征,具体包括:
定义电信领域命名实体所具有特征的集合作为候选特征集;
从候选特征集中选择确定最优特征集,及将最优特征集中的特征作为所选取的特征。
进一步地,作为本发明的一种优选技术方案:所述步骤2中利用递增式学习方法从候选特征集中选择确定最优特征集。
本发明采用上述技术方案,能产生如下技术效果:
本发明的基于条件随机场的电信领域命名实体识别方法,通过自动化的方法进行电信领域命名实体抽取,提高了信息抽取的效率。在进行模型标注时使用BIEO标注模型对词角色进行定义,在一定程度上提高了模型对命名实体边界的识别能力;在选择特征时使用递增式学习策略选择最优特征集,在一定程度上避免了使用穷举法选择最优特征对时间以及人力的耗费,从而在一定程度上提高了电信领域命名实体识别的效率,并且能够保证电信领域命名实体识别结果具有较好的准确率和召回率。
附图说明
图1为本发明基于条件随机场的电信领域命名实体识别方法的流程示意图。
图2为本发明中构建关键词集的流程示意图。
图3为本发明中采用递增式学习方法构建最优特征集的流程示意图。
图4为本发明中还原电信领域命名实体的流程示意图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本发明设计了一种基于条件随机场的电信领域命名实体识别方法,该方法包括以下步骤:
步骤1、将语料转化为条件随机场CRF模型的输入格式并利用基于词的标注模型对其进行标注。
首先,对语料进行预处理,预处理包括分词、词性标注,该过程使用IKAnalyzer中文分词器进行分词,使用stanford-postagger-3.5.2进行词性标注。
然后,将完成分词及词性标注的语料文本转化为条件随机场CRF模型规定的输入格式,标准格式如下:
定义1:模版训练文件每行数据内容为Cin,
Cin=<词,特征1值,特征2值,……,特征n值,词角色>
定义2:待识别电信文件的每行数据内容为Cout,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711096147.5/2.html,转载请声明来源钻瓜专利网。