[发明专利]一种领域层级词典挖掘构建的主动学习方法有效
申请号: | 201910800936.5 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110502644B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 梅珊;熊海涛;柴庆凤;贺惠新 | 申请(专利权)人: | 同方知网数字出版技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F40/242;G06F40/247;G06F40/295;G06F40/211 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 100084 北京市海淀区西小口路66号中关村东升科技园B-2号楼二层B201、*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 层级 词典 挖掘 构建 主动 学习方法 | ||
本发明公开了一种领域层级词典挖掘构建的主动学习方法,包括:构建领域专业词实体抽取模型,抽取领域文章中的专业词来生成底层原始专业词库;结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典;基于领域词典结合多种同义词生成方法生成领域同义词典;通过网络开放资源构建领域层级词的初始种子词,训练层级词预测模型,并总结相关优化过滤规则;基于领域词典及同义词典,结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词并构建层级词典,并方便在不同领域下进行扩展应用。
技术领域
本发明涉及自然语言处理的计算机技术领域,尤其涉及一种领域层级词典挖掘构建的主动学习方法。
背景技术
自然语言是人类在长期生活中形成的一种承载信息的交流符号,这种符号语言的含义由人们的生活环境、领域分工以及工作经验所影响造就。而字作为语言信息表达的基本元素,有共同的经历人员会为表达特定领域的一种实体或者行为,而将字拼接起来形成专用词汇。
随着社会分工的不断分化,人们从事的领域类型不断增多,各领域中产生的专用词汇的数量也变得庞大,不同领域之间的词汇的意思也不尽相同,而对领域中语言涉及的领域专有词的认知,更需要通过在领域中的经验,而无法由字的拼接规律来推理表达。领域专有词的认识问题成为了自然语言语义理解的基本问题,基于专有词构建层级词典也自然而然成为进一步需要探讨的问题。
通过计算机自动挖掘领域专有词语并构建层级词典是很现实的应用需求。当前计算机的记忆功能强,而推理技能不足,在对领域专有词的认知上,基于人工规则的方法,重点在于从语法结构上分析构建构词规则,并在分析语料时完全利用规则发现词语,这种方法对参与人员的语言及领域的专业知识要求都很高,而人思考设计的遗漏必然导致词汇总结的缺失量更大,而且这种系统不便于迁移到不同领域上基于统计的方法从自然语言文本中分析词汇组成的概率,由于对领域的训练数据的体量足够大,这对人工标注的劳动要求很高,当前的主要处理方式多是在不分领域的熟语料上进行统一的训练学习生成模型,并最终用在不同领域上,这造成了准确率降低。挖掘出领域专有词汇并形成专有词汇字典,是为了后续的应用任务,而由于通用方法的针对性不足,加入了不同领域的专有词的会造成后续任务的失效。
发明内容
为解决上述技术问题,本发明的目的是提供一种领域层级词典挖掘构建的主动学习方法,该方法可结合一般语料进行建模分析,并在不同领域上进行变通应用,可有效提高专有词挖掘的准确性和全面性。
本发明的目的通过以下的技术方案来实现:
一种领域层级词典挖掘构建的主动学习方法,包括:
A构建领域专业词实体抽取模型,抽取领域文章中的专业词来生成底层原始专业词库;
B结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典;
C基于领域词典结合多种同义词生成方法生成领域同义词典;
D通过网络开放资源构建领域层级词的初始种子词,训练层级词预测模型,并总结相关优化过滤规则;
E基于领域词典及同义词典,结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
基于语料的领域相关性,提出了基于实体挖掘的专有词挖掘方法,基于最新的BERT构建BERT-BLSTM-CRF模型得到高准确率的专有词挖掘模型并生成高质量的候选领域词,结合领域已有的小规模专业词典,在计算候选词的支持度时赋予已被认可的专业词高的权值,完成领域新词的高质量筛选,进一步结合多种同义词生成方法生成高质量的领域同义词典,从而基于网络开放资源结合层级匹配模型及规则完成对已存在的符合认知的领域层级体系的扩充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司,未经同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910800936.5/2.html,转载请声明来源钻瓜专利网。