[发明专利]一种基于依存句法和模式规则的非限定型关系挖掘方法有效
申请号: | 201810410033.1 | 申请日: | 2018-05-02 |
公开(公告)号: | CN108763195B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 金勇;吴兵 | 申请(专利权)人: | 武汉烽火普天信息技术有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F16/36 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 句法 模式 规则 限定 关系 挖掘 方法 | ||
本发明公开了一种基于依存句法和模式规则的非限定型关系挖掘方法,包括以下步骤:步骤一、分词和词性标注;步骤二、实体识别;步骤三、依存句法分析;步骤四、实体关系挖掘;步骤五、关系挖掘综合结果;本发明能够实现大规模非结构化或半结构化文本的语义信息提取,实现实体关系的自动抽取,有效的从大量文本中挖掘实体关系信息,从而提升业务应用价值。
技术领域
本发明涉及自然语言处理应用技术领域,具体的说是一种基于依存句法和模式规则的非限定型关系挖掘方法。
背景技术
随着互联网及大数据技术的发展,用户数量越来越多,网络上充斥着各种各样的信息。一方面,海量的信息必然蕴含丰富的有效信息,其中实体关系就是一种非常有价值的信息。如网络信息中出现的人物与某机构之间的关系等。另一方面,信息量和信息种类的飞速暴涨也引起了关系种类的演变,传统的监督性关系抽取方法显得相对狭窄(监督性关系抽取一般需要事先确定信息中存在哪些实体关系,同时需要大量的人工标注的关系语料),无法涵盖所有的关系种类。而目前有一种开放型的自举方式的关系挖掘方法,主要在词的基础上通过正则表达式进行关系挖掘,但是人工提前建立大量的正则表达式或者规则集,尽可能覆盖更多文本类型。
基于此,针对上述现状中存在的问题,本发明提出一种能够实现大规模非结构化或半结构化文本的语义信息提取的非限定型的关系抽取方法,实现实体关系的自动抽取,有效的从大量文本中挖掘实体关系信息,从而提升业务应用价值。
发明内容
为了解决上述现有技术的问题,本发明提供一种能够实现大规模非结构化或半结构化文本的语义信息提取的非限定型的关系抽取方法,实现实体关系的自动抽取,有效的从大量文本中挖掘实体关系信息,从而提升业务应用价值。
本发明解决其技术问题所采用的技术方案是:
一种基于依存句法和模式规则的非限定型关系挖掘方法,包括以下步骤:
步骤一、分词和词性标注:对分词后的文本进行词性标注,产生分词列表和对应的词性列表;
步骤二、实体识别:基于实体识别模型,对步骤一中的分词列表和词性列表出现的三类实体进行自动识别,其中,三类实体为人名、地名和机构;
步骤三、依存句法分析:对步骤二中实体识别后的文本,通过依存句法分析,得到实体之间及其它词语之间的依存句法结构;
步骤四、实体关系挖掘:基于步骤二和步骤三的结果,挖掘人名和地名关系模式、人名和机构名关系模式以及机构名和地名关系模式;
步骤五、关系挖掘综合结果:将上述三类实体关系规则进行整合后,实现输入一段文本后能一次性自动挖掘出其中的实体关系结果。
进一步地,所述步骤三中还包括根据依存句法结构中的头部指向,增加生产尾部集合字段。
进一步地,所述步骤四中,人名和地名关系模式具体包含的规则为:
a1、若人名的头部为词,词的尾部包含地名,则规则为“nr-SBV-word--VOB/POB-ns”;
a2、若人名的头部为词,词的尾部为介词,介词的尾部包含地名,则规则为“nr-SBV--word--ADV-p--POB-ns”;
a3、若人名的头部为词,词的尾部为名词,名词的尾部为地名,则规则为“nr-SBV--word--VOB-n--ATT-ns”;
a4、若人名的头部为另外一个人名,另外一个人名的头部为词,词的尾部为地名,则规则为“nr-COO--nr1-SBV--word--VOB-ns”;
a5、若人名的头部为一个动词,动词的尾部为另外一个动词,动词的尾部为地名,则规则为“nr-DBL--v1--VOB--v--VOB-ns”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司,未经武汉烽火普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810410033.1/2.html,转载请声明来源钻瓜专利网。