首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于FP-Growth算法的上下位关系抽取方法在审

申请号：	201910738173.6	申请日：	2019-08-12
公开（公告）号：	CN110532548A	公开（公告）日：	2019-12-03
发明（设计）人：	骆祥峰;黄敬;皇苏斌	申请（专利权）人：	上海大学;阿里巴巴集团控股有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/33;G06F16/35
代理公司：	31205 上海上大专利事务所(普通合伙)	代理人：	陆聪明<国际申请>=<国际公布>=<进入
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	上下位关系抽取非结构化文本候选集合准确率算法匹配集合预处理算法抽取文本集合自动抽取互信息构建句子筛选覆盖率输出分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于FP-Growth算法的上下位关系抽取方法，其特征在于，包含如下步骤：

(1)输入任意领域的非结构化文本集合；

(2)对给定的文本集合，按句子进行预处理；

(3)设计上下位关系抽取形式化模板，匹配种子上下位关系；

(4)构建种子上下位关系分类扩展集合，利用FP-Growth算法抽取上下位关系候选集合；

(5)利用PMI点互信息筛选上下位关系候选集合；

(6)输出上下位关系的抽取结果。

2.根据权利要求1所述的基于FP-Growth算法的上下位关系抽取方法，其特征在于，所述步骤(2)包含如下子步骤：

(2-1)利用自然语言处理工具Hanlp对给定文本集合按句子进行切分词预处理，获得切分词后的句子集合S₁；

(2-2)利用自然语言处理工具Hanlp对句子集合S₁进行词性标注预处理，获得切分词和词性标注后的句子集合S₂。

3.根据权利要求1所述的基于FP-Growth算法的上下位关系抽取方法，其特征在于，所述步骤(3)包含如下子步骤：

(3-1)根据自然语言词法、句法特征，构建种子上下位关系抽取形式化模板；

(3-2)利用正则表达式，使用上述形式化模板对句子集合S₂进行模板匹配，获得种子上下位关系集合Z＝{(a_i,isa,b_j)}。

4.根据权利要求1所述的基于FP-Growth算法的上下位关系抽取方法，其特征在于，所述步骤(4)包含如下子步骤：

(4-1)利用种子上下位关系集合Z，构建种子上下位关系分类扩展集合其中hyper_k表示上下位关系中的上位词，hypo_k表示以hyper_k为上位词的下位词集合，表示以hyper_k为上位词的一个具体下位词；

(4-2)基于FP-Growth算法，在句子集合S₂中抽取与种子上下位关系分类扩展集合中共现的频繁项下位词集合其中m∈[0,n]，代表频繁项中与种子上下位关系分类扩展集合的hypo_k中共现的下位词个数，w_i代表候选下位词，f表示该频繁项出现的次数；

(4-3)给定阈值α＝5，当频繁项次数f≥α时，获得上下位候选关系集合HX＝(w_i,isa,hyper_k)。

5.根据权利要求1所述的基于FP-Growth算法的上下位关系抽取方法，其特征在于，所述步骤(5)包含如下子步骤：

(5-1)上下位候选关系集合HX中的上位词与下位词的点互信息计算，点互信息计算如下：

其中p(V_i,V_j)是上位词V_i与下位词V_j在语料中共现的概率，p(V_i)是上位词在语料中出现的概率，p(V_j)是下位词在语料中出现的概率；

(5-2)给定阈值β＝8，遍历上下位候选关系集合HX，当上位词V_i与下位词V_j的点互信息PMI(V_i,V_j)≥β时，将该上下位关系加入到集合Z中；

(5-3)完成步骤(5-2)后，跳转至步骤(4-1)进行迭代抽取，直至没有新的上下位关系加入到集合Z中为止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学;阿里巴巴集团控股有限公司，未经上海大学;阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910738173.6/1.html，转载请声明来源钻瓜专利网。

上一篇：语料库构建方法、装置、电子设备及介质
下一篇：一种基于双通道深度学习模型的文本情感分析方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top