[发明专利]一种基于自然语言处理的层次化专题属性抽取方法有效

申请号：	201811005109.9	申请日：	2018-08-30
公开（公告）号：	CN109145089B	公开（公告）日：	2021-07-30
发明（设计）人：	梁勇奇;杨瑞霞;耿同	申请（专利权）人：	中国科学院遥感与数字地球研究所
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F16/36
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100094***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公布了一种基于自然语言处理的层次化专题属性抽取方法，旨在解决较少文本量，多属性类型情况下完整专题信息抽取的难题，包括以下步骤：将英文百科类介绍页面结构化，清洗并句子化，形成总句子语料库；从总句子语料库中随机抽取部分句子，标注其中含有某专业领域属性的句子，形成句子层的语料库；按照7:3的比例，将属性句子语料库划分为训练库和检验库，训练并检验随机森林分类器；(4)使用训练好的随机森林分类器对总句子语料库分类，获得属性句子库；使用文档主题生成模型(LDA和NMF)获取属性句子库中的主题词，标注该专业领域知识的各类型属性词，形成词语层的语料库；将介绍页面词语化，根据属性词语料库，抽取专题属性信息。
搜索关键词：	一种基于自然语言处理层次专题属性抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于自然语言处理的层次化专题属性抽取方法，包括以下步骤：1)将英文百科类(如：Wikipedia)介绍页面结构化，清洗并句子化，形成总句子语料库；2)从总句子语料库中随机抽取部分句子，标注其中含有某专业领域属性的句子，形成句子层的语料库——属性句子语料库；3)按照7:3的比例，将属性句子语料库划分为训练库和检验库，训练并检验随机森林分类器；4)使用训练好的随机森林分类器对步骤1)中的总句子语料库分类，获得属性句子库；5)使用文档主题生成模型(LDA和NMF)获取属性句子库中的主题词，标注该专业领域知识的各类型属性词，形成词语层的语料库——属性词语料库；6)将英文百科类介绍页面词语化，根据属性词语料库，规则匹配抽取专题属性信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院遥感与数字地球研究所，未经中国科学院遥感与数字地球研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811005109.9/，转载请声明来源钻瓜专利网。

上一篇：一种基于家教机的搜索方法及家教机
下一篇：一种基于深度学习的微博用户情感影响力分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自然语言处理的层次化专题属性抽取方法有效

专利文献下载