[发明专利]一种基于NLP的专利自动识别分类的方法在审

申请号：	201811001292.5	申请日：	2018-08-30
公开（公告）号：	CN109522404A	公开（公告）日：	2019-03-26
发明（设计）人：	不公告发明人	申请（专利权）人：	电子科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/951
代理公司：	暂无信息	代理人：	暂无信息
地址：	610054 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种自动专利识别分类技术，目的是为了减少人工识别提高准确率。所述方法包括：首先在专利局上爬取特定领域下的所需数据，根据所需数据分析出匹配模式，根据匹配模式来对待匹配识别的专利进行一个语义标注，根据语义标注和规范形成xml文档描述专利。解析Xml文档，最后各个层面上的dom元素的相同率来对专利进行一个分类识别。其分为以下几个部分：网络爬虫数据清洗部分，自然语言处理部分，模式匹配生成xml文档部分。
搜索关键词：	匹配模式语义标注自然语言处理分类技术分类识别模式匹配匹配识别人工识别数据分析数据清洗网络爬虫自动识别准确率解析分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于NLP的专利自动识别分类的方法，其包含了如下的几个模块：网络爬虫，获取特定领域专利数据。网络爬虫模块：对网络爬虫的数据进行一个清洗，得到有用的信息安全领域的专利。自然语言处理模块：1)根据通用词典，领域词典，和专利词典，对爬取的文档进行预处理。2)根据部分预处理后文档的特点，分析出抽取模式，这是训练的过程。结果分析模块：1)根据抽取模式，对剩下的文件进行一个分析，得到dom文档树，形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析，最后再根据自己的规则，对新来得专利文件进行一个识别分类。。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811001292.5/，转载请声明来源钻瓜专利网。

上一篇：一种基于融合编码的摘要文本生成方法
下一篇：文件信息处理方法、电子设备以及计算机可读存介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于NLP的专利自动识别分类的方法在审

专利文献下载