[发明专利]一种基于NLP的专利自动识别分类的方法在审
申请号: | 201811001292.5 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109522404A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种自动专利识别分类技术,目的是为了减少人工识别提高准确率。所述方法包括:首先在专利局上爬取特定领域下的所需数据,根据所需数据分析出匹配模式,根据匹配模式来对待匹配识别的专利进行一个语义标注,根据语义标注和规范形成xml文档描述专利。解析Xml文档,最后各个层面上的dom元素的相同率来对专利进行一个分类识别。其分为以下几个部分:网络爬虫数据清洗部分,自然语言处理部分,模式匹配生成xml文档部分。 | ||
搜索关键词: | 匹配模式 语义标注 自然语言处理 分类技术 分类识别 模式匹配 匹配识别 人工识别 数据分析 数据清洗 网络爬虫 自动识别 准确率 解析 分类 | ||
【主权项】:
1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。自然语言处理模块:1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。结果分析模块:1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811001292.5/,转载请声明来源钻瓜专利网。