[发明专利]一种文献挖掘与材料性质预测方法在审

专利信息
申请号: 202111578394.5 申请日: 2021-12-22
公开(公告)号: CN114429129A 公开(公告)日: 2022-05-03
发明(设计)人: 张磊;何牧 申请(专利权)人: 南京信息工程大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/242;G06F40/253;G16C60/00;G16C20/30;G16C20/90;G16C20/70
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 刘珊珊
地址: 224002 江苏省盐城*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文献 挖掘 材料 性质 预测 方法
【说明书】:

本申请涉及材料预测和计算技术领域,且公开了一种文献挖掘与材料性质预测方法,包括以下步骤:1)抓取有关化学和材料的中文文献摘要21万篇;2)使用分词测试集测试分词工具,选取最佳分词工具将数据库进行分词;3)使用自定义停用词库和自定义词典将摘要数据库进行预处理,并整理成LineSentence格式;4)用两种不同的模型skip‑gram和CBOW进行词向量嵌入训练,并使用自定义关联词测试集测试不同的word2vec模型;5)选取最优模型进行太阳能电池材料的预测。通过第一性原理去计算辅助验证预测项。通过使用Word2vec词向量嵌入算法对专业中文文献摘要数据库进行自然语言处理,在模型成功输出太阳能电池材料预测项后,使用第一性原理辅助计算验证,准确性和有效性更高。

技术领域

本申请涉及材料预测和计算技术领域,具体为一种文献挖掘与材料性质预测方法。

背景技术

一直以来自然语言处理模型(例如Word2vec和Bert)对有关材料方面的英文文献知识的正确提取得到了有力的证明,且取得了不错的成果,在这一过程中,自然语言处理利用计算机的强大算力深入数万篇文献之中学习词与词之间的关联,利用向量表达单词的含义,经过训练,生成的模型能在一定程度上输出我们需要了解的文献中蕴含的各类知识,以往上百年间的文献得到了充分利用,使得文献中蕴含的知识不至于浪费在庞大的文献数据库中。

为了增强自然语言处理对人类文献知识累积的贡献,多语言处理是个很好的选择,中文拥有世界上最多的第一语言使用者,相信中文文献的自然语言处理会对材料科学的研究做出贡献,而太阳能电池材料作为新能源材料,一直以来被人们广泛研究报导,为了加大对新型光伏材料的预测力度,减少高通量实验或高通量计算预测新材料带来的人力、物力和时间成本,需要一种准确性更高的文献挖掘与材料性质预测方法。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种文献挖掘与材料性质预测方法,该文献挖掘与材料性质预测方法使用Word2vec词向量嵌入算法对专业中文文献摘要数据库进行自然语言处理,与对英文文献的自然语言处理相比,我们在对中文的自然语言处理的时候,在分词、自定义词典、停用词典以及模型训练和输出结果处理等方面都做出了一定的改进,在模型成功输出太阳能电池材料预测项后,使用第一性原理辅助计算验证,准确性和有效性更高。

(二)技术方案

为实现上述目的,本发明提供如下技术方案:一种文献挖掘与材料性质预测方法,包括以下步骤:

1)抓取有关化学和材料的中文文献摘要21万篇;

2)使用分词测试集测试分词工具,选取最佳分词工具将数据库进行分词;

3)使用自定义停用词库和自定义词典将摘要数据库进行预处理,并整理成LineSentence格式;

4)用两种不同的模型skip-gram和CBOW进行词向量嵌入训练,并使用自定义关联词测试集测试不同的word2vec模型;

5)选取最优模型进行太阳能电池材料的预测,通过第一性原理去计算辅助验证预测项。

优选的,所述抓取有关化学和材料的中文文献摘要21万篇具有为:利用Selenium工具库中的web数据抓取模块抓取期刊类中文文献摘要21万篇。

优选的,所述使用分词测试集测试分词工具并选取最佳分词工具对中文摘要数据库进行分词具体为:选取三个中文分词软件,其分别为Jieba、Thulac和Pkuseg,利用三篇完整的材料类文献摘要(约500字)进行人为分词,组成测试集测试分词软件对特定种类中文文献摘要的分词能力,比较分词软件的结果和人为分词的结果,经过准确度,召回率和F-score的评判,最终选定Pkuseg用作中文文献分词工具。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111578394.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top