[发明专利]一种文献挖掘与材料性质预测方法在审
申请号: | 202111578394.5 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114429129A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 张磊;何牧 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F40/253;G16C60/00;G16C20/30;G16C20/90;G16C20/70 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 刘珊珊 |
地址: | 224002 江苏省盐城*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文献 挖掘 材料 性质 预测 方法 | ||
1.一种文献挖掘与材料性质预测方法,其特征在于,包括以下步骤:
1)抓取有关化学和材料的中文文献摘要21万篇;
2)使用分词测试集测试分词工具,选取最佳分词工具将数据库进行分词;
3)使用自定义停用词库和自定义词典将摘要数据库进行预处理,并整理成LineSentence格式;
4)用两种不同的模型skip-gram和CBOW进行词向量嵌入训练,并使用自定义关联词测试集测试不同的word2vec模型;
5)选取最优模型进行太阳能电池材料的预测,通过第一性原理去计算辅助验证预测项。
2.根据权利要求1所述的一种文献挖掘与材料性质预测方法,其特征在于,所述抓取有关化学和材料的中文文献摘要21万篇具有为:利用Selenium工具库中的web数据抓取模块抓取期刊类中文文献摘要21万篇。
3.根据权利要求1所述的一种文献挖掘与材料性质预测方法,其特征在于,所述使用分词测试集测试分词工具并选取最佳分词工具对中文摘要数据库进行分词具体为:选取三个中文分词软件,其分别为Jieba、Thulac和Pkuseg,利用三篇完整的材料类文献摘要(约500字)进行人为分词,组成测试集测试分词软件对特定种类中文文献摘要的分词能力,比较分词软件的结果和人为分词的结果,经过准确度,召回率和F-score的评判,最终选定Pkuseg用作中文文献分词工具。
4.根据权利要求1所述的一种文献挖掘与材料性质预测方法,其特征在于,所述的使用自定义停用词库和自定义词典将摘要数据库进行预处理具体为:将常用的无意义字符包含进停用词库,例如“啊”、“呀”、“的”和“!”等,在分词时自动舍去,同时,选取化学和材料专业的常用专有名词包含进自定义词典参与分词,例如“光伏电池材料”以及“太阳能电池”等,由此专有名词不再被分词工具拆分,而是形成一个整体参与训练。
5.根据权利要求1所述的一种文献挖掘与材料性质预测方法,其特征在于,所述采用两种不同的模型进行词向量嵌入训练,并使用自定义关联词测试集测试不同的word2vec模型具体为:采用skip-gram和CBOW两种模型分别训练,模型训练成功后,人为设置了50个关联词和50个非关联词作为测试集测试模型判断关联词的准确度,并绘制混淆矩阵去评判。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111578394.5/1.html,转载请声明来源钻瓜专利网。