[发明专利]一种面向新兴技术预测的佐证事实的抽取方法及系统有效
申请号: | 202010102001.2 | 申请日: | 2020-02-19 |
公开(公告)号: | CN111325036B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 毛彬;罗准辰;郑安庆;罗威;谭玉珊;田昌海;叶宇铭;宋宇;吴叔義 | 申请(专利权)人: | 中国人民解放军军事科学院军事科学信息研究中心 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F40/169;G06F16/335 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;刘振 |
地址: | 100142*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 新兴 技术 预测 佐证 事实 抽取 方法 系统 | ||
1.一种面向新兴技术预测的佐证事实的抽取方法,所述方法包括:
针对新兴技术构造一条辅助声明,构建一个佐证数据的语料文档集;
对语料文档集进行关键词匹配,得到候选文档集合;
计算候选文档集合中每个文档和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得K个最相关文档;
对K个最相关文档的所有句子构建句子集,计算句子集中每个句子和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得L条佐证句子;
针对L条佐证句子,根据四个特征维度进行特征提取,获取每个句子的特征表示;
将L条佐证句子和特征表示同时输入训练好的排序模型,输出经过排序的结果句子集。
2.根据权利要求1所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述对语料文档集进行关键词匹配,得到候选文档集合,具体为:
对语料文档集的文档标题和文档的首句,进行关键词匹配,获取候选文档集合。
3.根据权利要求2所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述计算候选文档集合中每个文档和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得K个最相关文档,具体包括:
用神经语义匹配网络对候选文档集与辅助声明进行处理,其中每一篇文档用标题和首句表示,计算得到每一篇文档的语义匹配系数p1;用辅助声明与文档所有句子,计算得到语义相关系数m1+;
根据第一阈值对语义匹配系数p1值进行过滤,得到获选文档集中匹配的文档;
根据语义相关系数m1+,对匹配的文档进行排序,获取前K篇文档。
4.根据权利要求3所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述对K个最相关文档的所有句子构建句子集,计算句子集中每个句子和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得L条佐证句子,具体为:
对K个文档的所有句子构造句子集;
用神经语义匹配网络对句子集与辅助声明进行处理,计算得到每一个句子的语义匹配系数p2;用辅助声明与句子集,计算得到语义相关系数m2+;
根据第二阈值对语义匹配系数值p2进行过滤,得到匹配的句子;
根据语义相关系数m2+,对匹配的句子进行排序,获取前L条句子。
5.根据权利要求1所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述四个特征维度包括:发展力、可信度、先进性和显著性,所述发展力和可信度衡量外部市场和研究组织的对该技术的反应;先进性和显著性衡量技术本身的特性;
所述发展力又称为市场价值,用于表明该技术具有广泛应用或者有很大的投资;
所述可信度,又称为学术价值,用于表明权威人士和权威组织对于该技术有过积极的评论;
所述先进性,用于表明该技术与其他技术的对比结果占优;
所述显著性,用于表明该技术的研究活跃,被广泛关注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院军事科学信息研究中心,未经中国人民解放军军事科学院军事科学信息研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010102001.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家教机数据的分析管理方法及装置
- 下一篇:可疑组织发现系统和方法