[发明专利]一种面向科技项目的评审专家智能推荐方法有效
申请号: | 201310509358.2 | 申请日: | 2013-10-24 |
公开(公告)号: | CN103631859B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 徐小良;吴仁克;林建海;陈秋 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙)33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种面向科技项目的评审专家智能推荐方法。本发明包括如下步骤:1).将待审科技项目、专家信息主要文本切分成子串序列并进行中科院ICTCLAS分词,对分词结果进行停用词过滤得到词语集合;2).构建项目信息的词语网络,基于统计特征和聚集特征提取特征词;专家信息较精简,直接将步骤1所得词语集合作为特征词;3).基于特征词所在字段和权值构建知识表示模型;建立相关信息索引;4).分组推荐专家对知识表示模型做字段间、项目间特征合并操作;5).基于语义计算专家与待审科技项目(组)的相似度,设定阀值截断产生最终推荐专家列表。上述方法的实现可极大地缓解推荐存在工作量大、评审决策缺乏科学性等问题。 | ||
搜索关键词: | 一种 面向 科技 项目 评审 专家 智能 推荐 方法 | ||
【主权项】:
一种面向科技项目的评审专家智能推荐方法,其特征在于该方法包括以下步骤:步骤1、把科技项目和专家信息中的通用词和惯用词作为专业停用词库;把标点符号、非汉字作为切分标记库;步骤2、对科技项目信息、专家信息进行分词:根据科技项目信息中切分标记,将项目名称、主要研究内容、技术指标切分成子串序列;根据评审专家信息中切分标记,抽取专家信息、获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向切分成子串序列,一个子串序列即一个字段信息;利用中科院ICTCLAS对子串序列进行分词;步骤3、科技项目特征词语提取:利用通用停用词库和专业停用词库对分词进行停用词过滤,所述的通用停用词库采用哈工大停用词表,把去除停用词的分词结果作为一个词语集合;专业停用词库的构建是一个自学习不断完善的过程,在信息分词过程中不断统计词语的词频,词语在文本出现的概率大于一定阈值,将它纳入到停用词库;科技项目信息量较大,对词语集合进行词语间语义相似度计算,根据词的语义关系和词的共现关系构建词语网络,计算网络中的词语聚集特征值;然后结合词语的统计特征值,计算词语的关键度来提取出科技项目特征词语;科技项目的特征词语就是提取综合文本的统计特征信息和语义特征信息,更加准确地提取出特征词语;步骤4、评审专家特征词语提取:根据通用停用词库和专业停用词库进行停用词过滤,提取每个专家的特征词集合;步骤5、构建科技项目、评审专家的分字段知识表示模型:通过对空间向量模型和物元知识集模型进行扩展,依据科技项目中的不同字段信息建立文本表示模型PRO=(id,F,WF,T,V),其中id表示在项目库中的标识字段;F表示科技项目中字段类别集合;WF为字段的权重;T为特征词语;V表示字段所对应的词语及其权重集合即Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},vij表示第i个字段中的第j个特征词语,f(vij)表示vij关键词所对应的频数;科技项目信息的知识表示如下:同理,根据专家中的不同字段信息建立知识表示模型TM=(id,F,WF,T,V);其中,id表示在专家库中的标识字段;F表示评审专家中字段类别集合;WF为字段的权重集合;T为特征词语;V表示字段所对应的特征词语及其权重集合即Vi={vi1,f(vi1),vi2,f(vi2),...,vin,f(vin)},vij表示第i个字段中的第j个特征词语,f(vij)表示vij特征词语在所对应的字段内的出现频率;评审专家信息的知识表示为:评审专家信息索引库构建:待评审专家知识表示模型构建完成后,将信息索引入库:首先从专家库中读取一个评审专家的内容项信息;基于分词结果建立词语语义网络并提取评审专家所包含的特征词;依据知识表示模型并利用Apache Lucene对其建立索引;将建立好的索引按所属类别加至对应的索引库中,直到所有的评审专家索引入库;步骤6、根据项目的个数,推荐方式分为单一待审项目推荐专家和分组待审项目推荐专家;分组推荐专家对步骤5的待审项目知识表示模型做相应的字段间和项目间的特征合并操作,单一待审专家推荐只做相应的字段间特征合并操作;同时,对步骤5的评审专家的知识表示模型进行字段间特征合并;依据知识表示模型并利用Apache Lucene对合并后的特征信息建立索引;其中,科技项目索引构建在进行项目推荐时进行;科技项目申报管理系统中待审项目往往是需要分组推荐的,上述特征合并操作,确保不会消除步骤5中知识表示模型设置不同字段权重对相似度计算产生推荐的贡献差异;步骤7、经过步骤6的评审专家和科技项目的知识表示模型的字段间特征进行合并,假设评审专家信息向量若表示为P={s1,f(s1),s2,f(s2),...,sn,f(sn)},科技项目信息向量表示为Q={t1,f(t1),t2,f(t2),...,tn,f(tn)},基于最大匹配算法计算待审科技项目向量与评审专家的语义相似度;步骤8、设置相似度截断,依据相似度的大小产生推荐指数,产生最终的推荐评审专家列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310509358.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车制造用前横梁下板夹具
- 下一篇:基于空气弹簧的汽车防侧翻预警系统
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用