[发明专利]一种软件问答社区中的技术标签推荐方法有效

专利信息
申请号: 201711042537.4 申请日: 2017-10-30
公开(公告)号: CN107798624B 公开(公告)日: 2021-09-28
发明(设计)人: 孙海龙;刘旭东;张建;田言飞 申请(专利权)人: 北京航空航天大学
主分类号: G06Q50/00 分类号: G06Q50/00;G06F16/955;G06F40/30;G06F40/289;G06N3/04
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 软件 问答 社区 中的 技术 标签 推荐 方法
【权利要求书】:

1.一种软件问答社区中的技术标签推荐方法,其特征在于,包括:步骤1,预处理;步骤2,词义表示学习;步骤3,短语以及句子语义学习;步骤4,语义融合;在预处理前为训练阶段,所述训练阶段用于构造词典并保存模型的结构与权重;在预处理后为部署阶段,所述部署阶段则是对于新的问题,在转化成索引序列后,加载保存的模型以预测并推荐标签;在所述步骤1的预处理中,首先在获取源数据后,将其中的问题与标签数据提取出来,形成供训练的问题-标签对,对于每个问题,去除其中的标点符号与HTML标签,并对含有标点的技术关键词作转换处理,然后对于问题中的代码数据,利用正则表达式过滤掉长度大于三个词的代码片段,最后经过预处理的问题信息用于构造词语-索引对应的词典,以将原始数据转化成固定长度的序列,即词的索引的序列;在步骤2的词义表示学习中,利用使用Skip-gram模型来训练词向量,该模型本质上是一个三层的神经网络,即输入层、隐藏层和输出层;首先,对于独热表示的输入xk,有相邻的词语y1,y2,...,yM,隐藏层与输入层之间的权重矩阵为W,所述xk的向量表示为ek=Wkxk,θ表示中间的参数,在训练时使用最大似然准则,即最大化公式所述N,M为正整数,使用softmax函数来计算所述最大化公式中的条件概率,D表示训练样本的词汇表,在训练结束后,便可以得到每个词的向量表示,用于进一步地语义提取;在步骤3的短语和句子语义学习中,首先将句子转化成语义矩阵,对于句子中的每个词,抽取对应的词向量,并将这些向量进行拼接,形成类似于图像处理中的图片格式,拼接的公式为其中L为正整数,表示问题的长度,Q1:k表示用前k个词组成该矩阵;并将上文的文档矩阵转化成特征映射,映射方式为:ci=σ(f·Qi:i+s-1+b),所述映射方式中i和s表示短语起始位置以及短语长度,所述f为短语级别的语义特征提取部件f,所述Qi:i+s-1是ei到ei+s-1的合并,所述b是偏置,所述σ是激活函数,对于多个特征提取部件提取到的特征映射c=[c1,c2,...,ci+s-1],添加池化提取特征语义空间中的最具代表性的向量,得到新的特征向量并建立起与输出之间的非线性映射ti,所建立的方式为:

所述是该层与输出层之间的权重,最终的输出层用于获取每个标签的概率,取值为0到1,获取的方式为:

在训练时,度量训练的损失值ε的方式为:

所述y是问题对应的真实的标签集合,取值为0或1,所述N为训练样本数目。

2.如权利要求1所述的方法,其特征在于,还包括,利用学习的方式训练出对应于两种语义的权重,以此进行累加,学习的过程为:首先获取训练损失其中是输入αi和输入βi的结合,即所述w和v为权重,获取权重w和v的偏导数,得到:

之后在遍历训练数据时可以逐步更新两个权重,所述两个权重最终用于预测新问题所对应的标签集合,即经过模型获得两个语义向量αn和βn,从而得到输出γ=w*αn+v*βn,对γ进行按概率值排序,最终推荐出概率最大的K个标签,K为正整数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711042537.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top