[发明专利]一种软件问答社区中的技术标签推荐方法有效
申请号: | 201711042537.4 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107798624B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 孙海龙;刘旭东;张建;田言飞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/955;G06F40/30;G06F40/289;G06N3/04 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 软件 问答 社区 中的 技术 标签 推荐 方法 | ||
1.一种软件问答社区中的技术标签推荐方法,其特征在于,包括:步骤1,预处理;步骤2,词义表示学习;步骤3,短语以及句子语义学习;步骤4,语义融合;在预处理前为训练阶段,所述训练阶段用于构造词典并保存模型的结构与权重;在预处理后为部署阶段,所述部署阶段则是对于新的问题,在转化成索引序列后,加载保存的模型以预测并推荐标签;在所述步骤1的预处理中,首先在获取源数据后,将其中的问题与标签数据提取出来,形成供训练的问题-标签对,对于每个问题,去除其中的标点符号与HTML标签,并对含有标点的技术关键词作转换处理,然后对于问题中的代码数据,利用正则表达式过滤掉长度大于三个词的代码片段,最后经过预处理的问题信息用于构造词语-索引对应的词典,以将原始数据转化成固定长度的序列,即词的索引的序列;在步骤2的词义表示学习中,利用使用Skip-gram模型来训练词向量,该模型本质上是一个三层的神经网络,即输入层、隐藏层和输出层;首先,对于独热表示的输入xk,有相邻的词语y1,y2,...,yM,隐藏层与输入层之间的权重矩阵为W,所述xk的向量表示为ek=Wkxk,θ表示中间的参数,在训练时使用最大似然准则,即最大化公式所述N,M为正整数,使用softmax函数来计算所述最大化公式中的条件概率,D表示训练样本的词汇表,在训练结束后,便可以得到每个词的向量表示,用于进一步地语义提取;在步骤3的短语和句子语义学习中,首先将句子转化成语义矩阵,对于句子中的每个词,抽取对应的词向量,并将这些向量进行拼接,形成类似于图像处理中的图片格式,拼接的公式为其中L为正整数,表示问题的长度,Q1:k表示用前k个词组成该矩阵;并将上文的文档矩阵转化成特征映射,映射方式为:ci=σ(f·Qi:i+s-1+b),所述映射方式中i和s表示短语起始位置以及短语长度,所述f为短语级别的语义特征提取部件f,所述Qi:i+s-1是ei到ei+s-1的合并,所述b是偏置,所述σ是激活函数,对于多个特征提取部件提取到的特征映射c=[c1,c2,...,ci+s-1],添加池化提取特征语义空间中的最具代表性的向量,得到新的特征向量并建立起与输出之间的非线性映射ti,所建立的方式为:
所述是该层与输出层之间的权重,最终的输出层用于获取每个标签的概率,取值为0到1,获取的方式为:
在训练时,度量训练的损失值ε的方式为:
所述y是问题对应的真实的标签集合,取值为0或1,所述N为训练样本数目。
2.如权利要求1所述的方法,其特征在于,还包括,利用学习的方式训练出对应于两种语义的权重,以此进行累加,学习的过程为:首先获取训练损失其中是输入αi和输入βi的结合,即所述w和v为权重,获取权重w和v的偏导数,得到:
之后在遍历训练数据时可以逐步更新两个权重,所述两个权重最终用于预测新问题所对应的标签集合,即经过模型获得两个语义向量αn和βn,从而得到输出γ=w*αn+v*βn,对γ进行按概率值排序,最终推荐出概率最大的K个标签,K为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711042537.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:媒体干预下三分意见群体网络舆情传播模型
- 下一篇:一种餐厅用智能点菜系统