[发明专利]一种软件问答社区中的技术标签推荐方法有效

申请号：	201711042537.4	申请日：	2017-10-30
公开（公告）号：	CN107798624B	公开（公告）日：	2021-09-28
发明（设计）人：	孙海龙;刘旭东;张建;田言飞	申请（专利权）人：	北京航空航天大学
主分类号：	G06Q50/00	分类号：	G06Q50/00;G06F16/955;G06F40/30;G06F40/289;G06N3/04
代理公司：	北京中创阳光知识产权代理有限责任公司 11003	代理人：	尹振启
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种软件问答社区中的技术标签推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种软件问答社区中的技术标签推荐方法，其特征在于，包括：步骤1，预处理；步骤2，词义表示学习；步骤3，短语以及句子语义学习；步骤4，语义融合；在预处理前为训练阶段，所述训练阶段用于构造词典并保存模型的结构与权重；在预处理后为部署阶段，所述部署阶段则是对于新的问题，在转化成索引序列后，加载保存的模型以预测并推荐标签；在所述步骤1的预处理中，首先在获取源数据后，将其中的问题与标签数据提取出来，形成供训练的问题-标签对，对于每个问题，去除其中的标点符号与HTML标签，并对含有标点的技术关键词作转换处理，然后对于问题中的代码数据，利用正则表达式过滤掉长度大于三个词的代码片段，最后经过预处理的问题信息用于构造词语-索引对应的词典，以将原始数据转化成固定长度的序列，即词的索引的序列；在步骤2的词义表示学习中，利用使用Skip-gram模型来训练词向量，该模型本质上是一个三层的神经网络，即输入层、隐藏层和输出层；首先，对于独热表示的输入x_k，有相邻的词语y₁，y₂，...，y_M，隐藏层与输入层之间的权重矩阵为W，所述x_k的向量表示为e_k＝W_kx_k，θ表示中间的参数，在训练时使用最大似然准则，即最大化公式所述N，M为正整数，使用softmax函数来计算所述最大化公式中的条件概率，D表示训练样本的词汇表，在训练结束后，便可以得到每个词的向量表示，用于进一步地语义提取；在步骤3的短语和句子语义学习中，首先将句子转化成语义矩阵，对于句子中的每个词，抽取对应的词向量，并将这些向量进行拼接，形成类似于图像处理中的图片格式，拼接的公式为其中L为正整数，表示问题的长度，Q_1：k表示用前k个词组成该矩阵；并将上文的文档矩阵转化成特征映射，映射方式为：c_i＝σ(f·Q_i：i+s-1+b)，所述映射方式中i和s表示短语起始位置以及短语长度，所述f为短语级别的语义特征提取部件f，所述Q_i：i+s-1是e_i到e_i+s-1的合并，所述b是偏置，所述σ是激活函数，对于多个特征提取部件提取到的特征映射c＝[c₁，c₂，...，c_i+s-1]，添加池化提取特征语义空间中的最具代表性的向量，得到新的特征向量并建立起与输出之间的非线性映射t_i，所建立的方式为：