[发明专利]一种社区问答平台回答排序方法有效

专利信息
申请号: 201810186972.2 申请日: 2018-03-07
公开(公告)号: CN108304587B 公开(公告)日: 2020-10-27
发明(设计)人: 陈恩红;刘淇;金斌斌;赵洪科;童世炜 申请(专利权)人: 中国科学技术大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/9535;G06N20/00;G06N3/04
代理公司: 北京凯特来知识产权代理有限公司 11260 代理人: 郑立明;郑哲
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 社区 问答 平台 回答 排序 方法
【权利要求书】:

1.一种社区问答平台回答排序方法,其特征在于,包括:

从社区问答平台网站上爬取一定量的数据,对于一个问题爬取的数据包括:问题的文本内容、问题所属的主题、问题对应的一系列回答的文本内容、每个回答的时间戳以及每一回答的点赞数;

基于爬取的各问题的文本内容、问题所属的主题、问题对应的一系列回答的文本内容构建增强型注意力机制循环神经网络模型,再结合每个回答的时间戳进行相关回答的质量的排序得分;结合排序得分与预设的时间敏感的目标函数并且使用问题依赖的成对训练策略对增强型注意力机制循环神经网络模型进行训练;

对于一个新问题及其一系列的回答,利用新问题的文本内容、新问题所属的主题、新问题对应的一系列回答的文本内容以及每个回答的时间戳,来构建一系列的实例并依次输入至训练好的增强型注意力机制循环神经网络模型中,从而得到一系列的排序得分,根据排序得分的大小,以从前到后的方式对相应回答进行排序;

其中,构建增强型注意力机制循环神经网络模型包括四个部分:输入层、长短期记忆网络层、注意力层和评估层;

输入层:对于一个回答,认为该回答由多个句子构成,每个句子由多个词组成;对于对应的问题,认为该问题由一个句子构成,该句子由多个词组成;对于问题所属的主题,认为主题由多个词构成;使用Word Embedding技术,将文本中出现的词都用一个固定长度的向量表示,于是,问题的文本内容、回答的文本内容和主题所出现的每个词都将被替换成一个K维的向量;问题的文本内容的向量序列TQ由N个向量组成,记为TQ={x1,x2,...,xN},xp∈RK,p=1,2,...,N;一个回答的文本内容的向量序列TA由M个句子构成,每个句子由D个向量组成,则TA={s1,s2,...,sM},sm={ym1,ym2,...,ymD},ymd∈RK,m=1,2...,M,d=1,2,...,D;主题TC由C个向量组成,记为TC={z1,z2,...,zC},zq∈RK,q=1,2,...,C;

长短期记忆网络层:对于问题的向量序列TQ与一个回答向量序列TA使用两个长短期记忆网络LSTM_Q与LSTM_A分别建模问题和回答中的的向量序列,并且将LSTM_Q中最后一个细胞向量用于LSTM_A中细胞向量的初始化;于是得到问题和回答经过长短期记忆网络后的向量序列,分别为MQ和MA,向量序列MQ和MA中每个向量都包含了上下文的语义信息;

注意力层:利用句级的注意力机制将问题的向量序列MQ与一个回答的向量序列MA进行交互得到问题的向量FQ1和一个回答的向量FA1;或者,利用词级注意力机制,将主题从向量序列TC变成一个向量FC;然后将主题的向量FC、问题的向量序列MQ和一个回答的向量序列MA进行融合最终得到问题的向量FQ2和一个回答的向量FA2

评估层:结合问题的向量和一个回答的向量计算回答深层语言匹配得分,再结合回答的时间戳将时间效应也纳入考量范围从而得到排序得分。

2.根据权利要求1所述的一种社区问答平台回答排序方法,其特征在于,构建增强型注意力机制循环神经网络模型之前还包括对爬取的数据进行预处理的步骤,该步骤包括:

去除文本内容中的词数小于设定数量的问题和回答;

去除点赞数量在一段时间内波段超过预设范围的问题和回答;

对剩余问题和回答的文本内容进行分词处理,则对于每一问题的数据变为:问题的文本内容的分词结果、问题所属的主题、每一回答的内容的分词结果、每一回答的时间戳、以及每一回答的点赞数;其中每一回答的点赞数用于模型好坏的验证,其余信息用作模型的输入,用于之后每个回答质量的评估。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810186972.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top