[发明专利]基于人工智能自动识别社区问答论坛中的正确回答的方法在审
申请号: | 201911058818.8 | 申请日: | 2019-11-01 |
公开(公告)号: | CN110825930A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 孙海峰;王晶;戚琦;王敬宇;郭令奇;马兵;杜纯宁 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/906;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 自动识别 社区 问答 论坛 中的 正确 回答 方法 | ||
1.基于人工智能自动识别社区问答论坛中的正确回答的方法,其特征在于:所述方法包括下列操作步骤:
(1)数据集建立的过程,具体内容是:先用爬虫软件爬取大量的问答贴内容;在爬取后,将所述问答贴内容以提问和单个回答组成的文本对的形式进行数据存储;然后对前述存储的数据进行数据清洗,再进行人工标注,建立数据集;
(2)使用深度学习的方法抽取文本对的信息特征,具体内容是:将步骤(1)中获得的数据集作为训练集训练深度学习模型,然后用所述的深度学习模型提取文本对的语气,关键词,语法结构等特征;
(3)使用规则提取提问和回答的其他特征,具体内容是:计算提问与回答发布的天数差、利用TF-IDF计算单个回答与当前提问的相似程度、利用TF-IDF计算单个回答与当前提问的其他回答的相似程度等特征,将这些特征与步骤(2)中得到的特征拼接成特征向量;
(4)训练机器学习分类模型并预测新帖,具体内容是:将步骤(3)获得的特征向量对机器学习分类模型进行训练;训练完成后对新帖进行预测,先用爬虫爬取新帖的全部内容并存储,之后按照步骤(2)和步骤(3)抽取特征组成向量再用所述的机器学习分类模型进行预测,选取概率最高的前n个回答,n为自然数,n不大于回答的总个数。
2.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法,其特征在于:所述步骤(1)的具体内容包括如下操作步骤:
(11)使用爬虫爬取网站的信息,将帖子提问,回答,提问用户,回答用户,发帖时间等信息存储,也可以从其他类似数据集中获得数据,一并进行整理;
(12)遍历并用“NULL”填充为空的属性,统一文本的最大长度,清洗干扰数据;
(13)将上一步骤中获得的数据以问题和单个回答以文本对的形式存储,进行人工标注。
3.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法,其特征在于:所述步骤(2)的具体内容包括如下操作步骤:
(21)使用BERT模型并根据步骤(1)中得到的数据进行微调训练;BERT模型将输入的文本内容进行字节编码、片段编码和位置编码;在微调训练结束后,将微调后的模型存储;
(22)将步骤(21)中得到的三个编码层的向量相加后进行分类,获得单个提问和单个回答的分类结果,所述分类结果中含有BERT模型学习到文本中的语气,关键词等文本特征。
4.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法,其特征在于:所述步骤(3)的具体内容包括如下操作步骤:
(31)在所述数据集中读取当前提问和其回答的时间,计算天数差,即天数差=提问的时间-回答提问的时间,使用TF-IDF词频-逆文件频率算法来计算单个回答和提问的相似度;
(32)根据步骤(2)中所得到对所有回答的分类结果,计算每个回答与它当前提问的概率最高的回答之间的相似度,具体方法是使用TF-IDF词频-逆文件频率算法来计算所述相似度,所述概率最高的回答即优秀回答;
(33)将前述获得的天数差特征、相似度特征和步骤(2)中获得的特征值拼接成特征向量,所述特征向量的格式为[BERT预测概率,当前回答和优秀回答的相似度,回答和提问的相似度,天数差]。
5.根据权利要求1所述的基于人工智能自动识别社区问答论坛中的正确回答的方法,其特征在于:所述步骤(4)的具体内容包括如下操作步骤:
(41)选取SVM模型作为机器学习分类模型,根据步骤(3)获得的特征向量对所述机器学习分类模型进行训练;
(42)获得目标帖的相关信息,包括但不限于提问内容、回答内容、发帖时间,按照步骤(1)的存储格式,将提问和单个回答以文本对的形式存储;
(43)根据上一步骤获得的文本数据,使用在步骤(2)中微调好的BERT模型对所述目标贴进行预测,再按照步骤(3)的方法计算天数差、相似度等特征之后组合成特征向量,特征向量格式与步骤(3)中组成的特征向量格式相同,特征向量的个数与回答个数相等;
(44)使用步骤(41)中训练好的机器学习分类模型对所述特征向量进行预测,输出前n个概率最高的回答供用户参考,n为自然数,n不大于回答的总个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911058818.8/1.html,转载请声明来源钻瓜专利网。