[发明专利]基于人工智能自动识别社区问答论坛中的正确回答的方法在审
申请号: | 201911058818.8 | 申请日: | 2019-11-01 |
公开(公告)号: | CN110825930A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 孙海峰;王晶;戚琦;王敬宇;郭令奇;马兵;杜纯宁 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/906;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 自动识别 社区 问答 论坛 中的 正确 回答 方法 | ||
基于人工智能自动识别社区问答论坛中的正确回答的方法,包括下列操作步骤:(1)数据集建立的过程;(2)使用深度学习的方法抽取文本对的信息特征;(3)使用规则提取提问和回答的其他特征,将这些特征与步骤(2)中得到的特征拼接成特征向量,特征向量的格式为[BERT预测概率,当前回答和优秀回答的相似度,回答和提问的相似度,天数差];(4)训练机器学习分类模型并预测新帖。本发明的方法能够快速、准确的判断出一个帖子下可能为正确答案的回答,省时省力。
技术领域
本发明涉及基于人工智能自动识别社区问答论坛中的正确回答的方法,属于自然语言处理技术领域,特别是属于基于人工智能的自然语言处理的论坛问答技术领域。
背景技术
随着众多社区论坛的出现,与之相关的任务在最近变得越来越重要。随着这些论坛每天涌入很多新问题,与这些新问题相关的留言大部分有一定的错误,对他人造成了一定的误导作用。这些错误的留言如果用人工鉴别的话,不光需要某些领域比较权威的专家,还费时费力。因此,如何快速有效的判别新问题下的答案是否对解决该问题有帮助,是解决论坛为解决问题不断增多的有效途径。
人工智能技术和自然语言处理技术在近几年获得很大的发展,如何利用人工智能技术和自然语言处理技术来实现对回答的好坏进行甄别成了亟需解决的一个技术难题。
发明内容
有鉴于此,本发明的目的是发明一种基于人工智能自动识别社区问答论坛中的正确回答的方法,实现对问答贴中的回答进行辨别,选择出优秀的答案留给他人参考。
为了达到上述目的,本发明提出了基于人工智能自动识别社区问答论坛中的正确回答的方法,所述方法包括下列操作步骤:
(1)数据集建立的过程,具体内容是:先用爬虫软件爬取大量的问答贴内容;在爬取后,将所述问答贴内容以提问和单个回答组成的文本对的形式进行数据存储;然后对前述存储的数据进行数据清洗,再进行人工标注,建立数据集;
(2)使用深度学习的方法抽取文本对的信息特征,具体内容是:将步骤(1)中获得的数据集作为训练集训练深度学习模型,然后用所述的深度学习模型提取文本对的语气,关键词,语法结构等特征;
(3)使用规则提取提问和回答的其他特征,具体内容是:计算提问与回答发布的天数差、利用TF-IDF计算单个回答与当前提问的相似程度、利用TF-IDF计算单个回答与当前提问的其他回答的相似程度等特征,将这些特征与步骤(2)中得到的特征拼接成特征向量;
(4)训练机器学习分类模型并预测新帖,具体内容是:将步骤(3)获得的特征向量对机器学习分类模型进行训练;训练完成后对新帖进行预测,先用爬虫爬取新帖的全部内容并存储,之后按照步骤(2)和步骤(3)抽取特征组成向量再用所述的机器学习分类模型进行预测,选取概率最高的前n个回答,n为自然数,n不大于回答的总个数。
所述步骤(1)的具体内容包括如下操作步骤:
(11)使用爬虫爬取网站的信息,将帖子提问,回答,提问用户,回答用户,发帖时间等信息存储,也可以从其他类似数据集中获得数据,一并进行整理;
(12)遍历并用“NULL”填充为空的属性,统一文本的最大长度,清洗干扰数据;
(13)将上一步骤中获得的数据以问题和单个回答以文本对的形式存储,进行人工标注。
所述步骤(2)的具体内容包括如下操作步骤:
(21)使用BERT模型并根据步骤(1)中得到的数据进行微调训练;BERT模型将输入的文本内容进行字节编码、片段编码和位置编码;在微调训练结束后,将微调后的模型存储。
(22)将步骤(21)中得到的三个编码层的向量相加后进行分类,获得单个提问和单个回答的分类结果,所述分类结果中含有BERT模型学习到文本中的语气,关键词等文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911058818.8/2.html,转载请声明来源钻瓜专利网。