[发明专利]语料自动化获取方法、装置、计算机设备及存储介质有效
申请号: | 202110879937.0 | 申请日: | 2021-08-02 |
公开(公告)号: | CN113342942B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 袁雅云;张莉;任杰;吴志成 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06Q10/10 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 自动化 获取 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了语料自动化获取方法、装置、计算机设备及存储介质,涉及人工智能技术,先根据语料库中每一预先标注了主题概率分布结果的文档对LDA模型进行训练得到LDA模型,之后该LDA模型用于根据所输入的对象的描述文本数据运算得到预测主题概率分布结果,最后根据预测主题概率分布结果在与语料库中筛选相同主题的语料组成第一目标语料子集并发送至用户端。通过LDA模型实现了对面试过程中所需语料的预测,并基于预测的预测主题自动筛选目标语料并推送,不仅提高了目标文本的获取效率,而且更及时的推送目标文本提高了实时性。
技术领域
本发明涉及人工智能的语音语义技术领域,尤其涉及一种语料自动化获取方法、装置、计算机设备及存储介质。
背景技术
目前,企业面试场景中,面试官都是基于一套固定的面试流程与面试者进行沟通或测试后,得到针对面试者的评估结果。这一过程中,面试官使用的话术和沟通素材可以是面试官所使用用户端上预先存储的文本,也可以是打印材料中提供的文本,通过这一方式用户需要预先操作用户端编辑文本或者是从数据库大量文本库中选定文本,之后再根据实际使用需求确定是否打印文本,这就导致文本的整理过程并不是用户端自动接收系统发送的文本,而是人为选定并存储的,使得文本的获取效率低下,而且实时性较差。
发明内容
本发明实施例提供了一种语料自动化获取方法、装置、计算机设备及存储介质,旨在解决现有技术中现场面试场景下面试官使用的话术和沟通素材可以是面试官所使用用户端上预先存储的文本,也可以是打印材料中提供的文本,文本的整理过程并不是用户端自动接收系统发送的文本,存在文本的获取效率低下,而且实时性较差的问题。
第一方面,本发明实施例提供了一种语料自动化获取方法,其包括:
获取语料库;其中,所述语料库中包括多篇文档;
解析并获取文档的词频矩阵,对词频矩阵中的每一个元素矩阵进行随机主题编号,得到每一元素矩阵对应的主题编号;将文档中每一元素矩阵对应的主题编号作为待训练LDA模型的输入值,将文档的主题概率分布结果作为待训练LDA模型的输出值,计算得到待训练LDA模型的吉布斯采样模型及狄利克雷参数估计值,将所述吉布斯采样模型及狄利克雷参数估计值作为LDA模型的模型参数;其中,所述模型参数用于在采样过程中估出文档的主题概率分布结果,并根据所述主题概率分布结果中的高频主题进行语料推荐;
接收第一用户端上传的对象清单,获取与对象清单中每一对象对应的描述文本数据;其中,每一对象的描述文本数据至少包括对象描述文本和对象画像标签;
解析并获取与每一对象的描述文本数据相应的描述词频矩阵,将各描述词频矩阵输入至所述LDA模型进行运算,得到与描述文本数据对应的预测主题概率分布结果;
根据与描述文本数据对应的预测主题概率分布结果,获取与描述文本数据分别对应的预测主题;以及
在所述语料库中获取具有所述预测主题的语料,组成与预测主题对应的第一目标语料子集,将第一目标语料子集发送至第一用户端。
第二方面,本发明实施例提供了一种语料自动化获取装置,其包括:
语料库定位单元,用于获取语料库;其中,所述语料库中包括多篇文档;
模型训练单元,用于解析并获取文档的词频矩阵,对词频矩阵中的每一个元素矩阵进行随机主题编号,得到每一元素矩阵对应的主题编号;将文档中每一元素矩阵对应的主题编号作为待训练LDA模型的输入值,将文档的主题概率分布结果作为待训练LDA模型的输出值,计算得到待训练LDA模型的吉布斯采样模型及狄利克雷参数估计值,将所述吉布斯采样模型及狄利克雷参数估计值作为LDA模型的模型参数;其中,所述模型参数用于在采样过程中估出文档的主题概率分布结果,并根据所述主题概率分布结果中的高频主题进行语料推荐;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110879937.0/2.html,转载请声明来源钻瓜专利网。