[发明专利]语料自动化获取方法、装置、计算机设备及存储介质有效
申请号: | 202110879937.0 | 申请日: | 2021-08-02 |
公开(公告)号: | CN113342942B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 袁雅云;张莉;任杰;吴志成 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06Q10/10 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 自动化 获取 方法 装置 计算机 设备 存储 介质 | ||
1.一种语料自动化获取方法,其特征在于,包括:
获取语料库;其中,所述语料库中包括多篇文档;
解析并获取文档的词频矩阵,对词频矩阵中的每一个元素矩阵进行随机主题编号,得到每一元素矩阵对应的主题编号;将文档中每一元素矩阵对应的主题编号作为待训练LDA模型的输入值,将文档的主题概率分布结果作为待训练LDA模型的输出值,计算得到待训练LDA模型的吉布斯采样模型及狄利克雷参数估计值,将所述吉布斯采样模型及狄利克雷参数估计值作为LDA模型的模型参数;其中,所述模型参数用于在采样过程中估出文档的主题概率分布结果,并根据所述主题概率分布结果中的高频主题进行语料推荐;
接收第一用户端上传的对象清单,获取与对象清单中每一对象对应的描述文本数据;其中,每一对象的描述文本数据至少包括对象描述文本和对象画像标签;
解析并获取与每一对象的描述文本数据相应的描述词频矩阵,将各描述词频矩阵输入至所述LDA模型进行运算,得到与描述文本数据对应的预测主题概率分布结果;
根据与描述文本数据对应的预测主题概率分布结果,获取与描述文本数据分别对应的预测主题;以及
在所述语料库中获取具有所述预测主题的语料,组成与预测主题对应的第一目标语料子集,将第一目标语料子集发送至第一用户端;
其中,当接收到面试官与每一对象之间的面试过程所有数据,进行数据类型识别及文本转化处理,得到与每一对象对应的描述文本数据。
2.根据权利要求1所述的语料自动化获取方法,其特征在于,所述在所述语料库中获取具有所述预测主题的语料,组成与预测主题对应的第一目标语料子集,将第一目标语料子集发送至第一用户端之后,还包括:
若接收到第二用户端上传的学习需求数据,获取所述学习需求数据相应的需求词频矩阵,将需求词频矩阵输入至所述LDA模型进行运算,得到与所述需求词频矩阵对应的需求主题概率分布结果;
根据所述需求主题概率分布结果中的最大概率值,获取与所述需求主题概率分布结果的需求预测主题。
3.根据权利要求1所述的语料自动化获取方法,其特征在于,所述解析并获取文档的词频矩阵,包括:
将每一文档分别依次进行分词,得到与每一文档分别对应的关键词集;
获取每一关键词集中每一关键词对应的词语ID和词频,由每一关键词的词语ID和词频组成每一关键词的矩阵元素,由每一关键词的矩阵元素组成对应关键词集的词频矩阵。
4.根据权利要求1所述的语料自动化获取方法,其特征在于,所述接收第一用户端上传的对象清单,获取与对象清单中每一对象对应的描述文本数据之前,还包括:
若检测到用户端上传的对象初始沟通数据,获取所述对象初始沟通数据中包括的数据类型;其中,所述数据类型包括图片数据、语音数据、文本数据、视频数据中的一种或多种组合;
若所述数据类型是语音数据,调用预先存储的语音识别模型,通过语音识别模型获取与所述初始沟通数据对应的第一识别文本数据;
若所述数据类型是图片数据,调用预先存储的图像识别模型,通过图像识别模型获取与所述初始沟通数据对应的第二识别文本数据;
若所述数据类型是文本数据,将所述对象初始沟通数据作为对应的第三识别文本数据;
若所述数据类型是视频数据,获取并分离得到对象初始沟通数据中的音频数据,调用预先存储的语音识别模型,通过语音识别模型获取与所述初始沟通数据对应的第四识别文本数据;
将所述第一识别文本数据、或第二识别文本数据、或第三识别文本数据、或第四识别文本数据依次经过分词、关键词抽取和用户画像标签转化,得到与所述对象初始沟通数据对应的描述文本数据。
5.根据权利要求1所述的语料自动化获取方法,其特征在于,所述解析并获取与每一对象的描述文本数据相应的描述词频矩阵,包括:
获取所述描述文本数据中每一标签关键词对应的词语ID和词频,由每一标签关键词的词语ID和词频组成每一标签关键词的标签矩阵元素,由每一标签关键词的标签矩阵元素组成对应的描述词频矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110879937.0/1.html,转载请声明来源钻瓜专利网。