[发明专利]基于多个机器学习模型的自然语言处理方法、装置和设备有效

申请号：	202011182212.8	申请日：	2020-10-29
公开（公告）号：	CN112287662B	公开（公告）日：	2023-10-20
发明（设计）人：	骆加维;吴信朝;周宸;周宝;陈远旭	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06N20/00
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉;宋庆洪
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习模型自然语言处理方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能领域，揭示了一种基于多个机器学习模型的自然语言处理方法、装置和设备，其中方法包括：将待识别的文本数据输入到多个不同的词向量训练机器学习模型，得到基于每个词的多个相互独立的词向量训练结果；基于每个词的多个训练结果，计算每个词的词向量的中心向量和偏正向量；根据每个词对应的所述中心向量和所述偏正向量，计算得到每个词的纠偏词向量；基于每个词的纠偏词向量进行自然语言处理任务。本申请的基于多个机器学习模型的自然语言处理方法、装置和设备，通过定义中心向量和偏正向量，得到偏差纠正的纠偏词向量，然后利用所述纠偏词向量进行NLP任务，可以降低机器学习模型发生偏差决策的概率，减少AI决策偏见。

技术领域

本申请涉及人工智能领域，特别是涉及到一种基于多个机器学习模型的自然语言处理方法、装置和计算机设备。

背景技术

人工智能的一个伟大愿景是创造一个没有偏见的世界。最近研究表明计算机也可以产生偏见，尤其是当计算机向人类学习时。当算法通过分析处理大量人类书写的文本来学习词句的含义时，它们也会获得类似于我们的偏见那样的刻板印象。

关于文本类的人工智能决策偏见可以通过词向量的联想测试(WEAT)直观地发现。该测试于2017年被提出，测试结果指出词向量不仅隐含刻板印象，而且蕴含其他知识，诸如鲜花令人产生发自内心的愉悦感或者职业的性别分布情况。这些结果支持了语言学中的分布式假设，即词汇的统计语境捕捉到了我们表达的语义。如果机器学习技术被用到简历筛选过程中，那么它将会引入文化的刻板印象，随之可能会导致带有偏见的结果。因此我们需要对模型的训练数据进行微调获得更加公平的数据。

发明内容

本申请的主要目的为提供一种基于多个机器学习模型的自然语言处理方法、装置和计算机设备，旨在解决机器学习模型生成的词向量可能出现决策偏差的问题。

为了实现上述发明目的，本申请提出一种基于多个机器学习模型的自然语言处理方法，包括：

将待识别的文本数据输入到多个不同的词向量训练机器学习模型，得到基于每个词的多个相互独立的词向量训练结果；

基于每个词的多个训练结果，计算每个词的词向量的中心向量和偏正向量；

根据每个词对应的所述中心向量和所述偏正向量，计算得到每个词的纠偏词向量；

基于每个词的纠偏词向量进行自然语言处理任务。

进一步地，所述多个不同的词向量训练机器学习模型的数量为2个，所述基于每个词的多个训练结果，计算每个词的词向量的中心向量和偏正向量的步骤包括：

计算2个所述词向量训练模型的输出的同一个词的词向量每一个维度的偏差量bias，计算公式为bias(a)＝(x_a-y_a)，其中1≤a≤n，n为词向量的维度，bias(a)为第a个维度的偏差量，x_a、y_a分别表示2个词向量第a个维度的特征值；

获取不同维度的偏差量的偏差序列的中位数m；

利用公式计算出平均偏正量debias；

利用公式得到所述中心向量V_Centor，其中V_Centor(a)表示所述中心向量第a个维度的特征值；