[发明专利]分词模型的训练方法、装置、系统和存储介质有效
| 申请号: | 201811123200.0 | 申请日: | 2018-09-26 |
| 公开(公告)号: | CN111046662B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 徐光伟;王潇斌;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 贺琳 |
| 地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分词 模型 训练 方法 装置 系统 存储 介质 | ||
1.一种分词模型的训练方法,包括:
获取标注数据集,所述标注数据集中包括具有分隔标识的训练文本;
获取搜索行为数据集,根据所述搜索行为数据集生成词频词典;
根据所述标注数据集对应的分词模型和所述标注数据集对应的分词模型参数,确定所述具有分隔标识的训练文本在不同切分情况下的分词结果;
结合所述词频词典对所述分词结果打分,确定所述分词结果的得分,将得分最高的分词结果作为所述具有分隔标识的训练文本的预测分词结果;
根据所述具有分隔标识的训练文本,确定所述训练文本的标注分词结果,利用所述预测分词结果和所述标注分词结果,构建所述标注数据集对应的分词模型的损失函数;
利用所述损失函数,调整所述标注数据集对应的分词模型参数,以利用所述调整后的分词模型参数,得到所述标注数据集对应训练后的分词模型;
利用词编码模块,确定所述具有分隔标识的训练文本在不同切分情况下的第一分词结果中分词的词向量,以及确定所述搜索训练文本在不同切分情况下的第二分词结果中分词的词向量;
利用词连接向量确定模块,根据所述第一分词结果中分词的词向量和所述第二分词结果中分词的词向量,确定所述第一分词结果中分词的连接特征向量和所述第二分词结果中分词的连接特征向量,其中,所述搜索行为数据集对应的分词模型和所述标注数据集对应的分词模型,共享词编码模块和词连接向量确定模块。
2.根据权利要求1所述的分词模型的训练方法,其中,所述结合所述词频词典对所述分词结果打分,确定所述分词结果的得分,包括:
根据所述分词结果中分词的词向量和参数向量,确定所述分词结果中分词的分值;
根据所述分词的词向量和所述分词的连接特征向量,确定所述分词结果中分词的连接分值;
查找所述词频词典,确定所述分词结果中分词的词频分值;
将所述分词结果中所述分词的分值、所述分词的连接分值和所述分词的词频分值的和,作为所述分词结果的得分。
3.根据权利要求2所述的分词模型的训练方法,其中,
所述分词的连接特征向量是根据长短时记忆模型,利用所述分词的词向量训练得到的向量。
4.根据权利要求3所述的分词模型的训练方法,其中,所述利用所述损失函数,调整所述标注数据集对应的分词模型参数,包括:
确定所述损失函数对应的梯度;
根据所述损失函数对应的梯度,调整所述标注数据集对应的分词模型参数。
5.根据权利要求1所述的分词模型的训练方法,其中,
所述搜索行为数据集包括:用户搜索过程中输入的搜索数据和点击的搜索结果的标题信息。
6.根据权利要求1所述的分词模型的训练方法,其中,所述利用所述损失函数,调整所述标注数据集对应的分词模型参数,以利用所述调整后的分词模型参数,得到所述标注数据集对应训练后的分词模型,包括:
利用所述预测分词结果和所述标注分词结果,确定所述标注数据集对应的训练后的分词模型的分词误差;
根据所述分词误差,构建所述标注数据集对应的分词模型的损失函数;
利用所述损失函数,调整所述标注数据集对应的分词模型参数;
当所述分词误差的变化量停止增长且小于设定阈值,或所述标注数据集对应的分词模型的训练次数达到最大训练次数时,得到所述标注数据集对应训练后的分词模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811123200.0/1.html,转载请声明来源钻瓜专利网。





