[发明专利]文档的向量化表示方法、装置和计算机设备有效
申请号: | 201911334964.9 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111079442B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 庞超;王硕寰;孙宇;李芝 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 量化 表示 方法 装置 计算机 设备 | ||
1.一种文档的向量化表示方法,其特征在于,所述方法包括以下步骤:
对文档切分得到多个文本片段;
采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;
针对每一个文本片段的片段向量,在相应片段向量中增加位置元素,得到各文本片段的输入向量;其中,所述位置元素,用于指示相应文本片段在所述文档中的位置;
将各文本片段的输入向量,以及取值为初始值的参考向量,输入第二级语义模型,以使所述第二级语义模型根据各输入向量,调整所述参考向量的取值;
将取值调整后的参考向量作为所述文档向量;
其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系。
2.根据权利要求1所述的向量化表示方法,其特征在于,所述采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量,包括:
针对每一个文本片段在末尾加入结束字符后,输入第一级语义模型,得到所述第一级语义模型输出的相应文本片段中各字符的向量化表示;
将每一个文本片段中结束字符的向量化表示作为相应文本片段的片段向量。
3.根据权利要求2所述的向量化表示方法,其特征在于,所述对文档切分得到多个文本片段之前,还包括:
采用第一训练任务,对所述第一级语义模型和所述第二级语义模型训练;
其中,所述第一训练任务包括:
获取任一文本片段中一个字符的向量化表示;
根据所述一个字符的向量化表示和所述文档向量,预测得到预测字符;
根据所述预测字符和所述一个字符之间的差异,调整所述第一级语义模型和所述第二级语义模型的参数。
4.根据权利要求1所述的向量化表示方法,其特征在于,所述对文档切分得到多个文本片段之前,还包括:
采用第二训练任务,对所述第一级语义模型和所述第二级语义模型训练;
其中,所述第二训练任务包括:
获取训练文档的文档向量;其中,所述训练文档是将训练正文与训练标题拼接得到的;
根据所述文档向量,预测训练样本中训练文档与训练标题语义是否匹配;
根据预测匹配结果与实际匹配结果之间的差异,调整所述第一级语义模型和所述第二级语义模型的参数。
5.根据权利要求4所述的向量化表示方法,其特征在于,所述训练文档为多个,包括正例和反例;
其中,作为所述正例的训练文档,是将训练正文与对应的训练标题拼接得到的;
作为反例的训练文档,是将训练正文与其他训练正文对应的训练标题拼接得到的。
6.根据权利要求1-5任一项所述的向量化表示方法,其特征在于,所述第一级语义模型为多个,每一个第一级语义模型用于将对应的一个文本片段向量化表示为相应的片段向量;
多个所述第一级语义模型之间共享参数。
7.一种文档的向量化表示装置,其特征在于,所述装置包括:
切分模块,用于对文档切分得到多个文本片段;
表示模块,用于采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;
识别模块,用于采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示文档主题的文档向量;其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系;
所述识别模块,具体用于:
针对每一个文本片段的片段向量,在相应片段向量中增加位置元素,得到各文本片段的输入向量;其中,所述位置元素,用于指示相应文本片段在所述文档中的位置;
将各文本片段的输入向量,以及取值为初始值的参考向量,输入第二级语义模型,以使所述第二级语义模型根据各输入向量,调整所述参考向量的取值;
将取值调整后的参考向量作为所述文档向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911334964.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种锂电池电极材料加工用模切设备
- 下一篇:一种呼吸导气综合电缆及生产方法