[发明专利]篇章对齐方法、装置、计算机设备和介质在审
申请号: | 202111411704.4 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114564932A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 施杨斌;葛鑫 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06K9/62 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 李秀霞 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 篇章 对齐 方法 装置 计算机 设备 介质 | ||
1.一种篇章对齐方法,用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐,第一文本包括所述第二篇章的多个预对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章,所述方法包括:
确定所述第一篇章和所述第二篇章各自篇章向量的余弦相似度,得到目标相似度;
确定所述第一篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第一相似度;
确定所述第二篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第二相似度;
根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距,确定所述第一篇章和所述第二篇章是否对齐。
2.根据权利要求1所述的篇章对齐方法,其中,根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距,确定所述第一篇章和所述第二篇章是否对齐,包括:
根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐;
其中,所述第相似一信息为所述目标相似度和相似度平均值的商,所述相似度平均值为所述多个第一相似度和所述多个第二相似度的平均值。
3.根据权利要求2所述的篇章对齐方法,其中,所述第一文本和所述第二文本包括的各篇章皆为一个网页中的文本内容,根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐,包括:
根据所述第一相似信息和第二相似信息的加权和确定所述第一篇章和所述第二篇章是否对齐;
其中,所述第二相似信息为确定第一文档信息和第二文档信息是否相似的信息,所述第一文档信息为所述第一篇章所对应网页的元信息,所述第二文档信息为所述第二篇章所对应网页的元信息。
4.根据权利要求1所述的篇章对齐方法,还包括确定所述第一篇章和所述第二篇章各自预对齐篇章的篇章向量,且确定步骤如下:
获取当前文本中各篇章的篇章向量,得到多个候选篇章向量;
获取当前篇章的篇章向量,得到一个当前篇章向量;
在所述多个候选篇章向量中检索出与所述当前篇章向量较接近的预设数量个候选篇章向量,并将检索出的各候选篇章向量确定为所述当前篇章的预对齐篇章的篇章向量;
其中,所述当前篇章为所述第一篇章和所述第二篇章中的一个,所述当前篇章为所述第一篇章的情况下所述当前文本为所述第二文本,所述当前篇章为所述第二篇章的情况下所述当前文本为所述第一文本。
5.根据权利要求4所述的篇章对齐方法,其中,获取当前文本中各篇章的篇章向量,包括:获取所述当前文本所包括篇章中各个句子在多语言向量空间的句子向量,对该篇章得到的多个句子向量进行各维度的池化操作,以得到该篇章的篇章向量。
6.根据权利要求5所述的篇章对齐方法,其中,获取当前文本中各篇章的篇章向量,还包括:
通过向量调节模型对池化操作得到的向量进行以下任一种调节:增大向量维度、减小向量维度、调节向量元素取值;
以及,将调节得到的向量确定为该篇章的篇章向量。
7.根据权利要求6所述的篇章对齐方法,其中,所述向量调节模型通过以下步骤预先训练得到:
构造由篇章向量样本构成的样本集,所述篇章向量样本关联有篇章期望向量;
将所述样本集中每个篇章向量样本输入所述向量调节模型,由所述向量调节模型得到每个篇章向量样本的篇章预测向量;
将所述样本集中每个篇章向量样本的所述篇章期望向量和所述篇章预测向量进行比较,如果一致的比例未超过预定比例则调整所述向量调节模型的权重,直到一致的比例超过所述预定比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111411704.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像传感器和包括该图像传感器的图像感测系统
- 下一篇:用于电动机的壳体的罩壳