[发明专利]文本添加标点的方法、装置、介质及电子设备在审
申请号: | 202011344671.1 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112464642A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 颜泽龙;王健宗;吴天博;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 孙强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 添加 标点 方法 装置 介质 电子设备 | ||
1.一种文本添加标点的方法,其特征在于,包括:
获取待添加文本,将所述待添加文本进行分词得到多个词语;
获取所述多个词语中各个词语之间的关系,得到各个词语的依赖词及所述各个词语与其依赖词之间的关系;
基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系,确定所述各个词语的关系向量;
获取所述多个词语的关系向量之间的关系;
基于所述关系向量之间的关系,在所述多个词语之间添加标点。
2.根据权利要求1所述的文本添加标点的方法,其特征在于,所述将所述待添加文本进行分词得到多个词语,包括:
将所述待添加文本按照文本顺序进行分词,得到第一分词结果;
将所述待添加文本按照文本倒序进行分词,得到第二分词结果;
获取所述第一分词结果与所述第二分词结果之间的差异,将所述差异对应的待添加文本从中间到两边进行分词,得到差异结果;
将所述第一分词结果中与所述第二分词结果之间的差异替换为所述差异结果,将替换后的第一分词结果作为所述多个词语。
3.根据权利要求1所述的文本添加标点的方法,其特征在于,所述获取所述多个词语之间的关系,包括:
获取所述各个词语的词性和位置;
根据所述各个词语的词性和位置,确定所述各个词语之间的关系。
4.根据权利要求1所述的文本添加标点的方法,其特征在于,所述基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系,确定所述各个词语对应的关系向量,包括:
获取基于所述各个词语得到的第一向量;
获取基于所述各个词语的依赖词得到的第二向量;
获取基于所述各个词语与其依赖词之间的关系得到的第三向量;
将所述第一向量、所述第二向量和所述第三向量进行组合,得到所述各个词语对应的关系向量。
5.根据权利要求4所述的文本添加标点的方法,其特征在于,所述获取基于所述各个词语得到的第一向量;获取基于所述各个词语的依赖词得到的第二向量;获取基于所述各个词语与其依赖词之间的关系得到的第三向量,包括:
将所述各个词语进行编码得到第一序列;
将所述各个词语的依赖词进行编码得到第二序列;
将所述各个词语与其依赖词之间的关系进行编码得到第三序列;
对所述第一序列、所述第二序列和所述第三序列进行截断或补零,将截断或补零后的第一序列映射为所述第一向量,将截断或补零后的第二序列映射为所述第二向量,将截断或补零后的第三序列映射为所述第三向量。
6.根据权利要求1所述的文本添加标点的方法,其特征在于,所述获取所述多个词语的关系向量之间的关系,包括:
将所述所述多个词语的关系向量输入预训练的注意力模型,得到所述多个词语的关系向量之间的关系。
7.根据权利要求1所述的文本添加标点的方法,其特征在于,所述基于所述关系向量之间的关系,在所述多个词语之间添加标点,包括:
将标点添加在所述多个词语之间,以得到多种添加方式;
通过双向LSTM层对所述关系向量之间的关系进行特征提取;
基于所述特征,利用维特比算法计算各种添加方式的概率,基于所述多种方式中概率最大的添加方式在所述多个词语之间添加标点。
8.一种文本添加标点的装置,其特征在于,包括:
获取模块,配置为获取待添加文本,将所述待添加文本进行分词得到多个词语;获取所述多个词语中各个词语之间的关系,得到各个词语的依赖词及所述各个词语与其依赖词之间的关系;
确定模块,配置为基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系,确定所述各个词语的关系向量;
添加模块,配置为获取所述多个词语的关系向量之间的关系,基于所述关系向量之间的关系,在所述多个词语之间添加标点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011344671.1/1.html,转载请声明来源钻瓜专利网。