[发明专利]文本添加标点的方法、装置、介质及电子设备在审
申请号: | 202011344671.1 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112464642A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 颜泽龙;王健宗;吴天博;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 孙强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 添加 标点 方法 装置 介质 电子设备 | ||
本申请提供了一种文本添加标点方法、装置、介质及电子设备。该方法包括:获取待添加文本,将待添加文本进行分词得到多个词语,获取多个词语中各个词语之间的关系,得到各个词语的依赖词及各个词语与其依赖词之间的关系,基于各个词语、各个词语的依赖词及各个词语与其依赖词之间的关系,确定各个词语的关系向量,获取多个词语的关系向量之间的关系,基于关系向量之间的关系,在多个词语之间添加标点,考虑到了待添加文本中词与词之间的关系,并且考虑到了待添加文本中词与文本之间的关系,能够在一定程度上提高标点添加的准确性。
技术领域
本申请涉及人工智能领域,特别涉及一种文本添加标点的方法、装置、介质及电子设备。
背景技术
随着人工智能的不断发展,各种深度学习营运而生。在当下,无论是语音识别生成的文本,还是各种社交网络语料,都是不带任何标点符号的文本。由于缺乏必要的句子边界和标点信息,文本的可读性较低,对下游的一些自然语言处理任务,如意图识别、命名实体识别等有一定的影响。现有的标点添加方法需要人为构建特征作为输入,没有考虑到待添加文本自身的特征,添加的标点不够准确。
发明内容
本申请旨在提供一种文本添加标点的方法、装置、介质及电子设备,其能够在一定程度上提高标点添加的准确性。
根据本申请实施例的一个方面,提供了一种文本添加标点方法包括:获取待添加文本,将所述待添加文本进行分词得到多个词语;获取所述多个词语中各个词语之间的关系,得到各个词语的依赖词及所述各个词语与其依赖词之间的关系;基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系,确定所述各个词语的关系向量;获取所述多个词语的关系向量之间的关系;基于所述关系向量之间的关系,在所述多个词语之间添加标点。
根据本申请实施例的一个方面,提供了一种文本添加标点装置,包括:获取模块,配置为获取待添加文本,将所述待添加文本进行分词得到多个词语;获取所述多个词语中各个词语之间的关系,得到各个词语的依赖词及所述各个词语与其依赖词之间的关系;确定模块,配置为基于所述各个词语、所述各个词语的依赖词及所述各个词语与其依赖词之间的关系,确定所述各个词语的关系向量;添加模块,配置为获取所述多个词语的关系向量之间的关系,基于所述关系向量之间的关系,在所述多个词语之间添加标点。
在本申请的一些实施例中,基于前述方案,所述获取模块配置为:将所述待添加文本按照文本顺序进行分词,得到第一分词结果;将所述待添加文本按照文本倒序进行分词,得到第二分词结果;获取所述第一分词结果与所述第二分词结果之间的差异,将所述差异对应的待添加文本从中间到两边进行分词,得到差异结果;将所述第一分词结果中与所述第二分词结果之间的差异替换为所述差异结果,将替换后的第一分词结果作为所述多个词语。
在本申请的一些实施例中,基于前述方案,所述获取模块配置为:获取所述各个词语的词性和位置;根据所述各个词语的词性和位置,确定所述各个词语之间的关系。
在本申请的一些实施例中,基于前述方案,所述确定模块配置为:获取基于所述各个词语得到的第一向量;获取基于所述各个词语的依赖词得到的第二向量;获取基于所述各个词语与其依赖词之间的关系得到的第三向量;将所述第一向量、所述第二向量和所述第三向量进行组合,得到所述各个词语对应的关系向量。
在本申请的一些实施例中,基于前述方案,所述确定模块配置为:将所述各个词语进行编码得到第一序列;将所述各个词语的依赖词进行编码得到第二序列;将所述各个词语与其依赖词之间的关系进行编码得到第三序列;对所述第一序列、所述第二序列和所述第三序列进行截断或补零,将截断或补零后的第一序列映射为所述第一向量,将截断或补零后的第二序列映射为所述第二向量,将截断或补零后的第三序列映射为所述第三向量。
在本申请的一些实施例中,基于前述方案,所述添加模块配置为:将所述所述多个词语的关系向量输入预训练的注意力模型,得到所述多个词语的关系向量之间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011344671.1/2.html,转载请声明来源钻瓜专利网。