[发明专利]一种对无标点文本添加标点符号的方法在审
申请号: | 201810528685.5 | 申请日: | 2018-05-29 |
公开(公告)号: | CN108932226A | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 杨燕;战蕾;贺樑 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种对无标点文本添加标点符号的方法,其包括:处理获得平行语料;通过神经网络框架训练平行语料,以得到符号添加模型;之后使用符号添加模型为待处理文本添加对应标点。通过本发明,可以简单方便地实现标点符号的添加,并提高标点符号的准确性和广泛适用性。 | ||
搜索关键词: | 标点符号 标点 符号添加 文本 语料 平行 神经网络 | ||
【主权项】:
1.一种对无标点文本添加标点符号的方法,其特征在于,该方法包括以下具体步骤:步骤1:自动化处理有标点的文本数据,获得平行语料,即带有标点的用于模型训练的源训练语料和用于检验效果的目标语料;步骤2:通过神经网络框架训练平行语料,得到符号添加模型;具体包括:A1:通过对源训练语料中词序列的文本进行词向量编码,以得到源训练语料的高纬度的向量化表示;A2:运用卷积神经网络CNN,对每一个中文字符进行编码,得到字符级的向量化表示,将其与高纬度的词向量结合,最终得到语料中的词的向量化表示;A3:将向量化表示的源训练语料作为输入,放入神经网络框架中,获取完整的源训练语料词序列的隐含状态序列;其中神经网络为双向的长短期记忆网络Bi‑LSTM,包括正向隐含状态序列与反向隐含状态序列,按位置拼接后得到完整的隐含状态序列;设置全连接层,将隐状态向量映射到k维,其中k为需要添加的标点符号种类;A4:将k维的向量输入到条件随机场CRF中,通过转移矩阵A得到无标点的文本中待加标点的位置的得分;A5:通过对无标点的文本中待加标点的位置的得分进行归一化即softmax处理,得到词序列对应标点符号的概率;A6:训练步骤1中平行语料得到符号添加模型;步骤3:利用步骤2所得模型添加无标点符号文本中各类标点符号对应的概率,选取最大概率作为最终预测结果,完成标点符号添加。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810528685.5/,转载请声明来源钻瓜专利网。