[发明专利]基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统有效
申请号: | 201911241042.3 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111090981B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 屈丹;杨绪魁;张文林;司念文;陈琦;牛铜;闫红刚;张连海;李真 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院 |
主分类号: | G06F40/191 | 分类号: | G06F40/191;G06F40/211;G06N3/04 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 张立强 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该系统包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。 | ||
搜索关键词: | 基于 双向 短时记忆 网络 中文 文本 自动 断句 标点 生成 模型 构建 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院,未经中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911241042.3/,转载请声明来源钻瓜专利网。