[发明专利]基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统有效
申请号: | 201911241042.3 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111090981B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 屈丹;杨绪魁;张文林;司念文;陈琦;牛铜;闫红刚;张连海;李真 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院 |
主分类号: | G06F40/191 | 分类号: | G06F40/191;G06F40/211;G06N3/04 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 张立强 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该系统包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。 | ||
搜索关键词: | 基于 双向 短时记忆 网络 中文 文本 自动 断句 标点 生成 模型 构建 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院,未经中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911241042.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 一种换行符识别方法-202211197754.1
- 邓乔波 - 语联网(武汉)信息技术有限公司
- 2022-09-29 - 2022-12-09 - G06F40/191
- 本发明公开了一种换行符识别方法,包括采用规则和语义模型相结合的方式进行换行符识别,利用基于规则的方法对换行符进行识别,对于利用规则可以判断的情况则直接返回结果;利用规则无法进行判断时,利用语义模型判断输出结果。本发明的有益效果是:提高了pdf转word的准确率,并节省了在处理错误换行符时的人工工时,并且提高文档质量,保障了后期文档解析和文档翻译的质量。
- 一种单词信息处理方法和装置-202210359485.8
- 司轩宇;刘路路;赵明 - 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
- 2022-04-07 - 2022-07-01 - G06F40/191
- 本发明公开了一种单词信息处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:接收对单词文本的选择显示操作,在逐行显示单词的过程中,通过定位当前行中光标所处位置,以确定当前行已占用的字节数量;将当前行可容纳的最大字节数量减去已占用的字节数量,得到当前行剩余空间可容纳的字节数量,并获取当前行下一个待显示的单词的字节需求数量;响应于字节需求数量大于当前行剩余空间可容纳的字节数量,判断单词是否存在特定属性,以根据判断结果将单词拆分为第一部分和第二部分,将第二部分移至下一行展示。该实施方式根据当前行剩余空间长度和单词属性,确定相应换行处理方式,解决了现有单词强制换行导致排版不佳的问题。
- 基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统-201911241042.3
- 屈丹;杨绪魁;张文林;司念文;陈琦;牛铜;闫红刚;张连海;李真 - 中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院
- 2019-12-06 - 2022-04-15 - G06F40/191
- 本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该系统包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。
- 缺失语意信息补全方法、装置、计算机设备和存储介质-201710577385.1
- 舒悦;林芬 - 腾讯科技(深圳)有限公司
- 2017-07-14 - 2021-06-25 - G06F40/191
- 本发明涉及一种缺失语意信息补全方法、装置、计算机设备和存储介质,所述方法包括:获取会话中的待处理缺失语意信息以及所述待处理缺失语意信息的上文信息;将所述待处理缺失语意信息的上文信息以及所述待处理缺失语意信息按照会话顺序进行拼接,得到当前文本序列;将所述当前文本序列输入预先训练的第一神经网络模型,得到所述待处理缺失语意信息对应的完整语意信息。上述方法提高了补全后的完整语意信息与上文语境的关联性以及语句的连贯性。
- 字形排版方法、装置、电子设备和存储介质-202010451111.X
- 於林涛 - 北京达佳互联信息技术有限公司
- 2020-05-25 - 2020-09-04 - G06F40/191
- 本公开关于字形排版方法、装置、电子设备和存储介质,所述方法包括:获取待排版的字形集合,字形集合中包含多个待排版的独立字形;若在字形集合中检测出预定义的连接字符,则将与该连接字符具有预设关联关系的独立字形拼接为合并字形;对字形集合中未参与拼接的独立字形和合并字形进行排版。根据本公开的实施例,通过在待排版字形中添加预定义的连接字符,无需计算空白占位区域的大小或者将字形合并为图片再插入空白占位区,从而简化了字形处理逻辑并减少了排版程序的代码量,一定程度上提高了排版程序的开发效率。
- 专利分类