[发明专利]文本分割方法、相关设备及可读存储介质在审
申请号: | 201911398383.1 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111199150A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 闫莉;孔常青;万根顺;高建清 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王小清 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分割 方法 相关 设备 可读 存储 介质 | ||
本申请公开了一种文本分割方法、相关设备及可读存储介质,在获取待分割文本之后,获取待分割文本中每个文本单元的分割特征,并根据每个文本单元的分割特征,确定待分割文本的分割边界,最后基于所述待分割文本的分割边界,对所述待分割文本进行分割。基于上述方案,能够实现对待分割文本的分割。
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本分割方法、相关设备及可读存储介质。
背景技术
随着统计自然语言处理技术的快速发展,文本分割日益成为一个重要的研究方向。文本分割是确定出长篇幅无分割文本的分割边界,并依据确定出的分割边界将长篇幅无分割文本分割为文本片段,相比于长篇幅无分割文本,分割后的文本片段长度短小,符合用户阅读习惯;同时,分割后的文本片段内部具有简单明确的主题,能够帮助用户快速抽取关键信息,缓解阅读压力。
因此,需要提供一种文本分割方法。
发明内容
鉴于上述问题,本申请提出了一种文本分割方法、相关设备及可读存储介质。具体方案如下:
一种文本分割方法,包括:
获取待分割文本;
获取所述待分割文本中每个文本单元的分割特征;
根据每个文本单元的分割特征,确定所述待分割文本的分割边界;
基于所述待分割文本的分割边界,对所述待分割文本进行分割。
可选地,所述获取所述待分割文本中每个文本单元的分割特征,包括:
获取所述待分割文本中每个文本单元的单词序列和线索词特征,所述每个文本单元的单词序列和线索词特征作为所述每个文本单元的分割特征。
可选地,提取获取所述待分割文本中每个文本单元的单词序列和线索词特征,包括:
对每个文本单元进行分词,得到每个文本单元的单词序列;
基于预先确定的线索词集合,从所述单词序列中确定线索词;
获取所述线索词在对应文本单元中的位置信息;
根据每个文本单元中线索词的位置信息,生成每个文本单元的线索词特征。
可选地,所述根据每个文本单元的分割特征,确定所述待分割文本的分割边界,包括:
将每个文本单元的分割特征,输入文本分割模型,得到每个文本单元是否为所述待分割文本的分割边界的输出结果;所述文本分割模型是以训练文本中各文本单元的分割特征为训练样本,以训练文本的分割边界标识标注信息为样本标签训练得到。
可选地,所述文本分割模型,包括:
词编码层、注意力层、融合层、句编码层和输出层。
可选地,所述将每个文本单元的分割特征,输入文本分割模型,得到每个文本单元的起始位置是否为所述待分割文本的分割边界的输出结果,包括:
利用文本分割模型获取每个文本单元的段长特征,所述段长特征用于表示每个文本单元的上一分割边界到每个文本单元的段长信息;
利用文本分割模型的词编码层,对每个文本单元的分割特征进行词编码,得到每个文本单元的语义表征;
利用文本分割模型的注意力层,对每个文本单元的语义表征进行注意力计算,得到每个文本单元的句子的语义表征;
利用文本分割模型的融合层,将每个文本单元的句子的语义表征以及每个文本单元的段长特征进行融合,得到每个文本单元的句子的完整词表征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911398383.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:票据管理方法及电子设备
- 下一篇:鼓式制动器及具有其的汽车制动系统和汽车