[发明专利]段落的划分方法及装置有效

申请号：	201711082718.X	申请日：	2017-11-07
公开（公告）号：	CN109753647B	公开（公告）日：	2022-11-04
发明（设计）人：	姜珂	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	段落划分方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种段落的划分方法及装置，涉及信息处理技术领域，主要目的在于提高段落划分的正确性、健壮性及鲁棒性，本发明的主要技术方案包括：对待划分文章进行向量化处理得到段落向量，所述段落向量为使用一个数组表示一个自然段；根据预先学习的段落分组模型，确定每个段落向量属于所述段落分组模型中每个段落分组的概率，其中，所述段落分组中至少包含一个自然段；将每个段落向量以及对应的概率输入隐马尔科夫模型，以便根据每个段落向量以及对应的概率确定隐含参数；利用预设解码算法对所述隐含参数进行解码，得到每个段落属于段落分组的最大概率，根据所述最大概率对所述待划分文章执行段落划分。

技术领域

本发明涉及信息处理技术领域，特别是涉及一种段落的划分方法及装置。

背景技术

随着信息处理技术的发展，人们对信息的需求越来越高，例如，对裁判文书中段落的划分。

目前，对裁判文书常用的段落划分方法为通过枚举方式，即枚举每个段落中可能出现的预设关键字，当裁判文书中的自然段落中匹配到预设关键字后，将该自然段划分到某个段落中，实现段落的划分。发明人在实现上述发明过程中，发现现有技术中通过枚举的方式执行段落划分时，会存在枚举不全面的问题，导致段落划分的准确率较低，此外，当裁判文书或者预设关键字出错时，不会智能对错别字进行识别，使划分段落的健壮性、鲁棒性降低。

发明内容

有鉴于此，本发明提供的一种段落的划分方法及装置，主要目的在于提高段落划分的正确性、健壮性及鲁棒性。

为了解决上述问题，本发明主要提供如下技术方案：

第一方面，本发明提供了一种段落的划分方法，包括：

对待划分文章进行向量化处理得到段落向量，所述段落向量为使用一个数组表示一个自然段；

根据预先学习的段落分组模型，确定每个段落向量属于所述段落分组模型中每个段落分组的概率，其中，所述段落分组中至少包含一个自然段；

将每个段落向量以及对应的概率输入隐马尔科夫模型，以便根据每个段落向量以及对应的概率确定隐含参数；

利用预设解码算法对所述隐含参数进行解码，得到每个段落属于段落分组的最大概率，根据所述最大概率对所述待划分文章执行段落划分。

可选的，所述方法还包括：

获取样本文章中进行段落分组的标记，确定每个段落分组中的信息要素；

对所述信息要素进行训练学习，得到训练函数，形成段落分组模型。

可选的，对待划分文章进行向量化处理得到段落向量包括：