[发明专利]一种文本摘要提取方法、装置、服务器及可读存储介质在审
申请号: | 201911020426.2 | 申请日: | 2019-10-25 |
公开(公告)号: | CN110781291A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 刘彤 | 申请(专利权)人: | 北京市计算中心 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/253;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种文本摘要提取方法、装置、服务器及可读存储介质,涉及数据处理技术领域技术领域,包括:步骤一,获取待处理文本;步骤二,断句处理,步骤三,提取关键词,设置句子的权值;分析句子位置分布,设置句子的权值;提取线索词,设置句子的权值;步骤四,结合步骤三中关键词个数、句子位置分布、线索词个数设置的权值来计算获得每个句子的最终权值;步骤五,根据步骤四中的句子的最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。总之,本发明是一种信息更加全面、效率更高、精准度更高的文本摘要提取方法、装置,能够提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。 | ||
搜索关键词: | 句子 文本 位置分布 摘要提取 可读存储介质 数据处理技术 断句 个数设置 工作效率 精度需求 领域技术 精准度 线索 服务器 筛选 压缩 分析 研究 | ||
【主权项】:
1.一种文本摘要提取方法,其特征在于,包括:/n步骤一,获取待处理文本;/n步骤二,对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;/n步骤三,提取关键词,设置句子的权值:对所述断句结果的每个句子提取关键词,含有关键词个数越多的句子,所述权值越大;/n分析句子位置分布,设置句子的权值:根据所述句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;/n提取线索词,设置句子的权值:根据预设的线索词库对所述断句结果的每个句子提取线索词,含有线索词个数越多的句子,所述权值越大;/n步骤四,结合所述步骤三中所述关键词个数、所述句子位置分布、所述线索词个数设置的所述权值来计算获得每个所述句子的最终权值;/n步骤五,根据所述步骤四中的所述句子的所述最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市计算中心,未经北京市计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911020426.2/,转载请声明来源钻瓜专利网。