[发明专利]一种股票资讯智能提取方法在审

专利信息
申请号: 201711432710.1 申请日: 2017-12-26
公开(公告)号: CN110020056A 公开(公告)日: 2019-07-16
发明(设计)人: 万雪婷 申请(专利权)人: 武汉楚鼎信息技术有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/957;G06F17/27;G06Q40/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 430000 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 纯文本 结构化 结构化处理 表格抽取 股票资讯 指标数据 智能提取 预定义 准确率 填充 匹配 抽取 自动化 文本 反馈 合并
【说明书】:

本方法公开了一种通过表格抽取和文本段落相似的方法,来提取个股公告、研报的摘要。采用先分离再合并的策略,分离公告或研报的表格和纯文本,对表格进行结构化处理,对纯文本进行段落划分处理,然后结合预定义的摘要模板(关键词模板),从结构化表格中抽取关键词指标数据并填充模板;从划分段落中寻找与模板最相似的top N个作为摘要候选段落,如果结构化表格中匹配不到关键词,则从候选段落中寻找最相似的段落作为一个子摘要。该方法极大地提高了摘要的准确性,提高编辑人的编辑效率,通过不断反馈提升提取的准确率,最后真正做到自动化。

技术领域

发明涉及计算机软件领域,特别是涉及股票相关的资讯,包括上市公司发布的公告、机构发布的研报等其信息智能抽取的场景。

背景技术

目前,个股公告、研报类型众多,每种类型公告所述重点事件不一,每种类型的个股公告繁多。作为投资者,为了自身利益,及时了解上市公司披露的个股公告、机构发布的研报内容变得很迫切。但是,每种类型的个股公告、研报众多,篇幅冗余。投资者只想了解其中的核心事件及数据(即摘要),而不是花费大量时间精力去下载浏览每一篇公告或研报的内容。

目前,从技术上解决该问题方法是采用的基于事件框架的事件信息抽取,基于一整套正则表达式(专家规则),去匹配公告当中的具体事件及数据。但是,这种技术天花板低,专家规则制定繁杂,不能涵盖所有情况,匹配易错,匹配性能差。因此,很多公司针对个股公告、研报摘要的提取主要还是靠人来提取,效率较低。

通过观察研究个股公告、研报发现,这些个股公告内容主要是由表格数据及文本组成,其表格条目数据介绍非常规范,结构高度相似。因此,我们发明一种智能提取方法,针对性地提取个股公告的表格数据以及剩余文本(剔除表格)当中的核心段落或句子,再按照一定的模板组织成摘要。

发明内容

本方法的目的是为了解决目前个股公告、研报人工提取摘要的方法中的技术缺陷,成本高,效率低的问题,设计出一种能快速,有效地直接生成定制的摘要的方法。

为了解决上述问题,本方法采用的技术方案是:

首先,把个股公告、研报内容通过一定技术转换成html格式;

然后,识别出html当中的表格table标签,通过进一步切分table标签中的行tr、列td等标签,提取出表格的条目及数据;

再次,提取出html剩余的文本(剔除html标签),按照标点符号切分成句子,并把每个句子切分成关键词,按照BM25算法,提取与给定模板最相似的若干句子;

最后,根据提取的句子及表格条目数据,组织成摘要。

由于采用上述方法,本方法的有益效果是:

(1)本方法针对公告表格进行抽取,可以提取详细条目数据,准确率高,速度快,扩展性强;

(2)采用文本相似算法计算与指定模块相似的句子即可,不需要制定繁杂规则;

(3)指定模块(领域产品指定)只需包括关键词即可,不要专家规则。

附图说明

图1是本方法系统框架图。

图2是本方式具体实施流程图。

图3是本方式产品侧实施自动化流程图。

具体实施方式

该方法系统架构图如图1所示,其中各个模块的功能说明如下:

1:配置抓取源URL及抓取规则;

2:根据配置的抓取源URL及抓取规则,进行公告的抓取;

3:利用PDF2HTML开源库,把抓取的公告转换成HTML格式;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉楚鼎信息技术有限公司,未经武汉楚鼎信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711432710.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top