[发明专利]一种股票资讯智能提取方法在审
申请号: | 201711432710.1 | 申请日: | 2017-12-26 |
公开(公告)号: | CN110020056A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 万雪婷 | 申请(专利权)人: | 武汉楚鼎信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/957;G06F17/27;G06Q40/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纯文本 结构化 结构化处理 表格抽取 股票资讯 指标数据 智能提取 预定义 准确率 填充 匹配 抽取 自动化 文本 反馈 合并 | ||
本方法公开了一种通过表格抽取和文本段落相似的方法,来提取个股公告、研报的摘要。采用先分离再合并的策略,分离公告或研报的表格和纯文本,对表格进行结构化处理,对纯文本进行段落划分处理,然后结合预定义的摘要模板(关键词模板),从结构化表格中抽取关键词指标数据并填充模板;从划分段落中寻找与模板最相似的top N个作为摘要候选段落,如果结构化表格中匹配不到关键词,则从候选段落中寻找最相似的段落作为一个子摘要。该方法极大地提高了摘要的准确性,提高编辑人的编辑效率,通过不断反馈提升提取的准确率,最后真正做到自动化。
技术领域
本发明涉及计算机软件领域,特别是涉及股票相关的资讯,包括上市公司发布的公告、机构发布的研报等其信息智能抽取的场景。
背景技术
目前,个股公告、研报类型众多,每种类型公告所述重点事件不一,每种类型的个股公告繁多。作为投资者,为了自身利益,及时了解上市公司披露的个股公告、机构发布的研报内容变得很迫切。但是,每种类型的个股公告、研报众多,篇幅冗余。投资者只想了解其中的核心事件及数据(即摘要),而不是花费大量时间精力去下载浏览每一篇公告或研报的内容。
目前,从技术上解决该问题方法是采用的基于事件框架的事件信息抽取,基于一整套正则表达式(专家规则),去匹配公告当中的具体事件及数据。但是,这种技术天花板低,专家规则制定繁杂,不能涵盖所有情况,匹配易错,匹配性能差。因此,很多公司针对个股公告、研报摘要的提取主要还是靠人来提取,效率较低。
通过观察研究个股公告、研报发现,这些个股公告内容主要是由表格数据及文本组成,其表格条目数据介绍非常规范,结构高度相似。因此,我们发明一种智能提取方法,针对性地提取个股公告的表格数据以及剩余文本(剔除表格)当中的核心段落或句子,再按照一定的模板组织成摘要。
发明内容
本方法的目的是为了解决目前个股公告、研报人工提取摘要的方法中的技术缺陷,成本高,效率低的问题,设计出一种能快速,有效地直接生成定制的摘要的方法。
为了解决上述问题,本方法采用的技术方案是:
首先,把个股公告、研报内容通过一定技术转换成html格式;
然后,识别出html当中的表格table标签,通过进一步切分table标签中的行tr、列td等标签,提取出表格的条目及数据;
再次,提取出html剩余的文本(剔除html标签),按照标点符号切分成句子,并把每个句子切分成关键词,按照BM25算法,提取与给定模板最相似的若干句子;
最后,根据提取的句子及表格条目数据,组织成摘要。
由于采用上述方法,本方法的有益效果是:
(1)本方法针对公告表格进行抽取,可以提取详细条目数据,准确率高,速度快,扩展性强;
(2)采用文本相似算法计算与指定模块相似的句子即可,不需要制定繁杂规则;
(3)指定模块(领域产品指定)只需包括关键词即可,不要专家规则。
附图说明
图1是本方法系统框架图。
图2是本方式具体实施流程图。
图3是本方式产品侧实施自动化流程图。
具体实施方式
该方法系统架构图如图1所示,其中各个模块的功能说明如下:
1:配置抓取源URL及抓取规则;
2:根据配置的抓取源URL及抓取规则,进行公告的抓取;
3:利用PDF2HTML开源库,把抓取的公告转换成HTML格式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉楚鼎信息技术有限公司,未经武汉楚鼎信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711432710.1/2.html,转载请声明来源钻瓜专利网。