[发明专利]上市公司非定期公告的分类方法、装置及存储介质在审
申请号: | 201910936610.5 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110750643A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 李炜;赵伟;王海菲;王辉 | 申请(专利权)人: | 上证所信息网络有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 11694 北京万思博知识产权代理有限公司 | 代理人: | 刘冀 |
地址: | 201203 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 特征关键词 公告文本 自动化 机器学习模型 准确度 存储介质 分类流程 文本解析 准确率 申请 | ||
1.一种上市公司非定期公告的分类方法,其特征在于,包括:
获取待分类的非定期公告的公告文本;
提取所述公告文本的特征关键词;以及
利用预先设置的机器学习模型,根据所提取出的特征关键词,确定所述非定期公告的类别。
2.根据权利要求1所述的方法,其特征在于,所述公告文本包括标题以及正文,并且对所述公告文本进行特征关键词的提取的操作,包括:
对所述标题进行分词,得到标题词;
对所述正文进行分词处理,得到正文词;
利用关键词提取算法,对所述正文词进行关键词的提取,得到正文关键词;
根据所述标题词以及所述正文关键词,对所述公告文本进行特征关键词的提取。
3.根据权利要求2所述的方法,其特征在于,根据所述标题词以及所述正文关键词,对所述公告文本进行特征关键词的提取的操作,包括:
将所述标题词以及所述正文关键词合并为文本信息;
利用TF-IDF算法对所述文本信息进行特征合并,提取出所述特征关键词。
4.根据权利要求3所述的方法,其特征在于,所述关键词提取算法为TextRank算法。
5.根据权利要求1所述的方法,其特征在于,利用预先训练的机器学习模型,根据所提取出的特征关键词,确定所述非定期公告的类别的操作,包括:
利用预先训练的机器学习模型,判定与所述特征关键词的联合概率关系最大的公告类别,其中所述联合概率关系用于表征所述特征关键词与所述公告类别之间的联合概率所反映的关系;以及
将所判定的公告类别确定为所述非定期公告的类别。
6.根据权利要求1所述的方法,其特征在于,提取所述公告文本的特征关键词的操作之前,还包括:
建立分类的触发词库;
将所述公告文本的标题中的关键词与所述触发词库中的触发逻辑进行匹配;以及
根据所述匹配的结果,对所述公告文本进行预分类。
7.根据权利要求1所述的方法,其特征在于,还包括通过以下操作对所述机器学习模型进行训练:
获取已标注公告类别的样本公告文本对应的样本特征关键词;
统计所述样本特征关键词与所述公告类别之间的概率关系,其中所述概率关系用于表征所述特征关键词与所述公告类别之间的概率所反映的关系;以及
根据所述概率关系,计算所述样本特征关键词与所述公告类别之间的联合概率关系,其中所述联合概率关系用于表征所述特征关键词与所述公告类别之间的联合概率所反映的关系。
8.根据权利要求7所述的方法,其特征在于,统计所述样本特征关键词与所述公告类别之间的概率关系的操作,包括:根据预先获取的已标注公告类别的公告数据集,统计所述样本特征关键词与所述公告类别之间的概率关系。
9.根据权利要求8所述的方法,其特征在于,根据所述概率关系,计算所述样本特征关键词与所述公告类别之间的联合概率关系的操作,包括:根据所述概率关系,利用贝叶斯公式计算所述样本特征关键词与所述公告类别之间的联合概率关系。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至9中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上证所信息网络有限公司,未经上证所信息网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910936610.5/1.html,转载请声明来源钻瓜专利网。