[发明专利]一种金融信贷短信的信息抽取和分析方法有效
申请号: | 201710233822.8 | 申请日: | 2017-04-11 |
公开(公告)号: | CN107423279B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 程宏亮;李炜;饶思维;黄蓉;周静 | 申请(专利权)人: | 美林数据技术股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G06F40/253;G06F16/35;G06F16/36;G06F16/903;G06Q40/02 |
代理公司: | 西安毅联专利代理有限公司 61225 | 代理人: | 杨燕珠 |
地址: | 710000 陕西省西安市高*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 金融 信贷 短信 信息 抽取 分析 方法 | ||
本发明公开了一种金融信贷短信的信息抽取和分析方法,包括:训练构建信贷类短信分类模型;使用信贷类短信分类模型对信贷类短信进行识别,并筛选出信贷类短信;构造关键词,并将筛选出的信贷类短信进行关键词匹配后分析具体业务类型;构造信息抽取规则模板引擎;使用信息抽取规则模板引擎对具体业务类型进行信息点的抽取与结构化输出。与现有技术相比,本发明提出了一种适用于金融领域的信贷短息的信息抽取方法,通过机器学习的分类算法和自然语言处理的信息抽取技术,结合规则引擎技术,具备高度的灵活性和可扩展性,实现短信逾期等高风险信息的自动抽取和高效识别。
技术领域
本申请涉及金融信贷短信的信息抽取与分析领域,具体涉及一种金融信贷短信的信息抽取和分析方法。
背景技术
金融机构向客户发送的短信是文本形式的,需要从这些文本短信中分析出用户是否出现逾期记录,逾期行为的具体信息,如逾期时间、逾期金额、借款机构等。对于一个拥有TB级别数据量的金融企业而言,通过人工的方式逐条筛选出逾期相关的短信需要耗费大量的时间和人力成本。
传统通过模糊查询搜索匹配相关关键字的手段,也在这样的情况下显得效率低下。一是需要人工梳理大量的关键字,以穷举所有可能的情况,可扩展需要花费精力;二是匹配的内容精准度差,效果难以保障,不能精准的识别出逾期的时间和逾期的金额;这样就不能有效地发现短信客户的失信风险,为金融风险控制和管理带来很大挑战。
发明内容
有鉴于此,从海量短信文本中精确快速地抽取和分析出所需的信息点并结构化之,需要一种更自动、更智能的方法,本申请基于自然语言处理、机器学习技术的集成,提供一种金融信贷短信的信息抽取和分析方法。本发明通过对短信文本内容进行分析,判断其是否为信贷相关;再对信贷相关的短信进行更细粒度的解析,判断其为逾期、放贷、申请等具体的业务类型;最后对逾期的短信做信息抽取,提取中其中的逾期金额、时间等,并将这些信息做结构化输出。
为了实现上述目的,现提出的方案如下:
一种金融信贷短信的信息抽取和分析方法,包括:
训练构建信贷类短信分类模型;使用信贷类短信分类模型对信贷类短信进行识别,并筛选出信贷类短信;
构造关键词,并将筛选出的信贷类短信进行关键词匹配后分析具体业务类型;
构造信息抽取规则模板引擎;使用信息抽取规则模板引擎对具体业务类型进行信息点的抽取与结构化输出。
在本发明的一个优选实施例中,所述训练构建信贷类短信分类模型,包括:
人工选取并按照信贷类和非信贷类短信数量1:1的比例构建训练数据,对训练数据的短信文本进行分词序列化;
按照一定比例随机抽取出训练集与测试集,其中训练集比例大于测试集比例,使用训练集进行信贷类短信分类模型的构建,并在测试集上进行测试。
在本发明的一个优选实施例中,从训练集短信文本集合中提取特征词条,在训练集短信文本集合中统计特征词条与类别相关的概率,存储概率分布作为模型;
在测试集上测试模型,重新调整特征词条,保留最优信贷类短信分类模型。
在本发明的一个优选实施例中,所述使用信贷类短信分类模型对短信进行识别,包括:
对输入的短信文本进行分词序列化;
挑选特征词条,查询特征词条在所述信贷类短信分类模型中的概率分布;
使用特征词条的概率分布值,并输出所述短信所属最大概率的类别,所述类别包括信贷类或非信贷类。
在本发明的一个优选实施例中,将所述短信为信贷类的概率设置一个范围值,使用特征词条获取的概率分布值大于所述范围值时候,则将所述短信输出为信贷类短信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美林数据技术股份有限公司,未经美林数据技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710233822.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:评价要素的识别方法、装置及系统
- 下一篇:一种语句判别方法与系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置