[发明专利]一种基于知识图谱的保险自动问答方法及问答系统在审
| 申请号: | 202010826806.1 | 申请日: | 2020-08-17 |
| 公开(公告)号: | CN112800174A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 闫艺婷;肖政宏;马智勇;周健烨 | 申请(专利权)人: | 广东技术师范大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/36;G06Q40/08 |
| 代理公司: | 佛山市禾才知识产权代理有限公司 44379 | 代理人: | 曹振;罗凯欣 |
| 地址: | 510635 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 图谱 保险 自动 问答 方法 系统 | ||
1.一种基于知识图谱的保险自动问答方法,其应用于保险自动问答系统,其中步骤依次包括:
步骤S1:首先利用爬虫技术采集保险产品的相关信息;
步骤S2:对保险实体关系的数据进行标注;
步骤S3:利用预训练的词向量文件构建embedding矩阵;
步骤S4:制定实体对齐方法基于I-SPRS相似度;
步骤S5:问句理解模型构建;
步骤S6:最后答案生成。
2.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述步骤S1具体包括如下内容:利用爬虫技术从中国平安保险、沃保险、OpenKG和向日葵保险网站采集保险产品的相关信息,保险产品的相关信息包括:保险产品名称、保险产品适用人群性别、保险产品适用人群年龄、保险产品价格、保险产品保障范围、保险产品保障期限和保险产品销售范围。
3.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述步骤S2具体包括如下内容:保险实体关系的数据标注,使用最常用的BIOES标注规范,实体位置信息主要由三部分组成:{B(实体开始),I(实体内部),E(实体结尾),S(单个实体)};实体关系类型信息:{由预先定义的关系类型进行编码};实体的关系方向:{1(实体1),2(实体2)};其余实体关系不是三元组内的字标签记为“o”;Name-Alias为别名关系,记为NA;Disease-contain代表重疾-包含,记为DC;Disease-belong表示疾病-属于关系,记为DB,采用实体与关系共同标注策略,把知识抽取转为序列标注问题,关系标注类型包括24类,分别是:B-NA-1、I-NA-1、E-NA-1、S-NA-1、B-NA-2、I-NA-2、E-NA-2、S-NA-2、B-DC-1、I-DC-1、E-DC-1、S-DC-1、B-DC-2、I-DC-2、E-DC-2、S-DC-2、B-DB-1、I-DB-1、E-DB-1、S-DB-1、B-DC-2、I-DC-2、E-DC-2、S-DC-2。
4.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述步骤S3具体包括如下内容:利用实体关系联合抽取模型图,采用腾讯开源高质量中文词向量数据包含800多万中文词汇,用预训练的词向量文件构建embedding矩阵,通过e(xi)运算和输入层的字符做index嵌入,将每个输入字符映射到低维稠密的向量表示,每个词代表200维向量,表示字在不同维度上的语义信息。
5.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用停用词规则即省区不重要的词语部分。
6.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用同义词规则即替换词语保证同义。
7.根据权利要求4所述的基于知识图谱的保险自动问答方法,其特征在于:利用实体关系联合抽取模型图的步骤还包括如下内容:
Bi-LSTM layer是利用长短忘记网络特性来提取特征,第一步是把生成每个字符的向量表示序列作为Bi-LSTM的输入,第二步是将Bi-LSTM在各时间位置进行拼接,得到一个完整的序列;第三步是将Bi-LSTM每个时间序列上输出的多个概率值,通过softmax分类预测,因为softmax只考虑当前的信息,忽略了上下文;第四步,用CRF进行句子级别的序列标注,CRF的特点是在一个位置上标注时,利用之前标注过的标签,窗口大小的不同决定了逻辑关系;会加入限制标签,排除出现无效情况。
8.根据权利要求1所述的基于知识图谱的保险自动问答方法,其特征在于:所述提取特征还包括如下步骤:将所述Bi-LSTM每个时间序列上输出的多个概率值,通过softmax分类预测。
9.一种保险自动问答系统,其特征在于,步骤依次包括:
输入模块:用于接收用户保险问句;
问句实体识别模块:用于建议模型和匹配实体连接;
保险知识图谱模块:用于分析问句,实现保险自动问答功能;
问句关系预测模块:用于抽取问句的特征;
查询模块:问句的特征对传统数据库进行查询;
输出模块:用于回答用户提出的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学,未经广东技术师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010826806.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有数据安全机构的设备及其操作方法
- 下一篇:一种超重力蒸馏装置





