[发明专利]一种肿瘤专病数据库构建系统、方法、电子设备和介质在审

申请号：	202011026999.9	申请日：	2020-09-25
公开（公告）号：	CN112185572A	公开（公告）日：	2021-01-05
发明（设计）人：	许永超;魏博;马素芬;骆佳俊;李力行;凌少平	申请（专利权）人：	志诺维思（北京）基因科技有限公司
主分类号：	G16H50/70	分类号：	G16H50/70;G06F16/36;G06F40/126;G06F40/216;G06F40/232;G06F40/242;G06N3/04;G06N3/08
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	荣颖佳
地址：	102200 北京市昌平区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种肿瘤数据库构建系统方法电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种肿瘤专病数据库构建系统、方法、电子设备和介质，其中，该系统包括：数据拆分模块，用于将原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；数据预处理模块；模型预测模块，用于对预处理后的文本信息进行预测；字典标注模块，用于对预处理后的文本信息进行字典标注；数据合并模块，用于对预测结果和字典标注结果进行数据合并；数据封装模块，用于将数据合并后的文本信息与基础文本信息进行数据封装；指标归一化模块，用于得到结构化病理文本；结构化数据存储模块，用于生成肿瘤专病数据库，可以提供病理文本结构化处理系统框架，深度考虑病理医生的需求而开发，深度契合病理科医生的生产和科研需求。

技术领域

本申请涉及文本处理领域，具体而言，涉及一种肿瘤专病数据库构建系统、方法、电子设备和介质。

背景技术

传统的医疗文本结构化方案中，基于临床数据的文本抽取，大多以疾病、症状、手术为主。然而纯病理文本和临床文本差距巨大，病理医生和临床医生关注的指标细节差异也很大，临床数据的标注方法、抽取方法以及架构系统并不能满足病理医生的日常生产和科研需求。

发明内容

本申请的目的在于提供一种肿瘤专病数据库构建系统、方法、电子设备和介质，可以提供病理文本结构化处理系统框架，深度考虑病理医生的需求而开发，深度契合病理科医生的生产和科研需求。

第一方面，本申请实施例提供一种肿瘤专病数据库构建系统，包括：

数据拆分模块，用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息；

数据预处理模块，用于对所述待结构化提取的文本信息进行预处理；

模型预测模块，用于利用命名实体识别模型对预处理后的文本信息进行预测；

字典标注模块，用于对预处理后的文本信息进行字典标注；

数据合并模块，用于对预测结果和字典标注结果进行数据合并；