[发明专利]文本数据处理方法、装置、电子设备及计算机可读介质有效
申请号: | 201811332347.0 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109299472B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 田振华 | 申请(专利权)人: | 天津开心生活科技有限公司;天津新开心生活科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G16H50/70 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 301800 天津市宝坻区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 电子设备 计算机 可读 介质 | ||
1.一种文本数据处理方法,其特征在于,包括:
对文本数据进行预处理,生成多个文本单元,所述文本数据为包含非结构化数据的病历数据;
根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式;
根据所述多个文本单元与所述实体词,类型词,以及表达式将所述文本数据替换为类型标签序列,对所述类型标签序列进行统计分组处理,在统计过程中对并列关系进行合并与约简,并对统计分组处理后的类型标签序列根据频繁程度和模板复杂度进行倒序排列,生成文本序列集合;以及
基于所述文本序列集合通过多原子模式筛选进行模式匹配与拆解,并将模式匹配与拆解后的关系组合作为结构化数据,生成结构化数据结果;其中,所述多原子模式为多元表达式;
通过预定数据集合对所述结构化数据进行验证,以获取输出数据结果,其中,所述预定数据集合包括多原子模式集合,所述预定数据集合是通过对历史病例数据生成的所述结构化数据进行遍历拆解,并根据拆解结果生成的。
2.如权利要求1所述的方法,其特征在于,对文本数据进行预处理,生成多个文本单元包括:
对所述文本数据进行统一编码处理;
剔除所述文本数据中的特殊字符;以及
对所述文本数据按照预定规则进行切分以生成所述多个文本单元。
3.如权利要求1所述的方法,其特征在于,根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式包括:
根据预定词典与集合对所述文本数据进行单词切分;
对单词切分之后生成的词语进行词性标注和词类标注;以及
根据词性标注和词类标注结果由所述文本数据中提取实体词,类型词,以及表达式。
4.一种文本数据处理装置,其特征在于,包括:
预处理模块,用于对文本数据进行预处理,生成多个文本单元,所述文本数据为包含非结构化数据的病历数据;
词汇提取模块,用于根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式;
序列处理模块,用于根据所述多个文本单元与所述实体词,类型词,以及表达式将所述文本数据替换为类型标签序列,对所述类型标签序列进行统计分组处理,在统计过程中对并列关系进行合并与约简,并对统计分组处理后的类型标签序列根据频繁程度和模板复杂度进行倒序排列,生成文本序列集合;
结果模块,用于基于所述文本序列集合通过多原子模式筛选进行模式匹配与拆解,并将模式匹配与拆解后的关系组合作为结构化数据,生成结构化数据结果;其中,所述多原子模式为多元表达式;
数据验证模块,用于通过预定数据集合对所述结构化数据进行验证,以获取输出数据结果,其中,所述预定数据集合包括多原子模式集合,所述预定数据集合是通过对历史病例数据生成的所述结构化数据进行遍历拆解,并根据拆解结果生成的。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
6.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津开心生活科技有限公司;天津新开心生活科技有限公司,未经天津开心生活科技有限公司;天津新开心生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332347.0/1.html,转载请声明来源钻瓜专利网。