[发明专利]一种文本结构化方法及装置有效

专利信息
申请号: 201811601735.4 申请日: 2018-12-26
公开(公告)号: CN111370083B 公开(公告)日: 2023-04-25
发明(设计)人: 仇伟;陈漠沙;程钰淇;李兆融;李林琳;司罗 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G16H10/60 分类号: G16H10/60;G06F40/253
代理公司: 北京太合九思知识产权代理有限公司 11610 代理人: 刘戈
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 结构 方法 装置
【说明书】:

本公开涉及一种文本结构化方法及装置,包括获取与上下文无关的文法规则集;将文本集合中各文本输入基于所述与上下文无关的文法规则集生成的语法分析器进行解析;针对所述文本集合中每个文本,在所述语法分析器成功解析该文本时,将所述语法分析器的输出确定为该文本对应的结构化文本。通过利用与上下文无关的文法的算法将文本的结构提取出来,根据本公开实施例的文本结构化方法及装置能够提高文本结构化的正确率和效率。

技术领域

本公开涉及文本处理技术领域,尤其涉及一种文本结构化方法及装置。

背景技术

电子病历系统的现代化是医疗信息建设的关键之一,电子病历中包含的信息对于建立起追随病人一生的健康画像起着至关重要的作用。同时,电子病历也是医疗科研的重要元数据。

目前,市面上大量的电子病历往往直接将诊疗诊断、医生查房等众多的文本信息直接存储为文本字段,舍弃了电子病历中应有的大量结构化信息,不利于信息的标准化存储、分享以及分析。

相关技术中,可以通过模板匹配、关键词匹配以及机器学习等方法对病历进行结构化处理。其中,模板匹配法和关键词匹配法的正确率较低,机器学习法则需要进行大量的数据标注,操作繁琐。

发明内容

有鉴于此,本公开提出了一种文本结构化方法及装置,能够提高文本结构化的正确率和效率。

根据本公开的一方面,提供了一种文本结构化方法,所述方法包括:获取与上下文无关的文法规则集;通过基于所述与上下文无关的文法规则集生成的语法分析器对文本集合中各文本进行解析;针对所述文本集合中每个文本,在所述语法分析器成功解析该文本时,将所述语法分析器的输出确定为该文本对应的结构化文本。

根据本公开的另一方面,提供了一种文本结构化装置,所述装置包括:获取模块,用于获取与上下文无关的文法规则集;解析模块,用于通过基于所述与上下文无关的文法规则集生成的语法分析器对文本集合中各文本进行解析;确定模块,用于针对所述文本集合中每个文本,在所述语法分析器成功解析该文本时,将所述语法分析器的输出确定为该文本对应的结构化文本。

在本公开实施例中,利用与上下文无关的文法的算法将文本的结构提取出来,从而将文本转换为结构化文本,保留了层次化结构,提高文本结构化的正确率,也无需标注语料,提高了文本结构化的效率。

根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。

图1示出根据本公开一实施例的文本结构化方法的流程图。

图2示出根据本公开一实施例的文本结构化装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。

图1示出根据本公开一实施例的文本结构化方法的流程图。该方法可以应用于计算机等终端。在本公开实施例中以病历作为文本为例进行说明,本公开实施例的文本结构化方法还可以用于其他文本的处理。如图1所示,该方法可以包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811601735.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top