[发明专利]用于分割文本的方法和设备有效
申请号: | 201610177984.X | 申请日: | 2016-03-25 |
公开(公告)号: | CN107229609B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 黄耀海;胡钦谙;郭瑞山 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/35;G06N20/00 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 欧阳帆 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分割 文本 方法 设备 | ||
本发明提供了用于分割文本的方法和设备。一种用于分割包括多个句子的文本的方法包括:从所述文本中提取多个证据和多个推论;对于所述多个推论中的每一个推论,基于所述文本和/或分割历史来确定所述多个证据中的每一个证据的优先位置,其中所述优先位置表示该证据在用来作出该推论的证据的序列中最可能处于的位置;以及通过基于证据的优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界,来将所述文本分割成多个片段。通过利用本发明,分割将更为准确。
技术领域
本发明涉及用于分割文本的方法和设备,并且特别涉及用于根据主题将文本分割成多个部分的方法和设备。
背景技术
在现有技术中,已经提出了几种用于将文本分割成多个片段的方法。例如,美国申请公开US2014/0052753A1(METHOD,DEVICE AND SYSTEM FOR PROCESSING PUBLIC OPINIONTOPICS)公开了确定舆情话题是否符合报警条件的方法,其包括使用词汇特征(例如概念)对文本进行分割。
然而,在那些现有技术中存在一些缺点,诸如准确性低等。准确性低的原因可能是分割得到的文本片段与概念之间的映射有时不一致。例如,在分割医疗成像报告(诸如放射学报告)的情况下,医师经常在该报告中针对一个身体部位写出多于一个诊断。当使用身体部位作为概念来分割医疗成像报告时,对于一个身体部位的连续的多个诊断将被分在同一片段中,而不能彼此区分开。也就是说,在分割时,将遗漏对于一个身体部位的连续的多个诊断之间的边界。
图1示出CT图像诊断报告以作为医疗成像报告的示例,图2示出对于图1中示出的医疗成像报告的文本的分割的期望结果,并且图3示出通过使用现有技术方法获得的对于图1中示出的医疗成像报告的文本的分割结果。
在该示例中,待分割的文本是该报告的“发现”部分。期望的是,将文本分割成多个片段,其中每个片段对应于报告的“诊断”部分中列出的生理失调(disorder)中的一个,并且因此能够容易地将写出的生理失调中的每一个与其对应的发现(即,发现的异常)关联。因此,期望的分割结果包括5个片段,如图2所示。然而,如图3所示,现有技术方法仅识别出4个片段。这是因为,在该报告中,两个生理失调(即,“肺癌”和“肺气肿”)都涉及身体部位“肺”,并且根据现有技术的方法,“发现”部分中的与身体部位“肺”关联的所有句子将被分割到同一片段中。也就是说,将遗漏对应于“肺癌”的句子与对应于“肺气肿”的句子之间的分割边界。
在医疗成像报告领域中,医师经常在报告中针对一个身体部位写出多于一个诊断。当然,在与医疗成像报告领域类似的其它种类的文本领域中存在同样的问题。因此,为了解决上述问题,需要新的文本分割技术。
发明内容
深入研究之后,本发明的发明人发现了,写医疗成像报告或类似报告的写作者在作出推论时具有对发现或做出诊断的证据(以下称为证据)进行排序的特定的偏好或惯例。以医疗成像报告为例,下面的表1列出几种排序规则及其示例。一般,放射科医师喜欢把具有显著诊断意义的发现写在不具有显著诊断意义的发现前面;把一般的发现写在对发现的详细描写前面;以及把对诊断呈阳性的发现写在对诊断呈阴性的发现前面。另外,一些发现是为诊断疾病所必需的,而其它发现是可选的。放射科医师通常把必需的发现写在可选的发现前面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610177984.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:垃圾评论识别方法和装置
- 下一篇:一种情感数据的分析方法及装置