[发明专利]用于分割文本的方法和设备有效
申请号: | 201610177984.X | 申请日: | 2016-03-25 |
公开(公告)号: | CN107229609B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 黄耀海;胡钦谙;郭瑞山 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/35;G06N20/00 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 欧阳帆 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分割 文本 方法 设备 | ||
1.一种用于将包括构成医疗报告的多个句子的文本分割成多个片段的方法,其特征在于,包括:
提取步骤,从所述文本中提取指示发现的证据和指示生理失调的推论;
确定步骤,对于多个指示发现的证据中的每一个证据,基于所述文本和/或分割历史来确定优先位置,其中所述优先位置表示该证据在用来作出所述推论的证据的序列中最可能处于的位置;以及
分割步骤,通过所述优先位置将所述文本中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界,来将所述文本分割成多个片段。
2.根据权利要求1所述的方法,其中所述提取步骤包括:
根据预定义的词汇表来从所述文本中识别证据和/或推论;或者
通过使用实体识别技术来从所述文本中提取实体以作为证据和/或推论;或者
通过使用实体识别技术和关系提取技术来从所述文本中提取由实体及实体之间的关系构成的事实以作为证据和/或推论。
3.根据权利要求1所述的方法,其中所述确定步骤包括:对于多个推论中的每一个推论,基于所述文本中的证据的特性和/或所述分割历史来确定所述多个证据中的每一个证据的优先位置的分类值或者数值。
4.根据权利要求3所述的方法,其中所述优先位置的分类值至少包括‘尾部’和‘头部’,所述证据的特性包括证据的极性,并且所述极性为阳性或阴性,以及
其中证据的优先位置在所述证据的极性为阴性的情况下被确定为‘尾部’,并且证据的优先位置在所述证据的极性为阳性的情况下被确定为‘头部’。
5.根据权利要求3所述的方法,其中确定优先位置的分类值包括:计算证据属于与各个分类值对应的每个种类的概率,并且然后基于所计算的概率选择分类值中的一个分类值以作为证据的优先位置。
6.根据权利要求3所述的方法,其中确定优先位置的数值包括:
计算和规格化证据在每个分割历史中用来作出推论的证据的序列中的位置;以及
对证据在所有分割历史中的位置求平均值以作为证据的优先位置的数值。
7.根据权利要求6所述的方法,其中计算和规格化证据的位置包括:计算在每个分割历史中用来作出推论的证据的序列中证据到尾部位置的距离,并且将所述距离规格化到从0到1的数值范围以作为证据的位置。
8.根据权利要求1所述的方法,其中所述分割步骤包括:在用来作出推论的证据的序列必须由两个或更多个特定证据构成的情况下,在确定片段边界之前,滤掉所述两个或更多个特定证据之间的候选的片段边界。
9.根据权利要求1所述的方法,其中所述分割步骤包括:通过使用预定义的规则或使用机器学习算法基于优先位置来确定片段边界。
10.根据权利要求4-5中任何一个所述的方法,其中所述分割步骤包括:
在两个连续句子中的前一句子包含具有‘尾部’的优先位置的证据并且后一句子包含具有‘头部’的优先位置的证据的情况下将所述两个连续句子之间的边界确定为片段边界。
11.根据权利要求6-7中任何一个所述的方法,其中所述分割步骤包括:
在两个连续句子中包含的证据的优先位置的数值之间的差值大于预定义的阈值的情况下将所述两个连续句子之间的边界确定为片段边界。
12.根据权利要求1所述的方法,还包括:
从所述文本中提取身体部位并且基于所述身体部位将所述文本分割成多个部分;以及
对于所分割的部分中的一个或更多个部分,通过基于证据的优先位置将一个部分中的每两个连续句子之间的边界中的一个或更多个边界确定为片段边界,来将所述部分分割成多个片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610177984.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:垃圾评论识别方法和装置
- 下一篇:一种情感数据的分析方法及装置