[发明专利]用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质在审
申请号: | 201780071846.6 | 申请日: | 2017-09-22 |
公开(公告)号: | CN109964224A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 穆拉利·阿拉瓦穆丹;温卡塔拉马南·桑达拉贾;阿吉特·拉贾耶克哈兰;普拉桑·叶琳娜;阿尔俊·普拉尼克;阿什文·穆拉利;威廉·吉普森;恩里克·加西亚-里维拉;卡西克·穆卢加多斯 | 申请(专利权)人: | 恩芙润斯公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N5/02;G16B50/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 王小衡;王天鹏 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义实体 关联 语义 语义关联 计算机可读介质 集合 语义信息 时间片 知识库 生命科学 时间信号 可视化 时间段 嵌入 推断 输出 检测 | ||
1.一种检测语义实体之间的关联的方法,包括:
识别一个或多个知识库中存在的语义实体和相关联的语义集合,其中所述语义实体包括单个词或多词短语中的一个或多个,并且语义集合的所述语义实体共享实体类型;
确定用于分析的时间段;
将所述时间段划分成一个或多个时间片;
基于一个或多个语料库为每个时间片生成所述识别的语义实体的一组词嵌入;
为每个时间片确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度;
为每个时间片确定所述第一语义实体输入和语义集合中的多个语义实体之间的第二语义关联强度,所述语义集合与所述第二语义实体相关联;以及
基于所述一个或多个时间片的所述第一和第二语义关联强度提供输出。
2.根据权利要求1所述的方法,其中所述一个或多个语料库包括结构化数据和非结构化数据。
3.根据权利要求1所述的方法,其中识别语义实体包括以下一个或多个:(1)将一个或多个单个词或多词短语识别为属于语义集合的语义实体的自动方法,和(2)从所述一个或多个知识库中强制选择一个或多个单个词或多词短语。
4.根据权利要求3所述的方法,其中从由结构化数据库编译的信息中强制选择所述一个或多个单个词或多词短语。
5.根据权利要求1所述的方法,其中在所述时间段内对所述一个或多个知识库中的所有文本进行语义实体识别。
6.根据权利要求1所述的方法,其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。
7.根据权利要求1所述的方法,其中独立于为其他时间片生成的词嵌入,为每个时间片生成所述词嵌入。
8.根据权利要求1所述的方法,其中利用先前时间片的词嵌入生成时间片的所述词嵌入。
9.根据权利要求1所述的方法,其中与所述语义集合相关联的所述多个语义实体不包括所述第二语义实体,所述语义集合与所述第二语义实体相关联。
10.根据权利要求1所述的方法,其中所述第二语义关联强度是所述第一语义实体输入和与语义集合相关联的所述多个语义实体之间的一组语义关联强度的平均值、中位数或百分位数,所述语义集合与所述第二语义实体相关联。
11.根据权利要求1所述的方法,进一步包括:
检测第一时间片的所述第一语义关联强度相对于随后的第二时间片的所述第一语义关联强度的增量;和
确定所述第一语义关联强度的所述增量相对于所述相应的第二语义关联是否具有统计显著性。
12.根据权利要求11所述的方法,其中基于p值来确定所述增量的所述统计显著性,所述p值用作所述第一语义关联强度相对于所述对应的第二语义关联的统计显著性的度量。
13.根据权利要求1所述的方法,进一步包括:
基于所述一个或多个知识库中所述第一实体和所述第二实体之间的共现水平来选择所述第一实体输入和所述第二实体输入。
14.根据权利要求13所述的方法,其中所述第一实体和所述第二实体之间的所述共现水平为零。
15.根据权利要求1所述的方法,进一步包括:
从用户接收所述第一实体输入和所述第二实体输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩芙润斯公司,未经恩芙润斯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780071846.6/1.html,转载请声明来源钻瓜专利网。