[发明专利]词嵌入方法和设备以及词搜索方法在审
| 申请号: | 202010310047.3 | 申请日: | 2020-04-20 |
| 公开(公告)号: | CN112733536A | 公开(公告)日: | 2021-04-30 |
| 发明(设计)人: | 柳尚贤;金映锡;崔俊辉 | 申请(专利权)人: | 三星电子株式会社 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/30;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;黄晓燕 |
| 地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 嵌入 方法 设备 以及 搜索 | ||
提供了一种词嵌入方法和设备以及词搜索方法,其中,所述词嵌入方法包括:基于化学物质的特性信息来训练词嵌入模型;和从词嵌入模型获取表示化学物质的词的嵌入向量,其中,词嵌入模型被配置为预测输入词的上下文词。
本申请要求于2019年10月14日在韩国知识产权局提交的第10-2019-0127032号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
下面的描述涉及词嵌入和词搜索方法和设备。
背景技术
大量的知识已发表成文本,例如论文和书籍。以自由文本描述的这样的累积知识是用户理解的形式,并且正在努力使用自然语言处理(NLP)技术从文本提取结构化知识。
发明内容
提供本发明内容以便以简化的形式介绍以下在具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。
在一个总体方面,提供了一种词嵌入方法,所述方法包括:基于化学物质的特性信息来训练词嵌入模型;和从词嵌入模型获取表示化学物质的词的嵌入向量,其中,词嵌入模型被配置为预测输入词的上下文词。
训练词嵌入模型的步骤可包括:基于化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合来训练词嵌入模型。
训练词嵌入模型的步骤可包括:训练词嵌入模型,以响应于化学物质的结构信息被输入到词嵌入模型,输出表示化学物质的词的上下文词。
基于指纹、简化分子线性输入规范(SMILES)、图形或图像中的一个的格式来确定化学物质的结构信息。
训练词嵌入模型的步骤可包括:训练词嵌入模型,以响应于化学物质的成分信息被输入到词嵌入模型,从词嵌入模型输出表示化学物质的词的上下文词。
化学物质的成分信息可从表示化学物质的词获取。
可将表示化学物质的词分成字母或元素,并且将字母或元素顺序地输入到词嵌入模型。
训练词嵌入模型的步骤可包括:训练词嵌入模型,以从词嵌入模型输出化学物质的物理性质信息。
物理性质信息可包括关于化学物质的质量、体积、颜色、熔点以及沸点中的任何一个或任何组合的信息。
所述词嵌入方法可包括:将嵌入向量输入到与词嵌入模型对应的词嵌入矩阵中的与表示化学物质的词对应的部分。
所述词嵌入方法可包括:确定具有将要生成的嵌入向量的词是否表示化学材料。
在一个总体方面,提供了另一种词搜索方法,所述词搜索方法包括:接收化学物质的特性信息或表示所述化学物质的词;和基于词嵌入矩阵输出表示具有与所述化学物质相似的特性的物质的词,其中,词嵌入矩阵从基于多个化学物质的特性信息训练的词嵌入模型获取,并且词嵌入模型被配置为预测输入词的上下文词。
所述化学物质的特性信息可包括所述化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合。
一种词嵌入设备包括:处理器,被配置为:基于化学物质的特性信息来训练词嵌入模型,和从词嵌入模型获取表示化学物质的词的嵌入向量;和词嵌入模型,被配置为预测输入词的上下文词。
处理器可被配置为:基于化学物质的结构信息、成分信息以及物理性质信息中的任何一个或任何组合来训练词嵌入模型。
处理器可被配置为:训练词嵌入模型,以响应于化学物质的结构信息被输入到词嵌入模型,输出表示化学物质的词的上下文词。
处理器可被配置为:训练词嵌入模型,以响应于化学物质的成分信息被输入到词嵌入模型,输出表示化学物质的词的上下文词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010310047.3/2.html,转载请声明来源钻瓜专利网。





