[发明专利]术语标准化方法及装置有效
| 申请号: | 202110053293.X | 申请日: | 2021-01-15 |
| 公开(公告)号: | CN112711652B | 公开(公告)日: | 2022-10-14 |
| 发明(设计)人: | 俞声;余丽珊 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N20/00;G16H70/00 |
| 代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
| 地址: | 10008*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 术语 标准化 方法 装置 | ||
1.一种术语标准化方法,其特征在于,包括:
获得标准化术语语料库和标准术语集合,其中,标准术语集合包含标准术语和与所述标准术语对应的编码,
标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合;
利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为三元组的形式,所述三元组由锚元、正元和负元组成,其中,锚元为标准术语或不规范术语,正元为与锚元对应同一标准术语的术语,负元为设定数量的与锚元对应的标准术语不同的术语;
利用所述训练数据集训练表示学习模型,获得训练好的表示学习模型;
利用所述训练好的表示学习模型获得待标准化术语和标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度最高的标准术语作为所述待标准化术语的标准化结果,
还包括术语预处理,所述术语预处理是指将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理,
所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量,
所述利用所述训练数据集训练表示学习模型包括:
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
2.根据权利要求1所述的术语标准化方法,其特征在于,
所述术语嵌入式表达向量是该术语的所有最小语言单位的字词嵌入式表达向量的加和。
3.根据权利要求1所述的术语标准化方法,其特征在于,
所述相似度取术语嵌入式表达向量之间的余弦相似度。
4.一种术语标准化装置,其特征在于,包括:
训练数据集构建模块,获得标准化术语语料库和标准术语集合,其中,标准术语集合包含标准术语和与所述标准术语对应的编码,标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合;利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为一个三元组的形式,所述三元组由锚元、正元和负元组成,其中,锚元为标准术语或不规范术语,正元为与锚元对应同一标准术语的术语,负元为设定数量的与锚元对应的标准术语不同的术语;
模型训练模块,用于利用所述训练数据集训练表示学习模型,获得训练好的表示学习模型;
术语标准化模块,用于利用所述训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度最高的标准术语作为所述待标准化术语的标准化结果,
还包括术语预处理模块,所述术语预处理模块用于将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理,
所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量,
所述模型训练模块训练的过程包括:
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110053293.X/1.html,转载请声明来源钻瓜专利网。





