[发明专利]一种面向英文写作辅助的语义匹配方法及装置在审
| 申请号: | 201911063163.3 | 申请日: | 2019-10-31 |
| 公开(公告)号: | CN112749566A | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 兰雨晴;廉照鹏 | 申请(专利权)人: | 兰雨晴 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京汇智英财专利代理事务所(普通合伙) 11301 | 代理人: | 张玮玮 |
| 地址: | 100084 北京市海淀区圆*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 英文 写作 辅助 语义 匹配 方法 装置 | ||
1.一种面向英文写作辅助的语义匹配方法,其特征在于,包括如下步骤:
步骤S1:构建例句语料库;
步骤S2:构建语义匹配模型训练数据集;
步骤S3:构建多视角注意力机制的语义匹配模型;
步骤S4:训练语义匹配模型。
2.如权利要求1所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S1包括:
步骤S11:对英文写作网站数据进行爬取解析,并将内容按文章的形式进行存储,构建语料库;
步骤S12:对语料库内容进行一些基本的预处理,以语句的形式进行保存构建例句语料库。
3.如权利要求1所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S2包括:
步骤S21:对构建的例句语料库中语料进行部分标注;
步骤S22:利用加权的词向量作为无监督的句向量表示,利用余弦距离得到一些候选的语义相似句子对;
步骤S23:进行人工筛选并标注为正例样本或负例样本。
4.如权利要求1所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S3包括:
步骤S31:构建字符映射转换表,建立每个单词或标点符号与数字ID的对应关系;
步骤S32:利用映射转换表将输入的字符转化为对应的数字ID;
步骤S33:利用数字ID得到每个单词的词向量,将两个句子以二维张量表示;
步骤S34:使用一个共享权重的双向LSTM对两个句子分别进行编码,利用上下文信息将两个句子映射到相同向量空间,从而得到更准确的词向量表示;
步骤S35:利用精确匹配矩阵、原始词向量以及编码之后的词向量构建句子对的匹配矩阵;
步骤S36:利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码,然后利用最大池化和注意力加权池化对特征进行融合;
步骤S37:利用多层感知机MLP对特征进一步编码整合,输出最终的语义匹配结果。
5.如权利要求5所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S35包括:
步骤S351:使用两个语句各个位置词向量对原始词向量匹配矩阵与编码后的词向量匹配矩阵进行点乘运算,以衡量语义相似;
步骤S352:利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合,通过多个视角得到最终的匹配矩阵;
步骤S353:将匹配矩阵的值作为表示词重要性的权重,利用基于注意力机制的软对齐方法,将两个句子分别表示为与另一个句子等长的二维张量;
步骤S354:分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征。
6.如权利要求1所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S4包括:
步骤S41:将步骤S2中,在构建语义匹配模型训练数据集所标注的数据集随机打乱,并划分为训练集、验证集及测试集三部分;
步骤S42:使用训练集对匹配模型进行训练;
步骤S43:利用验证集对模型的超参数进行调整;
步骤S44:利用测试集对模型效果进行测试。
7.如权利要求6所述的面向英文写作辅助的语义匹配方法,其特征在于,所述步骤S43中,超参数包括epoch、batch size、学习率、隐藏层维度及dropout系数。
8.一种面向英文写作辅助的语义匹配装置,其特征在于,包括:
例句语料库构建单元,利用爬虫相关技术,对英文写作网站数据进行爬取,并对爬取内容进行预处理,构建例句语料库;
语义匹配模型构建单元,用于构建多视角的注意力文本语义匹配模型;
语义匹配模型训练单元,用于使用标注的语义匹配数据集对语义匹配模型进行训练及验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰雨晴,未经兰雨晴许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911063163.3/1.html,转载请声明来源钻瓜专利网。





