[发明专利]一种面向英文写作辅助的语义匹配方法及装置在审

专利信息
申请号: 201911063163.3 申请日: 2019-10-31
公开(公告)号: CN112749566A 公开(公告)日: 2021-05-04
发明(设计)人: 兰雨晴;廉照鹏 申请(专利权)人: 兰雨晴
主分类号: G06F40/30 分类号: G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京汇智英财专利代理事务所(普通合伙) 11301 代理人: 张玮玮
地址: 100084 北京市海淀区圆*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 英文 写作 辅助 语义 匹配 方法 装置
【说明书】:

发明涉及一种面向英文写作辅助的语义匹配方法及装置,所述匹配方法包括如下步骤:步骤S1:构建例句语料库;步骤S2:构建语义匹配模型训练数据集;步骤S3:构建多视角注意力机制的语义匹配模型;步骤S4:训练语义匹配模型。本发明提供的面向英文写作辅助的语义匹配方法及装置,在几个公开语义匹配数据集上均取得显著效果,能够提取更丰富交互匹配信息,更好的捕捉句子对之间联系与区别,更好地得到全局匹配信息,在文本匹配相关领域有很大的应用前景。

技术领域

本发明涉及自然语言处理技术领域,具体地说是一种面向英文写作辅助的语义匹配方法及装置。

背景技术

作为世界使用范围最广的语言,英语在日常的学术交流和商贸往来中扮演着重要的角色。而作为正式沟通的一种重要的渠道,写作成为仅次于口语、横亘于许多非外语工作者和国外世界的一道屏障。写作者的写作水平可以凸显其掌握语言的熟练程度,要想写出高质量的文章,必须拥有大量的阅读经历及知识储备。然而,对大多数以非英语为母语的学生来说,由于英语阅读经历和知识储备的缺乏,写出高质量的英语文章绝非是一件容易的事。在写作的过程中,他们往往先用自己的母语组织文章内容,然后再将其翻译成相对应的英语。这种翻译式的写作方法,很难写出原汁原味的英语文章。

随着互联网的高速发展与电脑的大量普及,很多人在写作的时候都会利用大量的网络资源来帮助自己完成任务。网络资源包括两大块:一块是大量的英文网页,通过搜索引擎,写作者可以很快的定位到和自己写作相关的材料,写作者可以依据这些网络资源,一方面提供写作语句的参考,另一方面亦可以给自己的写作思路提供很好的模型;另一块是网络在线翻译资源,包括网络词典和在线翻译。在写作过程中遇到困难的人虽然可以通过互联网来获得帮助,但是这种方式既费时费力又效率低下,不能有效地提高用户的写作水平,帮助用户写出高质量的英语文章。如何更加有效地帮助用户提高英语写作水平,依然是研究者需要面对的问题。

针对上述问题,国内外学者开发了许多辅助写作系统。这些辅助写作系统不仅提供了文字编辑区,而且提供了词搭配、相似内容推荐等相关功能。这些系统的出现,在一定程度上提高了用户的写作质量。但是通过对现有辅助写作系统的分析与研究,不难发现其大多数使用的仍然是非常传统的方法,效果比较有限。传统统计机器学习阶段需要大量的人工经验和时间进行早期的数据标注和中期的特征抽取,而且对于复杂任务实验效果并不理想,并不能很好地进行文本表示,理解语义信息。而且传统文本表示方法导致的维度灾难、数据稀疏等问题等已经影响自然语言处理领域的发展。近年来由于深度神经网络和文本词向量技术的迅猛发展,将深度神经网络应用到文本匹配领域逐渐成为一个新的研究方向。

综上所述,如何构建有效的深度文本语义匹配方法,以及将方法应用到写作辅助是个很重要,非常值得研究的问题。因此本文提出一种面向写作辅助的文本匹配方法及装置。

发明内容

本发明提供了一种面向英文写作辅助的语义匹配方法,包括如下步骤:

步骤S1:构建例句语料库;

步骤S2:构建语义匹配模型训练数据集;

步骤S3:构建多视角注意力机制的语义匹配模型;

步骤S4:训练语义匹配模型。

其中,所述步骤S1包括:

步骤S11:对英文写作网站数据进行爬取解析,并将内容按文章的形式进行存储,构建语料库;

步骤S12:对语料库内容进行一些基本的预处理,以语句的形式进行保存构建例句语料库。

其中,所述步骤S2包括:

步骤S21:对构建的例句语料库中语料进行部分标注;

步骤S22:利用加权的词向量作为无监督的句向量表示,利用余弦距离得到一些候选的语义相似句子对;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰雨晴,未经兰雨晴许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911063163.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top