[发明专利]一种自动生成语义相近句子样本的方法在审

申请号：	201710109325.7	申请日：	2017-02-27
公开（公告）号：	CN108509409A	公开（公告）日：	2018-09-07
发明（设计）人：	王昊;陈见耸;高鹏	申请（专利权）人：	芋头科技（杭州）有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海申新律师事务所 31272	代理人：	党蕾
地址：	310000 浙江省杭州市余杭区***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种自动生成语义相近句子样本的方法，属于语言处理技术领域；方法包括：获取句子样本并进行分词处理；采用词向量模型得到与每个词语的语义相近的相近词的集合；分别从集合中选取一个相近词并替换词语，以形成语义相近句子样本；采用语言模型，分别针对每个语义相近句子样本生成用于表示语义可能性的可能值，并按照可能值由高至低对所有语义相近句子样本排序；选取并保留前N个语义相近句子样本，以根据被保留的语义相近句子样本进行后续处理步骤。上述技术方案的有益效果是：能够在不需要海量的后续句子集合的情况下自动生成大批量的语义相近的句子样本，省去了大量的人力工作。
搜索关键词：	语义句子样本自动生成集合词语语言处理技术分词处理后续处理后续句子样本生成语言模型词向量保留排序替换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自动生成语义相近句子样本的方法，适用于自然语言处理的过程中；其特征在于，预先训练并形成用于处理得到语义相近的词语的词向量模型，以及用于判断生成的所述语义相近句子样本的语义可能性的语言模型，还包括：步骤S1，获取外部输入的句子样本；步骤S2，对所述句子样本进行分词处理，以将所述句子样本分解为包括多个依序排列的词语的组合；步骤S3，采用所述词向量模型，分别得到与所述句子样本中包括的每个所述词语的语义相近的相近词的集合；步骤S4，分别从与每个所述词语相对应的所述集合中选取一个所述相近词并替换所述词语，以形成关联于所述句子样本的所述语义相近句子样本；步骤S5，判断所述集合中是否还有尚未被选取的所述相近词：若有，则返回所述步骤S4；步骤S6，采用所述语言模型，分别针对每个所述语义相近句子样本生成用于表示所述语义可能性的可能值，并按照所述可能值由高至低对所有所述语义相近句子样本排序；步骤S7，选取并保留前N个所述语义相近句子样本，以根据被保留的所述语义相近句子样本进行后续处理步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于芋头科技（杭州）有限公司，未经芋头科技（杭州）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710109325.7/，转载请声明来源钻瓜专利网。

上一篇：一种句子相似度判断方法
下一篇：文本语义相似度计算方法、装置及用户终端

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自动生成语义相近句子样本的方法在审

专利文献下载