[发明专利]句型识别方法有效

申请号：	201911165208.8	申请日：	2019-11-25
公开（公告）号：	CN111507085B	公开（公告）日：	2023-07-07
发明（设计）人：	王冲;崇传兵	申请（专利权）人：	江苏艾佳家居用品有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/279;G06F40/289;G06F16/332
代理公司：	南京新慧恒诚知识产权代理有限公司 32424	代理人：	邓唯
地址：	211100 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	句型识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种句型识别方法，通过获取训练数据集，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据余弦相似度确定待识别语句的类型，使待识别语句的类型以待识别语句所包括的目标词为依据，可以提高识别结果的准确性，从而提高识别精度。

技术领域

本发明涉及信号处理技术领域，尤其涉及一种句型识别方法和存储介质。

背景技术

问答系统(Question Answering System，QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。一个问答系统牵涉到问和答，那么从海量的语句中识别出问句是个很迫切的需求。只有识别出C端(客户端)的问答需求，才能更好的针对问题进行归纳整理答案，更好的服务客户。传统方案往往通过分析标点等句型特征进行句型识别，虽然在一定程度上可以响应句型识别需求，然而往往存在识别精度低的问题。

发明内容

针对以上问题，本发明提出一种句型识别方法和存储介质。

为实现本发明的目的，提供一种句型识别方法，包括如下步骤：

S10，获取训练数据集；所述训练数据集包括多个标注句型的问句以及多个标注句型的非问句；

S30，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列；所述第一词向量序列用于计算各个词语的第一词向量，第一词向量表征相应词语属于问句的概率，所述第二词向量序列用于计算各个词语的第二词向量，第二词向量表征相应词语属于非问句的概率；

S40，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2；

S50，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型。

在一个实施例中，所述计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型包括：

分别将问句词向量QV1和非问句词向量QV2转换为设定长度的向量，计算转换后的两个向量的余弦相似度；

当余弦相似度大于设定阈值时，判定待识别语句为非问句，当余弦相似度小于设定阈值时，判定待识别语句为问句。

在一个实施例中，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列之前，还包括：

S20，对所述训练数据集进行预处理，以去除所述训练数据集中各个语句中的噪声词。