[发明专利]一种文本实体抽取方法与系统在审

申请号：	201711450896.3	申请日：	2017-12-27
公开（公告）号：	CN108170678A	公开（公告）日：	2018-06-15
发明（设计）人：	晋彤;张中弦	申请（专利权）人：	广州市云润大数据服务有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	麦小婵;郝传鑫
地址：	510000 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文本实体抽取方法与系统，所述文本实体抽取方法包括采集原始文本；根据预设的实体词库，从所述原始文本中搜索未收录到所述实体词库中的实体词形成测试语料集；根据所述测试语料集，训练预设的双层神经网络抽取模型；根据所述预设的双层神经网络抽取模型和所述测试语料集，预测新实体词并将所述新实体词更新到所述预设的实体词库中。通过所述文本实体抽取方法能够识别词典未收录的词或网络新词，提高文本实体抽取的准确性和效率性。 1
搜索关键词：	抽取文本实体预设测试语料集词库双层神经网络原始文本效率性搜索采集更新预测网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本实体抽取方法，其特征在于，包括：

采集原始文本；

根据预设的实体词库，从所述原始文本中搜索未收录到所述实体词库中的实体词形成测试语料集；

根据所述测试语料集，训练预设的双层神经网络抽取模型；

根据所述预设的双层神经网络抽取模型和所述测试语料集，预测新实体词并将所述新实体词更新到所述预设的实体词库中。

2.如权利要求1所述的文本实体抽取方法，其特征在于，还包括：

根据SVM复合核函数复合卷积核函数和实体特征核函数，建立实体词分类模型；

根据所述实体词分类模型，对所述新实体词进行分类标注；

根据预设的损失函数，对所述新实体词进行验证。

3.如权利要求1所述的文本实体抽取方法，其特征在于，所述根据所述测试语料集，训练预设的双层神经网络抽取模型，具体包括：

根据Skip‑gram算法和Bag‑of‑words算法，建立所述预设的双层神经网络抽取模型；

根据所述测试语料集、所述Skip‑gram算法的属性参数以及所述Bag‑of‑words算法的属性参数，生成联合词向量；

根据所述联合词向量，训练预设的双层神经网络抽取模型。

4.如权利要求1所述的文本实体抽取方法，其特征在于，还包括：

对所述原始文本进行降噪处理；

根据预设的分词模型，对降噪后的原始文本进行分词处理。

5.如权利要求4所述的文本实体抽取方法，其特征在于，所述根据预设的分词模型，对降噪后的所述原始文本进行分词处理，具体包括：

根据MMseg分割算法和CRF判别算法，建立所述预设的分词模型；

根据所述预设的分词模型的CRF判别算法对降噪后的原始文本中的歧义词进行判别分析；

根据所述预设的分词模型的MMseg分割算法对降噪后的原始文本进行切分处理。

6.如权利要求1所述的文本实体抽取方法，其特征在于，所述根据预设的实体词库，从所述原始文本中搜索未收录到所述实体词库中的实体词形成测试语料集，具体包括：

根据所述预设的实体词库，识别所述原始文本中收录到所述实体词库的原始实体词；

根据所述原始实体词，对所述原始文本进行句法分析、上下文场景分析以及概率统计，获取未收录到所述实体词库中的实体词，并形成所述测试语料集。

7.如权利要求3所述的文本实体抽取方法，其特征在于，所述预设的双层神经网络抽取模型为：

其中，X_n为所述联合词向量，y_n为所述预测的新实体词，N为所述测试语料集的大小；C为softmax函数的参数，A为预训练的词向量矩阵。

8.如权利要求2所述的文本实体抽取方法，其特征在于，所述实体词分类模型为：

其中，λ为权重系数，0＜λ＜1；E₁,E₂为两个新实体词；SFT为最短路径包含树；CTK为所述卷积树核函数；Equal为所述实体特征核函数；E₁·C_i为实体词E₁的第i个类别的特征，E₂·C_i为实体词E₂的第i个类别的特征，当E₁属于第i类别时，E₁.C_i为1，否则为0；当E₁.C_i,E₂.C_i同时为1时，Equal的值为1，否则为0；M为类别数目。