[发明专利]一种文本实体抽取方法与系统在审
申请号: | 201711450896.3 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108170678A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 晋彤;张中弦 | 申请(专利权)人: | 广州市云润大数据服务有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本实体抽取方法与系统,所述文本实体抽取方法包括采集原始文本;根据预设的实体词库,从所述原始文本中搜索未收录到所述实体词库中的实体词形成测试语料集;根据所述测试语料集,训练预设的双层神经网络抽取模型;根据所述预设的双层神经网络抽取模型和所述测试语料集,预测新实体词并将所述新实体词更新到所述预设的实体词库中。通过所述文本实体抽取方法能够识别词典未收录的词或网络新词,提高文本实体抽取的准确性和效率性。 1 | ||
搜索关键词: | 抽取 文本实体 预设 测试语料集 词库 双层神经网络 原始文本 效率性 搜索 采集 更新 预测 网络 | ||
采集原始文本;
根据预设的实体词库,从所述原始文本中搜索未收录到所述实体词库中的实体词形成测试语料集;
根据所述测试语料集,训练预设的双层神经网络抽取模型;
根据所述预设的双层神经网络抽取模型和所述测试语料集,预测新实体词并将所述新实体词更新到所述预设的实体词库中。
2.如权利要求1所述的文本实体抽取方法,其特征在于,还包括:根据SVM复合核函数复合卷积核函数和实体特征核函数,建立实体词分类模型;
根据所述实体词分类模型,对所述新实体词进行分类标注;
根据预设的损失函数,对所述新实体词进行验证。
3.如权利要求1所述的文本实体抽取方法,其特征在于,所述根据所述测试语料集,训练预设的双层神经网络抽取模型,具体包括:根据Skip‑gram算法和Bag‑of‑words算法,建立所述预设的双层神经网络抽取模型;
根据所述测试语料集、所述Skip‑gram算法的属性参数以及所述Bag‑of‑words算法的属性参数,生成联合词向量;
根据所述联合词向量,训练预设的双层神经网络抽取模型。
4.如权利要求1所述的文本实体抽取方法,其特征在于,还包括:对所述原始文本进行降噪处理;
根据预设的分词模型,对降噪后的原始文本进行分词处理。
5.如权利要求4所述的文本实体抽取方法,其特征在于,所述根据预设的分词模型,对降噪后的所述原始文本进行分词处理,具体包括:根据MMseg分割算法和CRF判别算法,建立所述预设的分词模型;
根据所述预设的分词模型的CRF判别算法对降噪后的原始文本中的歧义词进行判别分析;
根据所述预设的分词模型的MMseg分割算法对降噪后的原始文本进行切分处理。
6.如权利要求1所述的文本实体抽取方法,其特征在于,所述根据预设的实体词库,从所述原始文本中搜索未收录到所述实体词库中的实体词形成测试语料集,具体包括:根据所述预设的实体词库,识别所述原始文本中收录到所述实体词库的原始实体词;
根据所述原始实体词,对所述原始文本进行句法分析、上下文场景分析以及概率统计,获取未收录到所述实体词库中的实体词,并形成所述测试语料集。
7.如权利要求3所述的文本实体抽取方法,其特征在于,所述预设的双层神经网络抽取模型为:其中,Xn为所述联合词向量,yn为所述预测的新实体词,N为所述测试语料集的大小;C为softmax函数的参数,A为预训练的词向量矩阵。
8.如权利要求2所述的文本实体抽取方法,其特征在于,所述实体词分类模型为:其中,λ为权重系数,0<λ<1;E1,E2为两个新实体词;SFT为最短路径包含树;CTK为所述卷积树核函数;Equal为所述实体特征核函数;E1·Ci为实体词E1的第i个类别的特征,E2·Ci为实体词E2的第i个类别的特征,当E1属于第i类别时,E1.Ci为1,否则为0;当E1.Ci,E2.Ci同时为1时,Equal的值为1,否则为0;M为类别数目。
9.一种文本实体抽取系统,其特征在于,包括:文本采集模块,用于采集原始文本;
测试语料集生成模块,用于根据预设的实体词库,从所述原始文本中搜索未收录到所述实体词库中的实体词形成测试语料集;
模型训练模块,用于根据所述测试语料集,训练预设的双层神经网络抽取模型;
实体词预测模块,用于根据所述预设的双层神经网络抽取模型和所述测试语料集,预测新实体词并将所述新实体词更新到所述预设的实体词库中。
10.如权利要求9所述的文本实体抽取系统,其特征在于,还包括:分类模型建立模块,用于根据SVM复合核函数复合卷积核函数和实体特征核函数,建立实体词分类模型;
分类标注模块,用于根据所述实体词分类模型,对所述新实体词进行分类标注;
实体词验证模块,用于根据预设的损失函数,对所述新实体词进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市云润大数据服务有限公司,未经广州市云润大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711450896.3/,转载请声明来源钻瓜专利网。