[发明专利]一种基于开放数据的语料库构建方法和系统在审

申请号：	201810012673.7	申请日：	2018-01-06
公开（公告）号：	CN108153895A	公开（公告）日：	2018-06-12
发明（设计）人：	付婷;蔡力军;苏运东;蔡宇翔;孙浩淞;王雪晶;伊春凤;苏江文;王秋琳;刘心	申请（专利权）人：	国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊;陈章霖
地址：	350003 福***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于开放数据的语料库构建方法和系统，该方法包括：S1：由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈，利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库；S2：基于步骤S1得到的驱动语料库，利用机器学习分类算法构建语料分类模型，基于语料分类模型对不断采集的原始数据库进行预测，将语料分类模型预测的结果不断加入到面向特定领域的语料库中，直到满足语料库构建在数量上的要求。与现有技术相比，本发明能够有效降低人工投入、大幅度减小业务专家投入、提升语料库质量，并可以用于不同语料库的构建过程中，有效降低了特定领域语料库的构建成本。
搜索关键词：	语料库构建语料库构建分类模型语料原始数据库预测预测模型领域语料库驱动初始设置分类算法规则获取机器学习正确率减小排序采集开放
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于开放数据的语料库构建方法，其特征在于，包括以下步骤：S1：由初始设置的规则获取规则按照预测正确率从高到低进行排序的有序规则栈，利用有序规则栈构建初始预测模型，利用初始预测模型对原始数据库进行预测，得到驱动语料库；S2：基于步骤S1得到的驱动语料库，利用机器学习分类算法构建语料分类模型，基于语料分类模型对不断采集的原始数据库进行预测，将语料分类模型预测的结果不断加入到面向特定领域的语料库中，直到满足面向特定领域的语料库构建在数量上的要求。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司，未经国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810012673.7/，转载请声明来源钻瓜专利网。

上一篇：一种多展会展览信息服务平台
下一篇：针对输入数据、输出数据的处理方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于开放数据的语料库构建方法和系统在审

专利文献下载