[发明专利]DINFO‑OEC文本分析挖掘方法与设备有效

申请号：	201410155830.1	申请日：	2014-04-18
公开（公告）号：	CN105022733B	公开（公告）日：	2018-03-23
发明（设计）人：	不公告发明人	申请（专利权）人：	中科鼎富（北京）科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京三高永信知识产权代理有限责任公司11138	代理人：	江崇玉
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	dinfo oec 文本分析挖掘方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种非结构化文本大数据分析挖掘方法，其特征在于，包括以下步骤：

对输入文本进行概念提取和概念表达式识别；

依据挖掘模型中的挖掘规则，对输入文本的概念表达式进行分析挖掘；

计算挖掘结果的可信度；

按可信度输出挖掘结果；挖掘结果可视化展示，

其中所述挖掘模型包括3棵树：

本体树：树状组织业务分类，为每个业务类型设置挖掘结果和挖掘规则，挖掘结果包括分类、聚类、关键词组合和倾向性评价；

要素树：树状组织业务相关的概念，包括业务中用到的对象、工具和属性；树的节点是要素名，每个要素名对应多个要素值；要素值是一个词语或文字模式；

概念树：树状组织业务无关的、用一句话或一段话表示的概念，树的节点是概念名，概念值是一句话或文字模式。

2.如权利要求1所述的非结构化文本大数据分析挖掘方法，其特征在于，所述挖掘规则包括3种类型：

一是CR，表示挖掘规则采用概念表达式方式，一个挖掘规则包含n个概念表达式，其中n>＝1；

二是SR，表示挖掘规则采用统计算法，一个挖掘规则对应一种统计算法，系统支持K近邻分类算法和支持向量机分类算法；

三是UR，表示挖掘规则由用户自定义。

3.如权利要求1所述的非结构化文本大数据分析挖掘方法，其特征在于，所述概念表达式支持概念之间的复杂语义关系：

用逻辑运算符支持概念之间的逻辑关系表达，概念之间的逻辑与，用“+”表示；概念之间的逻辑或，用“|”表示；概念排除，用“-”表示；逻辑运算优先级，用“(”和“)”表示，表示括号中的运算优先；用谓词逻辑f(a1,a2,…,an)支持概念之间的复杂语言关系表达，表示a1、a2、…和an之间具有f关系，f是一个概念，ai(i＝1～n，n>＝1)是一个概念；用特殊符号表示概念之间的位置和顺序关系，句子限定用“#”表示，表示条件必须在同一个句子出现。

4.如权利要求1所述的非结构化文本大数据分析挖掘方法，其特征在于，所述概念提取和概念表达式识别包括以下步骤：对输入文本分词和命名实体识别；从分词结果中做概念发现，利用同义词表进行同义扩展，利用概念树的概念值发现复杂概念，对发现的概念识别概念类型，区分业务要素和常用概念，利用要素树识别业务要素，利用概念树识别常用概念类型，对概念提取结果，识别输入文本中概念之间的语义关系，给出概念表达式。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科鼎富（北京）科技发展有限公司，未经中科鼎富（北京）科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410155830.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种背景色设置方法及装置
下一篇：一种基于浏览器生成地理网络的方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

DINFO‑OEC文本分析挖掘方法与设备

[发明专利]DINFO‑OEC文本分析挖掘方法与设备有效

专利文献下载