[发明专利]DINFO‑OEC文本分析挖掘方法与设备有效
申请号: | 201410155830.1 | 申请日: | 2014-04-18 |
公开(公告)号: | CN105022733B | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司11138 | 代理人: | 江崇玉 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | dinfo oec 文本 分析 挖掘 方法 设备 | ||
技术领域
本发明涉及文本挖掘技术领域,具体涉及一种基于概念的DINFO-OEC挖掘方法以及DINFO-OEC挖掘设备。
背景技术
社会化大数据中80%是非结构化数据,非结构化大数据处理是大数据面临的最大挑战。结构化数据分析不能充分挖掘发现大数据中的语义。
非结构化文本挖掘的挑战在于:
语言多样性带来的维护挑战:文本中的语言表达方式多种多样,缩写、简写等不规范用法普遍存在,需要穷举所有语言表达方式,业务人员陷入语言表达细节,维护困难。
业务分类及规则多变化快带来的维护挑战:业务分类多,分类变化快,每次分类变化时,需要把相关的所有分类的语言规则重新梳理,维护工作量巨大,维护效率低。
多语种同步处理带来的挑战:不同语种的挖掘需要同时分析,需要对每种语言单独建立规则,要求维护的业务人员掌握多语种,对维护人员要求太高。
文本中噪音大带来的分类挑战:文本长短不一,其中的关联性错综复杂,无法使用关键词统计的方法达到很好的挖掘效果。
而现有的技术一般采用统计方法进行文本挖掘,没有考虑到业务人员的需求,只提供挖掘算法,给业务人员带来了很多的困扰。文本挖掘技术面临的问题是,如何从一篇或海量非结构化文本中分析挖掘出用户关心的有价值的信息,让业务人员从业务角度定义挖掘需求和挖掘规则,而无需考虑文本中语言表达习惯的多样性带来的语言歧义问题。
发明内容
本发明要解决的技术问题是如何从一篇或海量非结构化文本中分析挖掘出用户关心的有价值的信息,让业务人员从业务角度定义挖掘需求和挖掘规则,而无需考虑文本中语言表达习惯的多样性带来的语言歧义问题。为了解决上述技术问题,本发明提供了一种基于概念的非结构化文本大数据分析挖掘方法及其设备。
所述方法包括以下步骤:(1)预处理,包括断句、分词和命名实体识别;(2)对输入文本进行概念提取和概念表达式识别;(3)依据挖掘模型中的挖掘规则,对输入文本的概念表达式进行分析挖掘;(4)计算挖掘结果的可信度;(5)按可信度输出挖掘结果;(5)挖掘结果可视化展示。
所述方法的挖掘模型包括3棵树:(1)本体树:树状组织业务分类,为每个业务类型设置挖掘结果和挖掘规则。挖掘结果包括分类、聚类、关键词组合、倾向性评价等。(2)要素树:树状组织业务相关的概念,是业务中经常用到对象、工具、属性等概念。树的节点是要素名,每个要素名可以对应多个要素值。要素值是一个词语或文字模式。(3)概念树:树状组织业务无关的常用复杂概念,即用一句话或一段话表示的概念。树的节点是概念名,概念值是一句话或文字模式。
所述方法的挖掘规则,包括3种类型:(1)CR,表示挖掘规则采用概念表达式方式。一个挖掘规则包含n个概念表达式(n>=1)。(2)SR,表示挖掘规则采用统计算法。一个挖掘规则对应一种统计算法。系统支持KNN(K近邻)、SVM(支持向量机)分类算法。(3)UR,表示挖掘规则用户自定义,可定制算法。
所述方法的概念提取过程,包括步骤:(1)从分词结果中做概念发现,利用同义词表进行同义扩展,利用概念树的概念值发现复杂概念。(2)对发现的概念识别概念类型,区分业务要素和常用概念。利用要素树识别业务要素,利用概念树识别常用概念类型。(3)对概念提取结果,识别输入文本中概念之间的语义关系,给出概念表达式。
所述设备包括以下几个单元: (1)挖掘模型建模单元,实现挖掘模型的建模,本体树、要素树以及概念树的管理维护等。(2)预处理单元,实现输入文本的分词与命名实体识别等基础处理。(3)概念提取与表达式识别单元,实现输入文本的概念提取,概念表达式识别。输出概念列表和概念表达式。(4)分析挖掘单元,实现利用挖掘模型中的挖掘规则,对输入文本概念提取结果进行挖掘,输出挖掘结果。每个挖掘结果输出可信度。(5)可视化展示单元,实现挖掘结果的可视化展示,支持折线图、柱状图、饼图、词汇云图形式展示。
本发明内容具有以下优点,通过挖掘模型建模,分离业务和自然语言表达的多样性,降低业务维护投入,提高系统的可维护性。通过基于概念的挖掘方法,提供较高准确率的分析挖掘结果。使用DINFO-OEC非结构化大数据分析挖掘设备,可大大提高分析挖掘的效果。
附图说明
图1 是DINFO-OEC非结构化文本大数据分析挖掘方法示意图。
图2 是DINFO-OEC模型示意图。
图3 是概念提取流程图。
图4是DINFO-OEC分析挖掘设备示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科鼎富(北京)科技发展有限公司,未经中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410155830.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种背景色设置方法及装置
- 下一篇:一种基于浏览器生成地理网络的方法和系统