[发明专利]一种文本分析知识库的构建方法在审
申请号: | 201810233777.0 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108563630A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 王晓峰;袁波 | 申请(专利权)人: | 上海蔚界信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201913 上海市崇明区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 情感词典 文本类数据 词典模块 情感规则 情感倾向 文本分析 库模块 语句库 构建 分析 词汇 场景形成 无效内容 业务领域 智能应用 情感词 去除 计算机 补充 | ||
本发明公开了一种文本分析知识库的构建方法,它涉及文本类数据分析领域。包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充。本发明基于此知识库,在进行文本类数据的分析或相关智能应用时,可以让计算机理解新词或业务领域专有词汇,去除无效内容,并对特定场景形成准确的情感倾向判断。
技术领域
本发明涉及的是文本类数据分析领域,具体涉及一种知识库的构建方法,该知识库主要用于文本类数据的基础处理和分析。
背景技术
目前对于文本类数据的知识库,主要集中在实体关系和问答两个方面。实体关系类主要是帮助计算机做联想,例如刘德华(实体)-职业(关系)-演员(实体),这一组知识,以实体-关系-实体的形式关联并存储,使用时当输入“刘德华,职业”时,可以找到演员,从而实现知识库的使用。另一部分是问答,主要用在自动客服领域,例如“今天天气怎么样/今天天气如何/今天什么天”-“今天*获取天气预报数据*”,这一组知识,以多对一或多对多映射的形式存储,使用时当输入“今天天气怎么样/今天天气如何/今天什么天”等问题时,计算机会获取相应答案“今天*获取天气预报数据*”进行回答。
这些知识库的构建,主要是针对文本类数据的后端的理解和应用,但对于文本类数据的基础处理分析,目前尚没有专门的知识库构建方法来进行支持,所产生的问题是:1.计算机无法对新词、业务领域特有词进行理解;2.文本中大量无效内容干扰了整体的分析和应用;3.对特定业务领域的情感倾向判断不准确。
综上所述,本发明设计了一种文本分析知识库的构建方法。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种文本分析知识库的构建方法,基于此知识库,在进行文本类数据的分析或相关智能应用时,可以让计算机理解新词或业务领域专有词汇,去除无效内容,并对特定场景形成准确的情感倾向判断。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种文本分析知识库的构建方法,包括专有词典模块,无效语句库模块,情感词典模块和情感规则库模块。
作为优选,所述的专有词典模块主要是分析领域的新词、专有词汇。
作为优选,所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容。
作为优选,所述的情感词典模块主要是领域内情感词和情感倾向得分。
作为优选,所述的情感规则库模块主要是对情感词典使用的一个补充。
本发明具有以下有益效果:
1.本发明所设计的知识库构建方法,可以应用于通用的文本类数据分析和应用,不只限定于特定应用;
2.本发明使文本类数据分析中的新词、业务领域专有词可以被机器识别和分析;
3.本发明可以有效提高文本分析的精准性;
4.本发明可以提高对于特定领域的文本情感分析。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的构建框架图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海蔚界信息科技有限公司,未经上海蔚界信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810233777.0/2.html,转载请声明来源钻瓜专利网。