[发明专利]行业词典生成方法及装置有效
| 申请号: | 201110089698.5 | 申请日: | 2011-04-11 |
| 公开(公告)号: | CN102169495A | 公开(公告)日: | 2011-08-31 |
| 发明(设计)人: | 何伟平;王名悠;吴永强 | 申请(专利权)人: | 趣拿开曼群岛有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
| 地址: | 北京市海淀区丹棱街3号*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 行业 词典 生成 方法 装置 | ||
技术领域
本发明涉及数据挖掘技术,尤其涉及一种行业词典生成方法及装置。
背景技术
行业词典是以最小语言单位表示的某一行业的术语和习用语的集合,例如机械行业词典、旅游行业词典等。现有技术中,与行业词典相近的技术包括文本分类特征选择技术和领域本体(Domain Ontology)库构建技术。
文本分类特征选择技术是文本分类系统中实现特征空间降维的一种非常重要的方法,其先对训练集合中的文本进行分词,然后统计词语在训练集合中的出现频度,再通过特征选择算法选择出一些词作为分类器训练时使用的特征。其中,常见的特征选择算法有:互信息、文档频率、卡方校验、信息增益等。其中,被选择出的作为分类器训练时使用的特征类似于行业词典中的词汇。但是,由于文本分类特征选择技术是为了实现分类,在实现过程中主要是以解决数据维度过高和提高分类模型的泛化能力为目标,因此,经由文本分类特征选择技术选择出来的词的精度较低,无法满足行业词典对大容量、高精度等的需求,因此,无法直接采用文本分类特征选择技术来生成行业词典。
本体是对领域知识的一种表示,用于对客观世界的存在进行系统化描述,方便知识的重用和交互。领域本体库构建技术重点在于发现领域相关的概念,以及本体之间的相互关系。通常,本体由领域专家创建。目前领域本体库自动化构建的过程一般包括:数据处理:对文本进行自然语言处理,例如分词,词性标注等;概念提取:通过一些语言规则(例如词性组合)或者统计算法提取出概念;语义关联抽取:通过一些文法规则等来确定概念与概念之间的关系。由上述分析可知:领域本体库构建技术主要通过人工设定的规则或者采用大规模语料进行训练来进行发现;其中,人工设定的规则是固定的,其召回率比较低;而语料训练需要准备大量的语料,既耗时又费力。另外,领域本体库构建技术还需要建立各个本体之间的相互联系,使得其在实现自动化上存在较大的难度,基于此,现有领域本体库创建技术也无法直接用来生成行业词典。
而现有技术主要是通过人工搜集的方式来形成行业词典,该生成行业词典的方式成本高,效率低,因此,急需提供一种自动生成行业词典的技术方案以克服现有技术的缺陷。
发明内容
本发明提供一种行业词典生成方法及装置,用以生成行业词典,提高生成行业词典的效率,降低生成成本。
本发明提供一种行业词典生成方法,包括:
根据初始行业术语,获取所述初始行业术语对应的文档集合;
根据所述文档集合,获取候选术语;
对所述候选术语进行行业相关度分析,获取相关候选术语;
对所述相关候选术语进行共现分析和关联关系挖掘,生成行业词汇;
将所述行业词汇加入行业词典。
本发明提供一种行业词典生成装置,包括:
第一获取模块,用于根据初始行业术语,获取所述初始行业术语对应的文档集合;
第二获取模块,用于根据所述文档集合,获取候选术语;
第三获取模块,用于对所述候选术语进行行业关联度分析,获取相关候选术语;
生成模块,用于对所述相关候选术语进行共现分析和关联关系挖掘,生成行业词汇;
添加模块,用于将所述行业词汇加入行业词典。
本发明提供的行业词典生成方法及装置,根据初始行业术语获取对应的文档集合,并从文档集合中获取候选术语,对候选术语进行行业关联度分析、共现分析和关联关系挖掘等处理,生成行业词汇,并加入行业词典。采用本发明技术方案可以根据初始行业术语以及对应的文档集合生成行业词典,与现有技术相比,该技术方案可自动生成行业词汇,无需人工搜索,提高了生成行业词典的效率,节约了生成成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的行业词典生成方法的流程图;
图2为本发明实施例二提供的行业词典生成方法的流程图;
图3为本发明实施例三提供的行业词典生成装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于趣拿开曼群岛有限公司,未经趣拿开曼群岛有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110089698.5/2.html,转载请声明来源钻瓜专利网。





