[发明专利]特征二元约束关系的自动挖掘方法有效
申请号: | 201210357166.X | 申请日: | 2012-09-21 |
公开(公告)号: | CN102930074A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 易立;张伟;赵海燕;金芝;梅宏 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06K9/62 |
代理公司: | 北京五洲洋和知识产权代理事务所(普通合伙) 11387 | 代理人: | 张向琨 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 二元 约束 关系 自动 挖掘 方法 | ||
1.一种特征二元约束关系的自动挖掘方法,其特征在于,包括以下步骤:
配对步骤,对一组N个特征进行两两配对形成“特征对”,并根据已知条件将“特征对”分为“空白对”、“依赖对”、“互斥对”和“未知对”四类;
其中,“特征对”为由任意特征X和特征Y组成的集合,“空白对”表示在一特征对中两个特征之间不存在约束关系,“依赖对”表示在一特征对中两个特征之间存在依赖关系,“互斥对”表示在一特征对中两个特征之间存在互斥关系,“未知对”表示在一特征对中两个特征之间存在不确定关系;
由此,N个特征共产生N(N-1)/2个“特征对”;
量化步骤,对于每一个“特征对”,定义如下四个指标对其进行量化:
描述相似度:两个特征的文字描述之间的相似度;
功能区域相似度:两个特征的功能区域之间的相似度;
X指向性:特征X的名字与特征Y的功能区域之间的相似度;
Y指向性:特征Y的名字与特征X的功能区域之间的相似度;
其中,特征的功能区域为“特征的文字描述中的宾语及其修饰语的集合”;
训练步骤,使用经过量化的“空白对”、“依赖对”和“互斥对”作为训练样本,对用于挖掘出“依赖对”和“互斥对”的一分类器进行训练;
分类步骤,使用分类器对输入的“未知对”进行分类,在“未知对”中发现“依赖对”和“互斥对”就意味着挖掘到了新的二元约束关系。
2.根据权利要求1所述的特征二元约束关系的自动挖掘方法,其特征在于,在量化步骤中,所述四个指标的相似度计算方法如下:
首先用D表示所有特征的名字及其文字描述的集合;
对于每个文本集合中的每个词语,计算该词语的TF和IDF两个指标,其中:
将每个文本集合表示为向量V(TF1×IDF1,TF2×IDF2,...,TFk×IDFk),其中1,2,…,k表示该文本集合包含的k个互不相同的词语;
两个文本集合的相似度则表示为两个向量之间的重合度,即:
3.根据权利要求2所述的特征二元约束关系的自动挖掘方法,其特征在于,所述分类器为支撑向量机。
4.根据权利要求3所述的特征二元约束关系的自动挖掘方法,其特征在于,在训练步骤中,训练所述分类器时,指定两个分别对应依赖关系和互斥关系的权重的可调节参数R和E,可调节参数R和E的初始值定义为:
并且,还定义一个支撑向量机特有的调节参数γ,其初始值为1÷“特征对”量化指标数量=1÷4=0.25。
5.根据权利要求4所述的特征二元约束关系的自动挖掘方法,其特征在于,还包括:
优化步骤,对所述分类器进行优化,找到参数R、E和γ的最优取值组合。
6.根据权利要求5所述的特征二元约束关系的自动挖掘方法,其特征在于,在对所述分类器进行优化时,利用交叉检验和遗传算法进行优化;其中,交叉检验的步骤为:
给定一个参数取值组合;
使用该取值组合定义一个分类器;
将训练样本集合分为L等分,用其中的L-1份训练分类器,再使用分类器对剩余的1份样本进行测试,该步骤重复进行L次,每次使用不同的1份样本进行测试,使得每个训练样本都会恰好测试一次,该取值组合的有效性评估为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210357166.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:珠子围巾
- 下一篇:香橙果冻棒冰及其加工工艺