[发明专利]一种基于词汇注释的领域词典自动扩充方法有效
申请号: | 201310046647.3 | 申请日: | 2013-02-06 |
公开(公告)号: | CN103116573A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 黄河燕;史树敏;朱朝勇 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及到一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。其步骤为:①通过分析领域词典所属领域间的相关度,生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理,得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。 | ||
搜索关键词: | 一种 基于 词汇 注释 领域 词典 自动 扩充 方法 | ||
【主权项】:
一种基于词汇注释的领域词典自动扩充方法,其特征在于:其具体操作步骤为:步骤一、通过分析领域词典所属领域间的相关度,生成一棵领域分类树;具体为:步骤1.1:用符号D表示待处理节点集合,并设定待处理节点集合的初始状态为空;步骤1.2:将每个待扩充的领域词典分别作为一个节点放入到待处理节点集合中;节点名称为该领域词典的名称,节点内容为该领域词典中的全部词条;所述词条包括词汇及该词汇的解释信息;步骤1.3:通过公式(1)分别计算待处理节点集合中的任意两个节点所代表的领域词典所属领域间的相关度; R ( d 1 , d 2 ) = | d 1 ∩ d 2 | min ( | d 1 , d 2 | ) - - - ( 1 ) 其中,R(d1,d2)表示待处理节点集合中某一领域词典D1的所属领域d1和另一领域词典D2的所属领域d2的相关度;|d1∩d2|表示领域词典D1和领域词典D2所包含的相同词汇的个数;min(|d1,d2|)表示领域词典D1和领域词典D2中数量较少的领域词典所包含的词汇个数;步骤1.4:从步骤1.3中得到的待处理节点集合中的任意两个节点所代表的领域词典间的相关度R(d1,d2)中找出最大值,用符号Rmax表示;该最大值Rmax对应的两个领域词典分别用符号D1′和D2′表示,领域词典D1′和D2′的所属领域分别用符号d1′和d2′表示,领域词典D1′和D2′的中的内容分别用符号c1和c2表示;步骤1.5:将领域词典D1′和D2′中的词条和并,并给和并后的词典定义一个新的名称,用Dnew表示;该和并后的词典Dnew的内容用符号cnew表示,cnew=c1∪c2;然后建立一个新节点,新节点的名称为Dnew,新节点的内容为cnew;领域词典D1′和D2′作为节点Dnew的子节点;步骤1.6:将新节点Dnew加入到待处理节点集合中,并将节点D1′和D2′从待处理节点集合中删除;步骤1.7:统计待处理节点集合中节点的个数,用符号N表示;如果N≥2,则返回到步骤1.3;否则,结束操作;经过上述步骤的操作,即得到一棵领域分类树;步骤二、为每一个待扩充的领域词典获取一个训练集;此步骤可以与步骤一同步操作:确定一个带注释的通用电子词典,然后对于每个待扩充的领域词典中的词汇,分别做如下操作:依次从带注释的通用电子词典中查找该领域词典中的每个词汇,然后将每个词汇对应的注释作为一条训练数据放入该领域对应的训练集中,即可得到该领域的训练集;经过步骤二的操作,对应一个待扩充的领域词典,可得到一个待扩充的领域词典所属领域对应的训练集;步骤三、对训练集进行预处理,得到语料特征集;在步骤二操作的基础上,依次对每个待扩充的领域词典的训练集中的训练语料进行预处理,得到该领域的训练集对应的语料特征集,具体为:对某一个领域的训练集中的每条训练数据进行预处理,获得该条训练数据对应的一组词汇,称为语料特征子集;该领域的训练集中的全部训练数据对应的语料特征子集的集合称为该领域词典对应的语料特征集;所述预处理包括分词、短语抽取、词形还原和去停用词;步骤四、在步骤一和步骤三的基础上,对于步骤一得到的领域分类树上的叶子节点,统计每个叶子节点对应的语料特征集中每个词汇在该语料特征集中出现的次数;对于非叶子节点,首先将每个非叶子节点的子节点的语料特征集进行和并,将合并的结果作为该非叶子节点的语料特征集,然后统计以下数据:①该非叶子节点的语料特征集中每个词汇在该非叶子节点的语料特征集中出现的次数;②对于该非叶子节点的语料特征集中每个词汇,该非叶子节点的子节点对应的语料特征集中包含该词汇的语料特征集的个数;步骤五、在步骤四操作的基础上,根据公式(2)计算各语料特征集中每个词汇的置信度; wdc = wd Σwd × log ( wd dt + 1 ) - - - ( 2 ) 其中,wdc表示某一领域d对应的语料特征集中的某一个词汇w的置信度;wd表示词汇w在领域d中出现的次数;Σwd表示词汇w所在的语料特征集的对应节点的父节点对应的语料特征集中出现的总次数;dt表示词汇w所在的语料特征集的对应节点的兄弟节点对应的语料特征集中包含该词汇w的语料特征集的个数;步骤六、将新词汇加入到待扩充的领域词典中;在步骤五操作的基础上,将步骤二中所述带注释的通用电子词典中新收录的词汇作为新词汇,添加到待扩充的领域词典中,具体操作步骤为:步骤6.1:对新词汇的注释进行预处理,获得该词汇注释对应的一组词汇,用n表示该组词汇的数量;所述预处理包括分词、短语抽取、词形还原和去停用词;步骤6.2:将领域分类树中的根节点作为当前节点;步骤6.3:根据公式(3)依次计算新词汇与领域分类树中的当前节点的每一个子节点对应的领域之间的归属度,并找出其中的最大值,用符号sdcmax表示; sdc k = m k × Π j = 1 n wdc jk - - - ( 3 ) 其中,sdck表示新词汇与领域分类树中当前节点的每个子节点对应的领域k之间的归属度;wdcjk表示新词汇注释对应的一组词汇中第j个词汇与领域k的置信度;mk表示新词汇注释对应的n个词汇中,在领域k的置信度最高的个数;步骤6.4:如果步骤6.3得到的归属度的最大值sdcmax大于预先指定的阈值,则进一步判断该最大值sdcmax对应的节点是否为叶子节点,如果是叶子节点,则将新词汇添加到该节点对应的领域词典中;如果不是叶子节点,则将该最大值sdcmax对应的节点作为当前节点,然后返回到步骤6.3;如果步骤6.3得到的归属度的最大值sdcmax不大于预先指定的阈值,则将新词汇作为普通词汇,不添加到任何一个待扩充的领域词典中,结束操作;经过上述步骤的操作,即可实现对领域词典的自动扩充。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310046647.3/,转载请声明来源钻瓜专利网。