[发明专利]一种基于条件随机场的缩略词扩展解释识别方法在审
申请号: | 201210404108.8 | 申请日: | 2012-10-23 |
公开(公告)号: | CN103778142A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 刘杰;陈季梦;黄亚楼;刘天笔;王嫄 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于条件随机场的缩略词扩展解释识别方法,涉及机器学习领域和缩略词识别任务。本发明将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务,并采用条件随机场这一结构化模型来识别缩略词的扩展解释。针对缩略词识别任务的具体特点,发明设计并抽取了三类特征,包括拼写特征、与缩略词的对应特征、上下文相关特征,并对模型进行了改进。所设计的模型考虑了缩略词扩展解释的上下文信息和结构信息,并具有潜在稀疏特征学习能力,发明进一步设计了多种特征函数及其组合方法,从而更好地从文本序列中识别出可能的扩展解释。 | ||
搜索关键词: | 一种 基于 条件 随机 缩略 扩展 解释 识别 方法 | ||
【主权项】:
1.一种基于条件随机场的缩略词扩展解释识别系统,其特征在于:将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务,并采用条件随机场(CRF,Conditional Random Fields)来识别缩略词的扩展解释。所述方法包括将缩略词扩展解释识别任务建模为序列识别问题,用NP标签来标注一个序列文本,用“B”来表示扩展解释的开始,“I”来表示扩展解释中的其他词,而其他不相干的词则标记为“O”;所述利用CRF来识别缩略词扩展解释,学习从观测文本序列的特征矩阵x=(x1,...,xn)到标注序列向量y=(y1,...,yn)的函数映射关系
所述具有潜在稀疏特征学习能力的条件随机场(SNCRF,Sparse Neural Conditional Random Fields)的方法,是为了解决现实中的特征稀疏问题。在CRF中引入一个神经网络算子δ(xt;α),以便从稀疏的原始数据特征中学习到潜在的有效特征,从而学习如何更好地识别给定缩略词的扩展解释,如P ( y | x ; θ , α ) = 1 Z ( x ; θ ) exp { Σ t θ T F ( y , δ ( x t ; α ) , t ) } ; ]]> 所述多种特征函数的设计及其组合方法,包括本地的状态特征函数,边的转移特征函数,同时考虑边和节点的特征函数,状态特征函数仅计算单个节点的特征值,转移特征函数则计算节点之间边的特征值,同时考虑边和节点的特征函数则同时计算点和边的特征值。所述缩略词与其对应的拓展解释的三类特征,包括拼写特征,与缩略词的对应特征,上下文相关特征,拼写特征描述的是一个需标注的目标单词本身的拼写结构特征,与缩略词的对应特征是描述需标注的单词与给定缩略词之间的对应关系,上下文相关特征描述的是需标注单词周围的其他单词与缩略词的对应关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210404108.8/,转载请声明来源钻瓜专利网。