[发明专利]基于条件随机场的旅游领域命名实体识别方法无效
申请号: | 200910094029.X | 申请日: | 2009-01-09 |
公开(公告)号: | CN101477518A | 公开(公告)日: | 2009-07-08 |
发明(设计)人: | 郭剑毅;薛征山;余正涛;张志坤;毛存礼;万舟 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 昆明今威专利代理有限公司 | 代理人: | 赛晓刚 |
地址: | 650093云南省昆明市*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种旅游领域命名实体识别方法,属人工智能领域。公开了人工进行了语料的收集、标注及文本预处理。在此基础上,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法,该方法包含两层,在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,并通过制定有效的特征模板,实现简单旅游命名实体的识别;其识别结果传递到高层模型,在高层以词为切分粒度,结合复杂特征模板,实现嵌套景点、特产风味、地点的识别。在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点。相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。 | ||
搜索关键词: | 基于 条件 随机 旅游 领域 命名 实体 识别 方法 | ||
【主权项】:
1. 一种基于条件随机场的旅游领域命名实体识别方法,其特征在于该方法包括下列步骤:(1)人工收集旅游领域文本作为训练语料和测试语料;(2)通过网络下载及人工收集景点常用后缀、组织机构常用后缀、地名常用后缀、风味小吃常用后缀并编撰其词典;(3)文本的一次处理包括:使用步骤(2)收集的词典,将语料以字为单位,进行标注;(4)制定符合简单命名实体识别的特征模板,并将经过步骤(3)处理后的文本进行训练,得到低层条件随机场识别模型,用来识别简单景点、组织机构、地名及风味小吃的识别;(5)将原始语料进行分词,并将在第一层条件随机场识别出的实体标注为相对应的类型;(6)利用简单特征模板与复合特征模板,采用迭代梯度算法,即根据一定的规则迭代地更新模型参数,逐步精化联合或条件模型分布的方法。训练高层条件随机场模型,并在云南旅游领域进行命名实体识别实验验证。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910094029.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于规则的空间数据整合方法
- 下一篇:磁盘快照方法与装置