[发明专利]基于条件随机场的旅游领域命名实体识别方法无效

专利信息
申请号: 200910094029.X 申请日: 2009-01-09
公开(公告)号: CN101477518A 公开(公告)日: 2009-07-08
发明(设计)人: 郭剑毅;薛征山;余正涛;张志坤;毛存礼;万舟 申请(专利权)人: 昆明理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 昆明今威专利代理有限公司 代理人: 赛晓刚
地址: 650093云南省昆明市*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种旅游领域命名实体识别方法,属人工智能领域。公开了人工进行了语料的收集、标注及文本预处理。在此基础上,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法,该方法包含两层,在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,并通过制定有效的特征模板,实现简单旅游命名实体的识别;其识别结果传递到高层模型,在高层以词为切分粒度,结合复杂特征模板,实现嵌套景点、特产风味、地点的识别。在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点。相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。
搜索关键词: 基于 条件 随机 旅游 领域 命名 实体 识别 方法
【主权项】:
1. 一种基于条件随机场的旅游领域命名实体识别方法,其特征在于该方法包括下列步骤:(1)人工收集旅游领域文本作为训练语料和测试语料;(2)通过网络下载及人工收集景点常用后缀、组织机构常用后缀、地名常用后缀、风味小吃常用后缀并编撰其词典;(3)文本的一次处理包括:使用步骤(2)收集的词典,将语料以字为单位,进行标注;(4)制定符合简单命名实体识别的特征模板,并将经过步骤(3)处理后的文本进行训练,得到低层条件随机场识别模型,用来识别简单景点、组织机构、地名及风味小吃的识别;(5)将原始语料进行分词,并将在第一层条件随机场识别出的实体标注为相对应的类型;(6)利用简单特征模板与复合特征模板,采用迭代梯度算法,即根据一定的规则迭代地更新模型参数,逐步精化联合或条件模型分布的方法。训练高层条件随机场模型,并在云南旅游领域进行命名实体识别实验验证。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910094029.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top