[发明专利]一种基于CRF的影视检索实体识别方法在审
| 申请号: | 201810564158.X | 申请日: | 2018-06-04 |
| 公开(公告)号: | CN108763218A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 杨兰;孙锐;展华益;王欣;赵亮;谭斌;许洛 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 李洁 |
| 地址: | 621000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体识别 影视 检索实体 标注 自然语言 知识库 检索文本数据 网络爬虫技术 检索领域 模板提取 设计特征 实体类型 训练语料 实时性 语料 登录 纠正 | ||
本发明公开了基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标,结合人工纠正,完成训练语料标注;然后通过设计特征模板提取特征,利用CRF进行实体识别,所涉及的技术包括:自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。本发明的方法可实现实体识别不依赖于知识库,对未登录实体也可以识别;在影视检索领域中,对不同实体类型都能取得很好的实体识别效果,实时性强。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于CRF的影视检索实体识别方法。
背景技术
命名实体识别是指从文本中识别出命名性指称项,包括人名、地名、机构名,以及一些特殊领域的特定实体等,它是自然语言处理领域的重要研究方向,在工程实践中有着广泛的应用,如:事件检测、信息检索、机器翻译、问答系统等领域。
目前,英文实体识别技术已经达到了较高的水平;但是,中文实体识别相对比较困难。主要是由于中文自身的几个特点:(1)中文没有明确的界限标注,词的概念比较模糊;(2)中文用词灵活多变,相同的实体在不同上下文语境中有不同的意义;(3)实体存在嵌套现象,尤其在机构名中尤其严重;(4)中文有很多简化表达现象,并且英文名的中文翻译识别困难。
现有的实体识别算法大多用于处理长文本,而影视检索文本非常短,没有完整的句法结构,通常包括模棱两可的短语,无法提供足够的背景信息,因此,要准确的判断出实体类型非常困难。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于CRF的影视检索实体识别方法,采用了基于CRF的实体识别技术,可实现实体识别不依赖于知识库,对未登录实体也可以识别。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于CRF的影视检索实体识别方法,包含以下步骤:
步骤A.数据采集,所述数据至少包含影视数据库数据和用户影视检索文本数据;
步骤B.训练语料标注,包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注;
步骤C.根据影视检索数据特征,设计CRF特征模板;
步骤D.根据训练语料以及CRF特征模板,进行CRF模型训练;
步骤E.利用训练好的CRF模型,对影视检索数据进行实体识别;
本发明的基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标,结合人工纠正,完成训练语料标注;然后通过设计特征模板提取特征,利用CRF进行实体识别,所涉及的技术包括:自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。
进一步地,所述步骤A中采集影视数据库数据时具体包含以下步骤:
步骤A1.1从指定的站点开始,采用宽度优先策略爬取网页;
步骤A1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息;
步骤A1.3将获取到的数据写入数据库。
进一步地,所述影视数据库数据至少包含影视名、导演名、演员名。
进一步地,所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤:
步骤B1.1利用分词工具对影视检索文本进行中文分词;
步骤B1.2将分词后的短语,分别在影视数据库中进行匹配,将匹配到的短语标记为对应的实体类型。
进一步地,还包含步骤B1.3:对自动标注后的语料进行人工纠错,得到精确标记的影视训练语料,写入Train.txt,提供给下一步CRF实体识别算法使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810564158.X/2.html,转载请声明来源钻瓜专利网。





