[发明专利]一种基于CRF的影视检索实体识别方法在审

申请号：	201810564158.X	申请日：	2018-06-04
公开（公告）号：	CN108763218A	公开（公告）日：	2018-11-06
发明（设计）人：	杨兰;孙锐;展华益;王欣;赵亮;谭斌;许洛	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	李洁
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体识别影视检索实体标注自然语言知识库检索文本数据网络爬虫技术检索领域模板提取设计特征实体类型训练语料实时性语料登录纠正
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标，结合人工纠正，完成训练语料标注；然后通过设计特征模板提取特征，利用CRF进行实体识别，所涉及的技术包括：自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。本发明的方法可实现实体识别不依赖于知识库，对未登录实体也可以识别；在影视检索领域中，对不同实体类型都能取得很好的实体识别效果，实时性强。

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于CRF的影视检索实体识别方法。

背景技术

命名实体识别是指从文本中识别出命名性指称项，包括人名、地名、机构名，以及一些特殊领域的特定实体等，它是自然语言处理领域的重要研究方向，在工程实践中有着广泛的应用，如：事件检测、信息检索、机器翻译、问答系统等领域。

目前，英文实体识别技术已经达到了较高的水平；但是，中文实体识别相对比较困难。主要是由于中文自身的几个特点：(1)中文没有明确的界限标注，词的概念比较模糊；(2)中文用词灵活多变，相同的实体在不同上下文语境中有不同的意义；(3)实体存在嵌套现象，尤其在机构名中尤其严重；(4)中文有很多简化表达现象，并且英文名的中文翻译识别困难。

现有的实体识别算法大多用于处理长文本，而影视检索文本非常短，没有完整的句法结构，通常包括模棱两可的短语，无法提供足够的背景信息，因此，要准确的判断出实体类型非常困难。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种基于CRF的影视检索实体识别方法，采用了基于CRF的实体识别技术，可实现实体识别不依赖于知识库，对未登录实体也可以识别。

为了达到上述的技术效果，本发明采取以下技术方案：

一种基于CRF的影视检索实体识别方法，包含以下步骤：

步骤A.数据采集，所述数据至少包含影视数据库数据和用户影视检索文本数据；

步骤B.训练语料标注，包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注；

步骤C.根据影视检索数据特征，设计CRF特征模板；

步骤D.根据训练语料以及CRF特征模板，进行CRF模型训练；

步骤E.利用训练好的CRF模型，对影视检索数据进行实体识别；

本发明的基于CRF的影视检索实体识别方法主要通过对影视检索文本数据进行数据自动粗标，结合人工纠正，完成训练语料标注；然后通过设计特征模板提取特征，利用CRF进行实体识别，所涉及的技术包括：自然语言交互理解、影视语料标注及实体识别、网络爬虫技术。

进一步地，所述步骤A中采集影视数据库数据时具体包含以下步骤：