[发明专利]一种基于CRF的影视检索实体识别方法在审
| 申请号: | 201810564158.X | 申请日: | 2018-06-04 |
| 公开(公告)号: | CN108763218A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 杨兰;孙锐;展华益;王欣;赵亮;谭斌;许洛 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 李洁 |
| 地址: | 621000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体识别 影视 检索实体 标注 自然语言 知识库 检索文本数据 网络爬虫技术 检索领域 模板提取 设计特征 实体类型 训练语料 实时性 语料 登录 纠正 | ||
1.一种基于CRF的影视检索实体识别方法,其特征在于,包含以下步骤:
步骤A.数据采集,所述数据至少包含影视数据库数据和用户影视检索文本数据;
步骤B.训练语料标注,包括基于影视数据库匹配的语料自动标注和基于人工纠正的语料精确标注;
步骤C.根据影视检索数据特征,设计CRF特征模板;
步骤D.根据训练语料以及CRF特征模板,进行CRF模型训练;
步骤E.利用训练好的CRF模型,对影视检索数据进行实体识别。
2.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤A中采集影视数据库数据时具体包含以下步骤:
步骤A1.1从指定的站点开始,采用宽度优先策略爬取网页;
步骤A1.2针对每一个获取到的网页,对其页面源代码进行解析,获取网页内相关的信息;
步骤A1.3将获取到的数据写入数据库。
3.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述影视数据库数据至少包含影视名、导演名、演员名。
4.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤B中进行影视数据库匹配的语料自动标注时具体包含以下步骤:
步骤B1.1利用分词工具对影视检索文本进行中文分词;
步骤B1.2将分词后的短语,分别在影视数据库中进行匹配,将匹配到的短语标记为对应的实体类型。
5.根据权利要求4所述的一种基于CRF的影视检索实体识别方法,其特征在于,还包含步骤B1.3:对自动标注后的语料进行人工纠错,得到精确标记的影视训练语料,写入Train.txt,提供给下一步CRF实体识别算法使用。
6.根据权利要求4所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤B1.2中的实体类型至少包含影视名、人名、电影类型。
7.根据权利要求4或5或6所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤B1.1中使用的分词工具为ANSJ分词工具。
8.根据权利要求1所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤D中进行CRF模型训练后还包含生成实体识别模型model文件的操作。
9.根据权利要求8所述的一种基于CRF的影视检索实体识别方法,其特征在于,所述步骤E中对影视检索数据进行实体识别时具体包含:
步骤E1.1将影视检索数据转化为CRF数据格式;
步骤E1.2利用训练好的实体识别模型model文件进行实体识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810564158.X/1.html,转载请声明来源钻瓜专利网。





