[发明专利]基于搜索日志的中文人名自扩展识别方法有效

申请号：	201210539985.6	申请日：	2012-12-13
公开（公告）号：	CN103870489A	公开（公告）日：	2014-06-18
发明（设计）人：	吕学强;文彬	申请（专利权）人：	北京信息科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于计算语言学的自然语言处理领域，公开了一种基于搜索日志的中文人名自扩展识别方法，该方法借助“姓氏驱动”人名识别思想，利用搜索日志查询串首字姓氏特点，挖掘种子人名；利用种子人名在搜索日志中生成候选人名模板集；根据候选人名模板在所对应查询串和整个查询日志频次变化趋势，筛选人名模板；根据人名模板生成候选人名；利用前向后向关键词匹配界定、筛选候选人名，获得人名集合；基于自扩展迭代思想，利用当前获得的人名集合作为下一次迭代过程的种子人名集，人名模板集中区分度最高的前n个模板作为下一次迭代的种子模板，由此挖掘出搜索日志中人名，利用搜索日志本身特点构建种子人名、生成人名模板，根据人名上下文在对应查询串及整个搜索日志查询串的变化趋势，过滤人名模板，降低了人名识别时的噪音信息，提高了搜索日志中人名识别率。
搜索关键词：	基于搜索日志中文人名扩展识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于搜索日志的中文人名自扩展识别方法，其特征在于，包括：S11 确定目标语料集，也即将用于挖掘人名实体的所有查询日志中查询串集合Q；S12 构建种子人名集合C，；S13 根据种子人名集合C及其所在查询串集合Qc，生成候选人名模板集Mc；S14 利用人名模板在Qc和Q中匹配的查询串条数变化趋势，对人名模板进行筛选，选取适合人名识别的上下文信息，获得人名模板集Mc’；S15 在查询串集合Q中匹配人名模板集Mc’中的模板，生成候选人名集CN；S16 对候选人名进行筛选，去除一些干扰的噪音信息，得到可信度较高的人名集合N；S17 利用人名集合N更新种子人名集合C，迭代上述S12至S16这5个步骤，直到获取的人名的可信度达到一定阈值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学，未经北京信息科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210539985.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于搜索日志的中文人名自扩展识别方法有效

专利文献下载