[发明专利]一种分析知识资源与作者身份关系的方法在审

专利信息
申请号: 202211369322.4 申请日: 2022-10-28
公开(公告)号: CN115905466A 公开(公告)日: 2023-04-04
发明(设计)人: 高良才;谢海华;汤帜 申请(专利权)人: 北京大学
主分类号: G06F16/33 分类号: G06F16/33;G06F40/194;G06F40/216;G06F40/289
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 贾晓玲
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分析 知识 资源 作者 身份 关系 方法
【说明书】:

发明公开了一种分析知识资源与作者身份关系的方法,属于知识资源(例如:图书,论文,期刊,讲座音视频)的信息处理领域。本发明利用文本内容相似和姓名稀缺度计算,分析知识资源与作者身份关系,准确地得到资源内容的作者身份。本发明在可利用信息较少的情况下,实现了只需要资源内容以及作者姓名,就能准确获得知识资源与作者身份关系。

技术领域

本发明属于文本信息处理领域,侧重于知识资源(例如:图书,论文,期刊,讲座音视频)的信息处理。

背景技术

中文的同名现象比较多,特别是一些常见名,例如:刘洋,张伟等。在很多场景中,我们需要准确地识别作者,并与同名的作者进行区分,但是却缺乏这个作者的详细介绍信息(比如:工作单位,邮箱,籍贯等),只能获得这个作者的作品的数据。例如:很多图书,音视频讲座,都只给出了作者名字。在这种情况下,需要基于作者的创作内容来识别这个作者(与其他资源的同名作者进行区分)。

此外,名字本身也是一个可以利用的信息。如果两个资源的同名作者的姓名非常罕见,重名的概率较小,那么除非这两个资源内容相差过于明显,它们的作者应当是同一人。而当两个资源的同名作者的姓名十分普通,除非这两个资源的内容相似度很高,那么它们的作者应该不是同一个人。因此,需要提供一种分析资源内容与作者身份依赖关系的方法。

发明内容

针对以上问题,本发明提供一种分析知识资源与作者身份关系的方法,准确地得到资源内容的作者身份。

本发明提供的技术方案如下:

一种分析知识资源与作者身份关系的方法,其步骤包括:

1)针对不同媒介和领域的资源文本z1和z2,分别提取资源摘要T(z1),T(z2);

2)如果资源文本z1和z2的作者同名,则计算该姓名的稀缺度:

其中z1是前述的资源文本;au(z1)表示z1的作者;au_x(z1)表示z1的作者的姓;au_m(z1)表示z1的作者的名;au_mi(z1)表示z1的作者的名的第i个字;

F(au_x(z1))表示z1的作者的姓作为姓氏的概率;F(au_mi(z1)|au_x(z1))表示姓氏为au_x(z1)的情况下,名字第一个字是au_m1(z1)的概率;F(au_mi(z1)|au_mi-1(z1))名字第i-1个字是au_mi-1(z1)的情况下,名字第i个字是au_mi(z1)的概率;num(au_m(z1))是au_m(z1)的字数。

姓氏的概率由下式进行计算:

count(au_x(z1))表示au_x(z1)作为姓氏的次数;namebase表示姓名库,size(namebase)表示namebase的大小,即namebase含有的姓名的数量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211369322.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top