[发明专利]一种分析知识资源与作者身份关系的方法在审
申请号: | 202211369322.4 | 申请日: | 2022-10-28 |
公开(公告)号: | CN115905466A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 高良才;谢海华;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/216;G06F40/289 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 贾晓玲 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分析 知识 资源 作者 身份 关系 方法 | ||
本发明公开了一种分析知识资源与作者身份关系的方法,属于知识资源(例如:图书,论文,期刊,讲座音视频)的信息处理领域。本发明利用文本内容相似和姓名稀缺度计算,分析知识资源与作者身份关系,准确地得到资源内容的作者身份。本发明在可利用信息较少的情况下,实现了只需要资源内容以及作者姓名,就能准确获得知识资源与作者身份关系。
技术领域
本发明属于文本信息处理领域,侧重于知识资源(例如:图书,论文,期刊,讲座音视频)的信息处理。
背景技术
中文的同名现象比较多,特别是一些常见名,例如:刘洋,张伟等。在很多场景中,我们需要准确地识别作者,并与同名的作者进行区分,但是却缺乏这个作者的详细介绍信息(比如:工作单位,邮箱,籍贯等),只能获得这个作者的作品的数据。例如:很多图书,音视频讲座,都只给出了作者名字。在这种情况下,需要基于作者的创作内容来识别这个作者(与其他资源的同名作者进行区分)。
此外,名字本身也是一个可以利用的信息。如果两个资源的同名作者的姓名非常罕见,重名的概率较小,那么除非这两个资源内容相差过于明显,它们的作者应当是同一人。而当两个资源的同名作者的姓名十分普通,除非这两个资源的内容相似度很高,那么它们的作者应该不是同一个人。因此,需要提供一种分析资源内容与作者身份依赖关系的方法。
发明内容
针对以上问题,本发明提供一种分析知识资源与作者身份关系的方法,准确地得到资源内容的作者身份。
本发明提供的技术方案如下:
一种分析知识资源与作者身份关系的方法,其步骤包括:
1)针对不同媒介和领域的资源文本z1和z2,分别提取资源摘要T(z1),T(z2);
2)如果资源文本z1和z2的作者同名,则计算该姓名的稀缺度:
其中z1是前述的资源文本;au(z1)表示z1的作者;au_x(z1)表示z1的作者的姓;au_m(z1)表示z1的作者的名;au_mi(z1)表示z1的作者的名的第i个字;
F(au_x(z1))表示z1的作者的姓作为姓氏的概率;F(au_mi(z1)|au_x(z1))表示姓氏为au_x(z1)的情况下,名字第一个字是au_m1(z1)的概率;F(au_mi(z1)|au_mi-1(z1))名字第i-1个字是au_mi-1(z1)的情况下,名字第i个字是au_mi(z1)的概率;num(au_m(z1))是au_m(z1)的字数。
姓氏的概率由下式进行计算:
count(au_x(z1))表示au_x(z1)作为姓氏的次数;namebase表示姓名库,size(namebase)表示namebase的大小,即namebase含有的姓名的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211369322.4/2.html,转载请声明来源钻瓜专利网。