[发明专利]基于不确定性处理的网络论坛用户兴趣建模方法无效
申请号: | 200910199384.3 | 申请日: | 2009-11-26 |
公开(公告)号: | CN101719137A | 公开(公告)日: | 2010-06-02 |
发明(设计)人: | 曾剑平;吴承荣 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 20043*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于网络用户行为分析技术领域,具体为一种基于不确定性的网络论坛用户兴趣建模方法。本发明在建模过程中引入隶属函数来表达用户的兴趣,采用类似的高斯型隶属函数,基于用户在论坛中的行为特征计算函数的参数;采用文本处理方法提取用户兴趣文本,并按照不同权重配置计算用户的兴趣文本向量;将用户兴趣模型建立在由文本向量与隶属函数论域所构成的高维空间中,采用概率密度函数描述用户在不同话题空间的兴趣分布。本发明建立的模型既能反应用户兴趣的模糊性,又能体现用户兴趣的随机性,使用户兴趣的表示更加接近用户要求,因而更合理,可用于基于网络用户兴趣的各种分析场合。 | ||
搜索关键词: | 基于 不确 定性处理 网络 论坛 用户 兴趣 建模 方法 | ||
【主权项】:
基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于具体步骤如下:1)使用Web爬虫技术从网络论坛获取用户发帖的原始数据文件,并运用WEB信息提取技术将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集;每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志;2)从用户帖子记录集中选择指定用户的所有帖子,如果是属于回帖类型,则同时找出原始帖子;对其中的每个原始帖子及相应的用户回帖,构成临时帖子集;提取原始帖子、标题的内容,并运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括人名、地名、机构名;得到原始帖子对应的词语向量和标题对应的词语向量;对帖子集执行以下步骤3-5,处理用户兴趣的初步标注:3)计算该用户在这个帖子集中出现的次数,计算用户在帖子集中的回帖的平均长度;4)根据用户发帖标志、回帖次数及回帖长度,为用户设定一个兴趣的隶属函数及参数,该隶属函数的论域是用户的兴趣等级;5)提取用户回帖的内容,运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括含人名、地名、机构名,得到用户回帖对应的词语向量;结合第二步中的分词结果,按照不同权重构造用户的兴趣文本向量;6)当整个帖子记录集处理完毕后,得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数,它对应于由文本向量和兴趣论域构成的多维空间中的点,对这些点使用EM算法建立论坛用户兴趣模型,它是一种混合高斯概率模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910199384.3/,转载请声明来源钻瓜专利网。