[发明专利]基于微博的众包问答系统信息采集方法有效
申请号: | 201310040557.3 | 申请日: | 2013-02-02 |
公开(公告)号: | CN103106267A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 胡天磊;伍赛;陈刚;周显锞;张冰冰;陈珂 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 周烽 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 问答 系统 信息 采集 方法 | ||
1.一种基于微博的众包问答系统信息采集方法,其特征在于,包括如下步骤:
步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的App Key(应用码)和App Secret(应用密钥);
步骤 2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息;
步骤3:用户发起的任何问题只需要到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录;
步骤4:对采集到的问答数据进行分析处理:该步骤可提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析;
步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示;
步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域等信息;
步骤 7:利用步骤6所得到的用户活跃程度、感兴趣和擅长领域等信息,系统自动将该新问题推送给可能感兴趣的潜在回答用户。
2.根据权利要求1所述基于微博的众包问答系统信息采集方法,其特征在于,所述步骤2由以下子步骤来实现:
(1)根据步骤1获取的第三方网站应用App Key和App Secrect信息,通过开放平台的开放授权OAuth2协议用官方账号登陆并完成授权,由此可以获取该官方账号访问微博数据的访问令牌Access Token;另外,其他微博用户在系统网站中通过微博登陆和完成授权,同样也可获得该账号绑定的访问令牌Access Token;
(2)根据相关微博账号所绑定的访问令牌Access Token,通过微博开放平台所提供的获取数据和发布数据API,实现数据采集和发布模块的代码;
(3)完成具体的开发之后,微博的用户只需要通过开放授权OAuth2登陆授权,系统就可以对该用户的数据进行采集和发布,所采集的数据包括用户所发表的问答微博数据和用户资料信息。
3.根据权利要求1所述基于微博的众包问答系统信息采集方法,其特征在于,所述步骤4中,所述对整个话题回答进行各类统计分析由以下子步骤来实现:
(1)根据微博的转发格式,对转发微博的文本内容进行分析,提取该话题的整体树状转发结构;微博的转发一般都以“//”的形式进行分隔,通过对转发内容的解析可以获得该条转发微博本身的文本内容,以及它所转发的父微博;对一个问题的所有转发微博进行分析之后,就可以得出该话题的整体树状转发结构;
(2)根据上一过程获取每条转发微博本身的文本内容,如果该文本内容为空,则这是一条纯转发答案,可以进行过滤;
(3)在提取相似答案步骤,根据每条回答的文本内容,通过最长公共子串LCS算法和字符串相似度Levenshtein距离算法计算文本之间的相似距离,对整个问题的所有答案进行相似答案聚类;
(4)根据一个话题的所有回答微博,统计回答时间、回答用户所在城市等分布信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310040557.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置