[发明专利]一种从海量文本中抽取里程碑事件的方法有效

申请号：	201910539127.3	申请日：	2019-06-20
公开（公告）号：	CN110245209B	公开（公告）日：	2022-09-23
发明（设计）人：	王鹏宇;吴漾;罗念华;孔庆波;缪新萍;李文科	申请（专利权）人：	贵州电网有限责任公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/35
代理公司：	贵阳中新专利商标事务所 52100	代理人：	胡绪东
地址：	550002 贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种从海量文本中抽取里程碑事件的方法，该方法包括步骤：（1）在海量文本中抽取文件的文件夹层级关联信息，通过树形结构进行数据存储；（2）将文件名和文件的路径名进行拼接作为当前文件的文本，使用K‑Means聚类算法计算每个文件的树形距离，将具有相同层级关系的文件划分在一起作为初始聚类簇，确定K‑Means聚类算法的初始类簇大小；（3）在每一个聚类簇下进行里程碑事件和时间节点的抽取，对抽取结果做筛选后形成事件的里程碑节点列表。本发明在聚类后的每一个簇中再进行里程碑事件和事件节点的抽取，这样可以避免相同事件被抽取成多个子事件后无法合并的问题，同时也提高了抽取的准确率以及完整性。
搜索关键词：	一种海量文本抽取里程碑事件方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种从海量文本中抽取里程碑事件的方法，其特征在于：该方法包括以下步骤：（1）在海量文本中抽取文件的文件夹层级关联信息，以文件名、文件夹名为节点，以层级关系为边，通过树形结构进行数据存储；（2）将文件名和文件的路径名进行拼接作为当前文件的文本，使用K‑Means聚类算法，计算每个文件的树形距离，将具有相同层级关系的文件划分在一起作为初始聚类簇，同时确定K‑Means聚类算法的初始类簇大小；（3）针对步骤（2）中获得的聚类结果，在每一个聚类簇下进行里程碑事件和时间节点的抽取，对抽取结果做筛选后形成事件的里程碑节点列表。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司，未经贵州电网有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910539127.3/，转载请声明来源钻瓜专利网。

上一篇：一种基于大数据存储的检索分析方法、装置及介质
下一篇：一种要素融合方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从海量文本中抽取里程碑事件的方法有效

专利文献下载