[发明专利]事件格生成方法在审
申请号: | 201711207109.2 | 申请日: | 2017-11-27 |
公开(公告)号: | CN108170709A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 张亚军 | 申请(专利权)人: | 上海精密计量测试研究所;上海航天信息研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海航天局专利中心 31107 | 代理人: | 余岢 |
地址: | 201109 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成算法 文本信息 异构形式 概念格 自然语言描述 形式化描述 背景知识 | ||
本发明提供了一种事件格生成方法,包括对文本信息进行收集;将收集到的文本信息用自然语言描述出事件知识;对所述事件知识进行形式化描述形成形式事件背景;对所述形式事件背景用渐进式事件格生成算法进行事件格的生成。本发明可以解决异构形式背景知识的概念格生成,具体用来实现形式事件背景到事件格的生成,可以用来解决现有的概念格生成算法无法实现异构形式背景到格的生成的问题。
技术领域
本发明涉及一种事件格生成方法。
背景技术
形式概念分析是重要的知识挖掘和表示工具,其主要功能是通过对形式背景的分析生成概念格,从而实现数据到抽象概念的演化,概念格是对客观世界的数据一种高度抽象化的描述形式,在人工智能研究的各个领域有广泛且成熟的应用。概念格作为知识挖掘、概念展示的重要工具在人工智能领域有着广泛的应用。
传统的形式概念分析建立在数学基础之上,其主要功能是对二值形式背景进行数据分析和规则提取,通过形式化的方式来描述相关概念、属性以及相互之间关系,然后构造出概念格(concept lattice),即本体,从而清晰地表达出本体的结构。传统的概念格主要处理的是二值数据,并不适合对异构数据进行分析,更无法实现形式事件分析。
事件包含多方面的要素,例如动作要素、对象要素以及断言要素等。相关要素各自有着不同的含义以及表达方式,域值的类型也有较大的区别。例如:时间要素通常是包括开始时间和结束时间,表示为[t1,t2],这是一个明显的区间值,是二值模式无法表示的。断言要素通过包括事件发生的前置条件、中间状态以及事件发生后的所有对象要素的状态,因此大部分情况下使用一阶谓词进行描述。事件中同样包括对象,但此处的对象主要指事件中的参与者,因为事件中参与者可能有多个,因此对象要素本质上是一个集合。对上述要素进行分析时就涉及到如何判断他们之间的上下位偏序关系,从而确定事件格中节点之间的关系。
下表1是一个交通事故形式事件背景的实例,动作要素可以由属性Δ表示,Δ的值是一个有限集的幂集。集合中的元素表示事件拥有的动作属性。对象要素由属性Θ表示,对象的值域是由多个概念格的乘积表示。时间要素的属性T由区间T表示,它是一个区间的周期数域。环境V、断言P和语言表现L三者的属性由ξ表示,其值域是两个一阶谓词形式域的乘积,分别代表事件的初始状态和最终状态。
表1:形式事件背景实例
注:v表示撞击的程度是猛烈的,s表示撞击的程度是轻微的,b表示撞击的方向是侧面,h-o表示撞击的方向是正面,b-a表示两车前后相撞。m表示机动车,n-m表示非机动车,p表示行人。
由上文可知事件的形式背景是一种异构的形式背景。但传统的形式概念分析并不支持异构数据的分析,也没有合适的算法实现异构格的生成,因此需要针对事件及要素特征寻找新的事件格生成算法。
发明内容
本发明的目的在于提供一种事件格生成方法,能够解决现有的概念格生成算法无法实现异构形式背景到格的生成的问题。
为解决上述问题,本发明提供一种事件格生成方法,包括:
对文本信息进行收集;
将收集到的文本信息用自然语言描述出事件知识;
对所述事件知识进行形式化描述,及对所述形式化描述进行形式事件背景的生成;
对所述形式事件背景用渐进式事件格生成算法进行事件格的生成。
进一步的,在上述方法中,对文本信息进行收集,包括:
通过网络爬取包含事件信息的新闻网页,并以文本文件的格式存放。
进一步的,在上述方法中,将收集到的文本信息用自然语言描述出事件知识,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海精密计量测试研究所;上海航天信息研究所,未经上海精密计量测试研究所;上海航天信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711207109.2/2.html,转载请声明来源钻瓜专利网。