[发明专利]基于自定义的知识槽结构的文本知识抽取系统和方法有效
申请号: | 201910487585.7 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110175334B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 张坤;于阳阳;管慧娟;孔令军;李华康 | 申请(专利权)人: | 苏州派维斯信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/33 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 杨慧林 |
地址: | 215000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于自定义的知识槽结构的文本知识抽取系统和方法。本发明一种基于自定义的知识槽结构的文本知识抽取方法,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树。本发明的有益效果:利用通过一个前端页面提供业务人员设定某个知识的基础结构,得到其需要抽取的非结构化文本内容,文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割。 | ||
搜索关键词: | 基于 自定义 知识 结构 文本 抽取 系统 方法 | ||
【主权项】:
1.一种基于自定义的知识槽结构的文本知识抽取方法,其特征在于,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;步骤400:将已分割之后的文本进行文本知识抽取,可以分为文本分句处理,文本的词性标注与文本的命名实体识别,关键字提取,word2vec等操作;步骤500:将单一抽取的文本进行简单的评测,如果评测结果太小就重新抽取该知识;步骤600:把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作,并且保存到图数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州派维斯信息科技有限公司,未经苏州派维斯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910487585.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种证据指引方法、装置、设备及存储介质
- 下一篇:翻译模型的训练方法和装置