[发明专利]用于从电子数据结构中提取属性的注释系统有效
申请号: | 201780005536.4 | 申请日: | 2017-01-26 |
公开(公告)号: | CN108496190B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 吴思明;S·伯尔简·布罗简尼 | 申请(专利权)人: | 甲骨文国际公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q10/08;G06F16/332 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 刘玉洁 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 电子 数据结构 提取 属性 注释 系统 | ||
描述了与从电子数据结构提取属性关联的系统、方法和其他实施例。在一个实施例中,方法包括通过识别所定义的属性中的哪些属性与标记匹配来将来自描述串的标记与电子库存数据库中的定义的属性相关联,以将标记链接到与所定义的属性关联的数据库的列。该方法包括使用条件随机场模型根据识别的标记与所定义的属性之间的已知关联生成用于未被识别的标记的建议的匹配,来迭代地更新用于标记中未被识别的标记的注释串。该方法还包括通过将来自描述串的标记自动地存储到由注释串所识别的列中,使用来自描述串的所识别的标记来根据注释串填充数据库。
背景技术
随着电子商务和电子库存系统变得更加广泛,对于提供和确保产品信息的准确性出现新的困难。例如,在电子库存中,每个单独的产品都包括许多不同的属性。属性可以包括识别号码、价格、品牌名称、详细描述等。因此,当库存的单个类别可能包括数千个单独的产品时,确保信息准确是一项复杂且耗时的任务,特别是考虑到输入信息是手动过程。
例如,在杂货店的情景中,被输入到电子库存中的每个产品可以包括诸如重量、味道、品牌名称、价格、每包装的件数等等之类的许多不同的属性。各种属性通常与数据库中的单独的列相关联并且因此信息由工作人员手动审查并输入到单独的列中。此外,因为产品描述是非结构化的并且不遵循任何特定的格式,所以它们可能包括语法错误、拼写错误和/或其他错误。因此,仅仅将信息复制到数据库中不能提供准确的和适当编目的信息。因此,在数据库中提供准确的产品描述是有许多复杂性的困难任务。
发明内容
在本公开的一个方面中,公开了一种存储指令的非暂态计算机可读介质,这些指令在由计算设备的一个或多个处理器执行时使得计算设备至少进行以下操作:关联来自描述串的标记(token)与产品的定义的属性,其中所定义的属性被组织到电子库存数据库中的列中,其中关联标记包括识别所定义的属性中的哪些属性与标记匹配,以及使用注释串将标记映射到列,以指示所定义的属性与标记中的相应标记之间的匹配,其中产品中的每个产品与描述串和注释串中的相应的描述串和注释串关联,并且其中描述串中的每个描述串包括指示库存中的产品属性的字母数字字符的非结构化组合;通过根据所定义的属性和识别的标记之间的关联迭代地分析描述串和注释串,来生成用于标记中的未被识别的标记的建议的匹配;以及通过从描述串中提取标记并将标记插入到由注释串的映射所指定的列中来填充电子库存数据库。公开了一种执行类似功能的计算机实现的方法。
在非暂态计算机可读介质的另一个实施例中,使得计算设备填充电子库存数据库的指令包括使得计算设备进行以下操作的指令:通过从描述串自动提取标记并将标记存储到由注释串所识别的电子库存数据库的列中以针对产品中的每个产品在电子库存数据库中填充描述,来根据注释串结构化描述串,其中标记具有不同的长度,其中库存是零售业务的库存,并且其中边界标志分隔描述串的标记并且包括空格或非字母数字字符。
在上面的非暂态计算机可读介质的另一个实施例中,非暂态计算机可读介质还包括使得计算设备进行以下操作的指令:通过从存储介质中读取电子数据来访问包括用于库存类别中的产品的描述串的电子数据,并且其中描述串是不符合定义的协议的数据的非结构化串,其中所定义的属性与电子库存数据库的列关联并且包括多个产品的特性,以及其中关联标记初始化注释串以初始地识别标记与所定义的属性之间的匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨文国际公司,未经甲骨文国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780005536.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于正则化机器学习模型的方法、系统和存储介质
- 下一篇:智能厨房信息管理