二维码

如何增强您的数据湖

1366 人阅读 | 时间:2019年10月14日 22:44

了解如何提高组织的数据湖和分析的性能。

如何增强您的数据湖

图片:iStock / iSergey

Streamlio首席执行官Karthik Ramasamy于2019年3月质疑是否该抽空数据湖了Ramasamy在他的DATAVERSITY帖子中写道,数据湖的问题包括流程复杂性,获取数据的速度缓慢以及对IT人才的需求,这些需求被其他重要项目所取代。所有这些因素都促使更多的数据湖变成“数据沼泽”,即混乱的信息,表明公司无法挖掘洞察力。

尽管诸如Ramasamy的文章不足以阻止组织在分析中使用数据湖,但它们确实提出了组织在努力从数据湖和分析中获得最大收益时继续面临的关键问题。 

查看:从大数据计划中获得最大价值的60种方法(免费PDF)(TechRepublic)

公司希望看到包含新数据的数据湖,减少开发这些湖的资金和资源支出,缩短分析和业务洞察的上市时间,并使所有人(不仅仅是数据科学家)都能查询并获得价值从数据。对于大多数组织来说,所有这些目标仍在进行中。 

“ 提供数据湖引擎解决方案Dremio的首席执行官兼创始人” Tomer Shiran表示:“创建数据湖所涉及的工作可能是复杂的,并且会耗费大量时间和资源。” “通常,IT部门必须为提取的数据创建数据立方体和数据仓库,以创建数据湖存储库。此过程可能包含多个步骤,因此可能变得非常复杂。在此过程中,还存在潜在的数据治理问题。”

由于必须在这些数据湖中维护和刷新半结构化或非结构化数据,因此问题更加严重。

Shiran认为,作为解决方案的一部分,可以将更多结构化和非结构化数据的数据湖直接放入S3 / AWSMicrosoft Azure等云中。

Shiran说:“云是可扩展的,它允许您根据需要增加或减少计算和服务器群集,从而降低了成本。”

这是Dremio等公司所依赖的架构概念。这些公司为不同的云和查询引擎提供了连接器,使组织可以直接将其数据湖转到云中,而无需创建单独的数据立方体和数据仓库。 

那么,这是如何工作的呢?通过使用与商业云平台,数据库,数据仓库以及SQL,Snowflake和Salesforce等通用数据查询工具的完整连接器附带的软件,组织可以绕过繁琐的工作,而不必自己开发这些接口,除了自己的数据立方体和数据湖。相反,组织可以本机访问云,让软件完成工作,并更快地提供数据查询服务。

“实质上,您拥有一个预先开发的多个连接器的工具包,它们可连接到数据库,查询工具以及AWS和Azure等云,使您能够利用云的可扩展成本和资源,并且还可以节省您自己的IT资源和预算,因为您不必自己执行查询和数据湖连接的所有中间设置费用。” Shiran说。

这些工具集还能够优化内存,以便将最常访问的数据存储在最快的内存中,从而加快了数据检索速度,并缩短了获得商业见解的时间。此外,这些工具具有内置的预测性数据检索智能,使它们能够评估最常访问哪些类型的数据,以便可以将数据分配给快速存储,以便在其中进行最快的检索。

“我们添加的另一个元素是语义,” Shiran说。“换句话说,我们创建的用户界面使希望运行数据查询的日常用户可以轻松地轻松进行这些查询,而无需向数据科学家寻求帮助。”

这样的方法可以帮助组织优化其数据湖吗?只要组织也做这两件事,潜力就存在。

  1. 评估现有数据湖的有效性:这可能涉及确定哪些数据湖正在工作以及哪些数据湖处于停滞状态。对于停滞不前或接近无投资回报点的数据湖,应决定是对其进行翻新还是仅将其日落而重新开始。

  2. 评估您的云和内部数据体系结构:连接器和数据湖优化工具仅与您了解数据湖和查询需求以及它们如何链接到您的现场和基于云的数据一样有效。一旦了解了数据如何链接以及它在哪里,您就可以找到有助于消除手动工作的连接器工具。

©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
◎已有 0 人评论
搜索
作者介绍
30天热门
×
×
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×