2022年最佳ETL工具和软件
图片来源:Adobe Stock

内容:

  • 什么是 ETL 工具?

  • ETL 工具如何工作?

  • 如何使用 ETL 工具?

  • 在 ETL 工具中查找的内容

  • 最好的 ETL 工具

  • 总结

什么是 ETL 工具?


如今,数据分析在企业决策中发挥着重要作用。它之所以能够做到这一点,是因为数据是从各种来源中挑选出来的,然后组装在企业决策者可以访问的单个数据存储库中。当从整个公司的不同领域合并数据时,企业决策者可以360度全方位了解正在发生的事情。这使他们能够做出更明智的决定。

例如,如果销售副总裁想知道为什么某个产品卖得不好,他/她可以查询一个中央数据分析存储库,其中包含整个企业中有关该特定产品的所有信息。销售副总裁可以查看客户对客户服务记录的产品的投诉,以及仓库处理的产品退货数量。他/她还可以看到工程部门正在对产品进行修订,以修复已报告的缺陷。副总裁现在对为什么产品的收入没有像预期的那样好有了透彻的了解。

SEE: 招聘工具包:数据库工程师(TechRepublic Premium)

十年前,这种全面的分析和可见性是很难实现的。公司部门正在使用自己的系统和数据,这些数据留在数据孤岛中,并不总是与需要知道的其他人共享。现在,通过更现代化的方法来准备和共享数据,企业决策者可以更全面地了解整个公司正在发生的事情。

组织如何设法从各种内部和永恒来源中提取数据,然后将其合并到每个人都可以访问的单个数据存储库中?

他们使用提取,转换和加载(ETL)软件(通常称为ETL工具)来移动数据,转换数据,然后将其加载到目标数据存储库中。

ETL 工具如何工作?

ETL 软件从一个源获取数据,将数据转换为另一个源可接受的形式,然后将数据移动到新的目标源。ETL软件是一种自动化软件工具。当公司使用ETL软件时,他们不再需要手动将数据从一个来源转换为另一个来源。这样可以节省时间、精力和手动错误。

当 ETL 工具提取数据时,可以从任何内部或外部数据源(无论是文件还是数据库)中提取数据。

ETL 工具获得数据后,会将数据转换为与数据将加载到的目标数据存储库兼容的格式。此数据转换基于 IT 为 ETL 软件定义的数据转换规则,然后 ETL 软件根据这些规则自动执行数据转换。

作为最后一步,ETL 软件获取转换后的数据,然后将其移动到目标数据存储库中。

如何使用 ETL 工具?

ETL 工具可以用于批处理和实时数据处理。这些工具还可以在本地和云环境中使用。

ETL 工具的价值在于它们能够自动执行系统之间的数据移动,但它们的好坏取决于 IT 为它们提供的业务和操作规则集。

例如,组织将拥有一套数据治理和数据清理标准。这可能包括在系统之间的数据传输中排除某些数据字段,或更改数据的格式,以便来自传入数据源的数据能够符合目标数据存储库中的数据并与可能格式不同的数据进行互操作。 

过去,IT 必须手动制定和执行这些数据转换和质量规则。这是一个耗时的过程,也有可能引入错误,因为该过程是手动完成的。现在,借助自动执行数据提取、转换和加载过程主要部分的 ETL 工具,IT 可以在这些操作中大量进行交接,尽管它仍然必须为 ETL 工具定义操作规则、数据质量和治理,以便 ETL 软件能够完成其工作。

IT 部门也有责任以与 IT 部门监视任何其他软件的性能相同的方式持续监视 ETL 过程。这样,如果出现问题,IT可以进行干预并解决问题。

在 ETL 工具中查找的内容

各种规模的公司都需要将数据从一点移动到另一点,然后对其进行聚合,以支持更全面和更明智的决策。 

随着分析的出现以及更全面地了解业务的需求,IT 和最终业务决策者希望从他们的数据中获取更多价值,并且他们希望更快地获得数据。这就是 ETL 工具的用武之地。它们自动执行过去手动的数据移动,并且带有预打包的API(应用程序编程接口),可自动连接到许多流行的数据库和应用程序,而无需IT“手动”进行这些集成。

话虽如此,在购买ETL解决方案之前,公司应该考虑几个因素。

您需要 ETL 做什么?

您是否要从不同来源提取数据,从非结构化或半结构化 IoT 数据到驻留在内部服务器和大型机上的旧系统数据?或者,您的公司是否几乎完全基于云计算,并且明确偏好在托管大多数数据和应用程序的云中运行的ETL解决方案?如果您的公司拥有既位于本地又基于云的数据和系统,该怎么办?该方案的最佳选择是什么?

您希望如何准备数据?

ETL 工具预先打包的通用格式设置(系统到系统或数据库到数据库)是否满足数据清理和格式设置需求,还是需要向数据添加额外的编辑规则?

您能在多大程度上支持和利用您的 ETL 工具?

如果您是一家规模较小的公司,您是否有接受过ETL方法和工具培训的熟练人员?即使您有这些人员,您是否还需要让您的非IT终端业务用户使用ETL软件?

您想为 ETL 工具支付多少费用?

您更喜欢完全基于使用情况的 ETL 工具(您可以控制和监控成本)还是基于云的 ETL 工具(不需要数据中心的内部服务器和存储)?您的 IT 员工和最终用户可能需要哪些培训和支持?哪种 ETL 软件选项对您来说最具成本效益?

最好的 ETL 工具

ETL工具可以在云或本地IT环境中工作;它们也有专有或开源软件。以下是这些类别中一些最流行的 ETL 工具。

  • AWS Glue

  • Azure Data Factory

  • 谷歌云数据流

  • InfoSphere DataStage

  • 甲骨文数据集成商

  • Informatica PowerCenter Mapping Designer

  • 塔伦德

  • 潘塔霍

云中的 ETL

AWS Glue

AWS Glue 非常适合使用 SQL 数据库、AWS 和 Amazon S3 存储服务的公司。AWS Glue 使您能够清理、验证、组织数据,并将来自不同静态或流数据源的数据加载到数据仓库或数据湖中。它还允许您处理半结构化数据,例如点击流(例如,网站超链接)和处理日志。它的优势在于它使用SQL的能力,这是许多公司的能力。在编程方面,AWS Glue 使用 Scala 或 Python 代码执行作业。

借助 AWS Glue,您可以根据计划或事件来计划 ETL 作业,也可以在数据可用时立即触发作业。AWS Glue 是一种按需工具,可自动扩展以适应您所需的处理和存储资源,并让您在处理时能够查看运行时指标。

AWS Glue 与其他 AWS 系统和流程很好地集成,因此,如果 AWS 是您的主要数据存储库和处理器,AWS Glue 可以很好地运行。它还具有用于第三方JDBC(JAVA)可访问数据库的API,如DB2,MySQL,Oracle,SyBase,Apache Kafka和MongoDB。

AWS 提供免费的在线课程。它还提供认证计划。 

对于存储的前一百万个访问/对象,定价是免费的,并且根据此后的使用情况按月计费。 

Azure Data Factory

Azure 数据工厂是一种即用即付的基于云的 ETL 工具,可自动缩放处理和存储以满足数据和处理需求。它的优势在于IT专业人员和最终用户都可以使用它。这是因为该工具既具有面向最终用户的无代码图形用户界面,又具有面向 IT 的基于代码的界面。代码接口和无代码接口都具有从 90 多个连接器提取数据的功能。这些连接器包括AWS,DB2,MongoDB,Oracle,MySQL,SQL,SyBase,Salesforce和SAP。

Azure 数据工厂是 Microsoft 商店以及希望其业务最终用户和 IT 组都有权访问 ETL 工具的公司的理想选择,这些工具使他们能够将数据提取到数据存储库中。 

微软提供免费的在线培训。它还提供 Azure 数据工厂的认证。其标准技术支持包通过电子邮件和电话提供 24×7 全天候访问支持工程师,并保证响应时间在一小时内。

定价基于使用情况。

谷歌云数据流

Google Cloud Dataflow是Google Cloud平台的一部分,与其他Google服务很好地集成在一起。Dataflow使用ApacheBeam开源技术来编排DataFlow的ETL操作中使用的数据管道。Google Cloud Dataflow需要SQL数据库以及Java和Python编程语言方面的IT专业知识。该软件可以部署用于批处理和实时处理,并且可以在计划或实时按需模式下部署。由于 Google Cloud Dataflow 是基于云的,因此它可以自动扩展以适应任何 ETL 作业所需的处理和存储。Google Cloud Dataflow是大量使用Google Cloud平台的商店的理想选择。

通过其Cloud Academy,Google提供了有关Dataflow的免费在线教程,以每月34美元的价格提供实践培训,并以每月39美元的价格提供Google认证计划。

Google Cloud 提供了多个技术支持选项,从基本级别(结算/付款支持)开始,然后增加到标准(无限制技术支持)、增强(更快响应技术支持)和高级支持(专门的支持代表)。 

定价基于使用情况。

本地或混合 ETL 工具

IBM InfoSphere DataStage

InfoSphere DataStage 是 IBM Information Server Platform 的一部分。它使用客户端/服务器设计,其中作业通过 Windows 客户端针对服务器上的中央存储库创建和管理。此服务器可以是基于 Intel、基于 UNIX、基于 LINUX 甚至 IBM 大型机。无论平台如何,IBM InfoSphere DataStage ETL 软件都可以跨多个大量数据源按需集成数据,并可以使用高性能并行框架面向应用程序。InfoSphere DataStage 还促进了扩展的元数据管理和企业连接。

InfoSphere DataStage 非常适合拥有大型机或大型服务器以及大量处理和数据的大型企业。这些组织倾向于在多个云上运行,也可以在本地数据中心运行。IBM InfoSphere DataStage支持的连接器范围从AWS,Azure和Google到SyBase,Hive,JSON,Kafka,Oracle,Salesforce,Snowflake,Teradata等。 

IBM InfoSphere DataStage 是一个强大的 ETL 解决方案,也是一个成本高昂的解决方案。此工具专为对 SQL 有充分了解并了解 InfoSphere DataStage 使用的 BASIC 编程语言的 IT 专业人员而设计。 

IBM 为 DataStage 提供付费的在线和课堂培训和认证。它还提供24/7技术支持包 

价格可根据要求提供。

甲骨文数据集成商

Oracle数据集成商(ODI)是运行其他Oracle应用程序(如企业资源规划(ERP))的大型企业的强大平台。ODI 旨在在整个公司的业务职能部门中从一点移动到另一点。与ERP一样,它可以支持整个组织的集成工作流程。

ODI 可以处理从大批量加载到面向服务的体系结构 (SOA) 数据服务的数据集成请求,这些服务使软件组件能够在新流程中调用和重用。ODI还支持并行任务执行,以加快数据处理速度,并提供与其他Oracle工具(如Oracle GoldenGate和Oracle Warehouse Builder)的内置集成。

ODI ETL 软件支持结构化和非结构化数据的数据集成。它支持关系数据库,并具有用于第三方数据和应用程序的API库。在大数据方面,ODI还支持Spark Streaming,Hive,Kafka,Cassandra,HBase,Sqoop和Pig。ODI是一种复杂的专有工具,需要IT专业知识和Java编程经验。

在订阅的基础上,Oracle 提供对 ODI 的在线培训和认证。 

提供技术支持,并将添加到许可费用中。

定价基于许可证。

Informatica PowerCenter Mapping Designer

Informatica PowerCenter 是一款企业级 ETL 工具,最适合需要跨多个不同业务职能移动数据的大型组织。PowerCenter 从跨越内部和外部(基于云的)企业应用程序的各种不同的结构化和非结构化数据源中提取、转换和加载数据。PowerCenter 具有许多适用于各种不同第三方应用程序和数据的 API。 

PowerCenter 使用的常见数据格式包括 JSON、XML、PDF 和物联网 (IoT) 机器数据。PowerCenter 可以使用许多不同的第三方数据库,如 SQL 和 Oracle 数据库。PowerCenter 将根据 IT 定义的转换规则转换数据。 

Informatica PowerCenter 提供了一个用户友好的图形界面,专为业务用户使用而设计,但该工具最适合 IT 使用,因为它非常复杂。PowerCenter 可以在优化性能的同时自动扩展以满足处理和数据需求。 

尽管 PowerCenter 是专有的 ETL 工具,但它可以在云和本地环境中工作。 

Informatica 提供 PowerCenter 在线培训订阅,并通过其 Informatica 大学为开发人员、管理员和数据集成商提供学习路径。

它还提供公司可以订阅的技术支持选项。

定价基于使用情况。

SEE: Microsoft Power Platform: What You Need to Know About It (free PDF) (TechRepublic)

开源 ETL 工具

塔伦德

Talend是一个开源软件,可以快速构建用于ETL操作的数据管道。它是 IT 部门最能利用的工具,因为每次需要更改作业时,它都需要更改代码。话虽如此,Talend是IT专业人员的高度用户友好型工具,它使用图形用户界面来实现与数据和应用程序的连接。

Talend为商业和开源数据源和应用程序提供了900多种不同的连接器。它的图形用户界面使您能够指向并单击与常用企业数据源的连接,例如Excel,Dropbox,Oracle,Salesforce,Microsoft Dynamics等。Talend Open Studio 可以从关系数据库、软件应用程序和文件中提取结构化和非结构化数据。它可以与本地,云和多云平台一起使用,因此Talend非常适合在混合计算模式下运营的公司,该模式包括内部和云上的系统和数据。 

Talend 能够在本地、云和多云环境中轻松工作,从而简化了 IT 部门的工作,并加快了流程中的工作效率。

Talend Academy可通过订阅获得,并提供各种在线和讲师指导的课程。还提供 Talend 认证计划。

Talend 技术支持提供对广泛用户社区、在线图书馆和一站式客户门户的访问。技术支持服务按客户定价。 

Talend的基本版本是免费提供的。Talend的增强版本按用户定价。 

潘塔霍

Pentaho数据集成(PDI)是一个开源的ETL工具,也是一个提供数据挖掘,报告和信息仪表板的软件。Pentaho处理结构化或非结构化数据。作为内部ETL资源,Pentaho可以托管在英特尔或Apple服务器上。Pentaho使用JDBC连接到各种关系数据库(如SQL),但它也可以连接到专有的企业数据库(如DB2)。Pentaho捕获,清理和加载标准和非结构化系统数据,并且同样可以很好地处理来自现场或工厂车间的传入物联网数据。

Pentaho的优势在于它能够被公民开发人员(即业务最终用户)使用,而不仅仅是被IT使用。这使得它非常适合那些可能没有常驻IT专业知识来运行ETL的中小型企业。Pentaho之所以这样做,是因为它提供了无代码功能,使没有IT编程知识的最终用户能够自己从多个来源提取,转换和加载数据。用户可以使用拖放图形用户界面来完成工作。

Pentaho有两个不同的版本:易于使用且包含基本ETL功能的社区版本;和企业版,它更强大,包含更多功能。

Pentaho提供在线,自定进度的学习和讲师指导的教育,但需额外付费。

它提供从8/5到24/7覆盖的技术支持选项,并且是按客户定制的

Pentaho的社区版是免费的,企业版是按订阅定价的。

总结

数据集成是 IT 团队面临的最持久的挑战之一。ETL 工具带来的是一种将数据从一个系统移动到另一个系统以及从一个数据存储库移动到另一个数据存储库的简化方法。这些 ETL 工具具有多种类型,可以满足混合环境中具有复杂数据和系统集成需求的企业的需求,以及缺乏 IT 专业知识且必须注意预算的小型公司的需求。 您的企业选择的 ETL 工具将取决于其特定的用例和预算。