Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 166|回复: 0

设计 ETL 流程时需要考虑的 3 个观点

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2024-2-18 14:47:32 | 显示全部楼层 |阅读模式

流程的设计是构建数据仓库时执行的所有任务中最重要的任务之一。这是一项复杂、耗时的活动,消耗了大部分数据仓库项目实施工作和资源。 流程为了控制与 ETL 流程相关的成本并提高其盈利能力,我们必须重点了解三个主要区域:源区域、目标区域和映射区域(ETL 流程);此外,还要明确一些通常悬而未决的问题。它们与修改后的数据捕获机制的选择、求助于存储库和数据集成的时刻有关。 修改了 ETL 流程中的数据捕获系统。了解源系统 当为数据仓库的初始历史负载启动ETL 流程时,变更数据捕获 (CDC)不是问题。它的相关性无法与此类系统在后续ETL周期中获得的相关性相比。 原因是,虽然源数据内容的更改并不重要,因为您是从一个非常特定的时间点加载所有数据,从那时起;在迭代加载中,会发生相反的情况:这是一个关键问题。 在实践中,大多数数据仓库表都非常大,以至于无法在每个 ETL 周期中进行更新。因此,ETL 流程只能将自上次更新以来源数据的相关更改(即自上次加载以来已修改的数据)传输到数据仓库,这一点非常重要。为了实现这一点,必须能够隔离这些数据。这就是疾病预防控制中心的职责所在。

但构建一个良好的变更数据捕获系统 黎巴嫩 WhatsApp 号码数据 并不像看起来那么容易,原因是: - CDC系统必须构建故障安全,以确保所有修改的数据都能被识别。 -很多时候,对源系统表的更新发生在应用程序本身之外,这使得结果的一致性变得复杂。 -很难选择要应用的策略。 这里的错误将导致不一致的结果、代价高昂的问题以及对信息缺乏信心。在 ETL 流程中,与捕获修改数据相关的一切都绝非易事,需要获取有关源数据系统的知识。只有了解这些来源,开采、转化和装载团队才能以满意的结果完成项目。 ETL 流程:何时将数据保留在存储库中 在当今的数据仓库环境中, ETL工具很有可能建立与源数据库的直接连接。从那里开始,他们通常会通过所选的 ETL 工具提取和传输数据,以在内存中应用任何必要的转换。最后,只需将其写入目的地一次,就已经在其相应的数据存储表中了。 然而,从性能的角度来看,这种能力可能是不经济的。特别是当涉及到 RDBMS 时,以这种方式提出的 ETL 过程可能过于昂贵。 最大限度地减少与 ETL 项目相关的费用是一个设计问题。而且,正是在ETL 流程的不同时刻使用存储库这样的决策才是关键,不仅可以降低成本,而且可以利用某些优势。 在 ETL 计划中包含存储库的原因与: -需要一个恢复点,以便在 ETL 作业失败时重新启动,例如,如果源环境和ETL 进程之间的连接中断。



我们希望优化 CDC 系统的有效性。这需要将源表的当前副本与同一表的先前副本进行比较,只有当数据已被物理复制到其他地方(存储库)时才能执行此操作。 -防止ETL进程阻塞源系统中的数据库,阻碍系统的正常运行。如果这是一个长期运行的项目,则可能会发生这种情况,并且可以通过将数据复制到磁盘等方式来避免。 -必须制作所有需要传输的信息的副本,因为组织需要在提取数据后立即提供数据以用于存档目的。这在许多公司中很常见,并且与法规遵从性或审计问题有关。 ETL 流程中应在何处以及如何进行数据集成 成功的 ETL 流程是根据对源系统的深入了解并基于对目标系统的完整愿景而规划的流程。准确地说,这种可见性与集成有关。 数据整合: -意味着从两个或多个数据库的角度就数据的含义达成一致。 -它旨在确保所有系统协调一致地运作,但它们是问题。 -允许通过组合来自不同来源的数据来在数据仓库中进行分析。 360 度愿景是许多组织的共同目标,要实现这一目标,必须将其根源扩展到事务系统,即在数据到达数据仓库之前移动数据的 ETL 流程。 数据集成正是在这些过程中产生的,因为此时维度和事实就被定义了。公共维度属性是通过单独的事实表建立的。换句话说,通过单独的数据库根据常见的业务指标(例如 KPI)建立协议,以便可以对这些数字进行数学比较,以计算差异和比率。通过这种方式,报告可以基于任何数据属性以一致、可靠和集成的方式进行更深入的报告。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|DiscuzX

GMT+8, 2024-11-24 04:28 , Processed in 0.029378 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表