一文读懂大数据ETL(数据抽取、转换、加载)

ETL是BI(商业智能)的核心和灵魂。能够按照一定的规则集成并提高数据的价值。

1.大数据ETL数据集成

实现ETL,首先要实现ETL转换的过程,它可以集中地体现为以下几个方面:

空值处理--可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。

规范化数据格式可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。

拆分数据--依据业务需求对字段可进行分解。例主叫号861082512345-9632,可进行区域码和电话号码分解。

验证数据正确性--可利用Lookup及拆分功能进行数据验证。例如,主叫号861082512345-9632,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。

数据替换--对于因业务因素,可实现无效数据、缺失数据的替换。

Lookup-查获丢失数据Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。

建立ETL过程的主外键约束对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。

2.大数据ETL工具应用

ETL工具有:OWB(Oracle WarehouseBuilder)、ODI(Oracle Data Integrator)、Informatic Power Center、Trinity、AICloud ETL、 DataStage、RepositoryExplorer、Beeload、Kettle、Data Spider。

ETL工具的典型代表有:nformatica、Datastage、OWB、微软DTS、 Beeload、Kettle......

3.大数据ETL工具的选择

在数据集成中该如何选择ETL工具呢?一般来说需要考虑以下几个方面:

(1)对平台的支持程度。

(2)对数据源的支持程度。

(3)抽取和装载的性能是不是较高,且对业务系统的性能影响大不大,倾入性高不高。

(4)数据转换和加工的功能强不强。

(5)是否具有管理和调度功能。

(6)是否具有良好的集成性和开放性。

4.大数据ETL注意事项

第一,如果条件允许,可利用数据中转区对运营数据进行预处理,保证集成与加载的高效性;

第二,如果ETL的过程是主动“拉取”,而不是从内部“推送”,其可控性将大为增强;

第二,ETL之前应制定流程化的配置管理和标准协议;

第四,关键数据标准至关重要。

ETL面临的最大挑战是当接收数据时其各源数据的异构性和低质量。以电信为例,A系统按照统计代码管理数据,B系统按照账目数字管理,C系统按照语音ID管理。当ETL需要对这一个系统进行集成以获得对客户的全面视角时,这一过程需要复杂的四配规则、名称/地址正常化与标准化。而ETL在处理过程中会定义一个关键数据标准,并在此基础上,制定相应的数据接口标准。

—— 完 ——
相关推荐
评论

立 为 非 似

中 谁 昨 此

宵 风 夜 星

。 露 , 辰

文章点击榜

细 无 轻 自

如 边 似 在

愁 丝 梦 飞

。 雨 , 花