ETL是BI(商业智能)的核心和灵魂。能够按照一定的规则集成并提高数据的价值。
1.大数据ETL数据集成
实现ETL,首先要实现ETL转换的过程,它可以集中地体现为以下几个方面:
空值处理--可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。
规范化数据格式可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。
拆分数据--依据业务需求对字段可进行分解。例主叫号861082512345-9632,可进行区域码和电话号码分解。
验证数据正确性--可利用Lookup及拆分功能进行数据验证。例如,主叫号861082512345-9632,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。
数据替换--对于因业务因素,可实现无效数据、缺失数据的替换。
Lookup-查获丢失数据Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。
建立ETL过程的主外键约束对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。
2.大数据ETL工具应用
ETL工具有:OWB(Oracle WarehouseBuilder)、ODI(Oracle Data Integrator)、Informatic Power Center、Trinity、AICloud ETL、 DataStage、RepositoryExplorer、Beeload、Kettle、Data Spider。
ETL工具的典型代表有:nformatica、Datastage、OWB、微软DTS、 Beeload、Kettle......
3.大数据ETL工具的选择
在数据集成中该如何选择ETL工具呢?一般来说需要考虑以下几个方面:
(1)对平台的支持程度。
(2)对数据源的支持程度。
(3)抽取和装载的性能是不是较高,且对业务系统的性能影响大不大,倾入性高不高。
(4)数据转换和加工的功能强不强。
(5)是否具有管理和调度功能。
(6)是否具有良好的集成性和开放性。
4.大数据ETL注意事项
第一,如果条件允许,可利用数据中转区对运营数据进行预处理,保证集成与加载的高效性;
第二,如果ETL的过程是主动“拉取”,而不是从内部“推送”,其可控性将大为增强;
第二,ETL之前应制定流程化的配置管理和标准协议;
第四,关键数据标准至关重要。
ETL面临的最大挑战是当接收数据时其各源数据的异构性和低质量。以电信为例,A系统按照统计代码管理数据,B系统按照账目数字管理,C系统按照语音ID管理。当ETL需要对这一个系统进行集成以获得对客户的全面视角时,这一过程需要复杂的四配规则、名称/地址正常化与标准化。而ETL在处理过程中会定义一个关键数据标准,并在此基础上,制定相应的数据接口标准。