元数据采集

通过元数据管理平台可以将分散、异构的信息资源进行统一采集、描述、定位、检索、评估、分析,实现数据的结构化,为机器处理创造可能,从而大大降低数据治理的人工成本。

1. 采集内容

元数据采集内容主要包括业务元数据、技术元数据和操作元数据。

2. 采集方式

元数据采集方式主要有两种:自动化采集和人工采集。

(1)自动化采集

自动化采集主要是通过元数据管理工具提供的各类适配器进行元数据采集。元数据适配器是基于不同数据源的元数据桥接器,不同数据源内部的元数据桥是不同的,因此没有一个万能适配器可以用于所有类型数据源的元数据采集。

当前MySQL、Oracle、PostgreSQL等关系型数据库的元数据采集方式大都是通过JDBC连接各种数据源的元数据所在库,然后通过SQL的方式查询各数据源的元数据库表,提取出元数据信息。JDBC就是关系型数据库的一个桥接器。

而对于一些半结构化、非结构化元数据,则需要用到图像识别、自然语言处理等人工智能技术,构建专业的元数据采集适配器,进行元数据的识别和采集。

在元数据采集过程中,元数据采集适配器十分重要,元数据采集既要适配各种DB、各类ETL、各类数据仓库和报表产品,还要适配各类结构化或半结构化数据源。元数据采集适配器可以通过自动化的方式对企业各类数据源的元数据进行统一采集、统一管理。

(2)人工采集

在元数据管理实践中,最难采集的往往不是技术元数据或操作元数据,而是业务元数据。由于企业缺乏统一的数据标准,业务系统竖井化建设,系统建设过程中没有对业务元数据进行统一定义,所以即使通过元数据适配器将业务系统的技术元数据采集到元数据仓库中,也很难识别这些表、视图、存储过程、数据结构的业务含义。这就需要采用人工的方式对现有数据的业务元数据进行补齐,以实现元数据的统一管理。

—— 完 ——
相关推荐
评论

立 为 非 似

中 谁 昨 此

宵 风 夜 星

。 露 , 辰

文章点击榜

细 无 轻 自

如 边 似 在

愁 丝 梦 飞

。 雨 , 花