数据湖本质上是一个单一的数据存储库,它保存用户的所有数据,直到准备好进行分析,或者可能只保存不适合数据仓库的数据。通常情况下,数据湖以其原生文件格式存储数据,但可以将数据转换为另一种格式以提高分析效率。拥有数据湖的目标是从数据中提取业务或其他分析的价值数据。
数据湖可以托管二进制数据(例如图像和视频)、非结构化数据(例如PDF文档)和半结构化数据(例如CSV和JSON文件)以及结构化数据(通常来自关系数据库)。结构化数据对分析更有用,但半结构化数据可以很容易地导入结构化形式中。非结构化数据通常可以使用智能自动化转换为结构化数据。