在 21 世纪,“数据科学”和“机器学习”这两个术语是科技界搜索最多的术语。从计算机科学专业的一年级学生到 Netflix、亚马逊等大型组织都在使用这两种技术。他们也得到了原因。在数据空间的世界中,当组织处理 PB 和 EB 的数据时,大数据时代出现了。直到 2010 年,行业对数据的存储变得非常困难。现在,当 Hadoop 等流行框架解决存储问题时,重点是处理数据。在这里,数据科学和机器学习发挥了重要作用。但是大数据有多少数据?
- Google 每天处理 20 PB (2008)
- Facebook 拥有 2.5 PB 的用户数据 + 每天 15 TB (2009)
- eBay 每天有 6.5 PB 的用户数据 + 50 TB(2009 年)
- CERN 的大型强子对撞机 (LHC) 每年产生 15 PB
但总的来说,是什么让这两个术语不同?这两种技术之间的最大区别是什么?所以让我们用一个非常流行的简单的维恩图来消除混淆,它被称为德鲁康威的维恩图。在此之前,让我们看一下这两个术语的定义。
数据科学
数据科学是对公司或组织存储库中大量数据的复杂研究。这项研究包括数据的来源、对其内容的实际研究,以及这些数据如何有助于公司未来的发展。与组织相关的数据始终有两种形式:结构化或非结构化。当我们研究这些数据时,我们会获得有关业务或市场模式的宝贵信息,这有助于企业比其他竞争对手更具优势,因为他们通过识别数据集中的模式提高了效率。
数据科学家是擅长将原始数据转换为关键业务问题的专家。这些科学家精通算法编码以及数据挖掘、机器学习和统计等概念。数据科学被亚马逊、Netflix、医疗保健行业、欺诈检测行业、互联网搜索、航空公司等公司广泛使用。
机器学习
机器学习是一个研究领域,它使计算机能够在没有明确编程的情况下进行学习。使用算法应用机器学习来处理数据并接受培训,以便在无需人工干预的情况下提供未来预测。机器学习的输入是一组指令或数据或观察。机器学习被 Facebook、Google 等公司广泛使用。
这两种技术有什么不同?
下面是德鲁康威的维恩图。让我们看一下维恩图。
你可以在上面的维恩图中看到“数据科学”和“机器学习”这两个术语。所以让我们理解图表。在 Drew Conway 的数据科学维恩图中,数据的原色是:
- 黑客技能,
- 数学和统计知识
- 实质性专业知识
但问题是他为什么强调这三个?下面来理解这个词是什么?
- 黑客技能:众所周知,数据是数据科学的关键部分。数据是电子交易的商品;所以,要进入这个市场,“一个人需要会说黑客”。那么这条线是什么意思呢?能够在命令行管理文本文件,学习矢量化操作,算法思维;是成功的数据黑客所需的黑客技能。
- 数学和统计知识:一旦你收集并清理了数据,下一步就是真正从中获得洞察力。为此,您需要使用适当的数学和统计方法,这至少需要对这些工具有基本的了解。这并不是说博士学位。在统计学中需要成为一名熟练的数据科学家,但它确实需要了解普通的最小二乘回归是什么以及如何解释它。
- 实质性专业知识:第三个重要部分是实质性专业知识。这就是我们消除困惑的地方。
根据 Drew Conway 的说法,“数据加上数学和统计知识只会让您获得机器学习”,如果您对此感兴趣,那就太好了,但如果您从事数据科学,那就不行了。科学是关于实验和建立知识的,这需要一些关于世界的激励性问题和假设,这些问题可以被带到数据中并用统计方法进行测试。
这是这两个术语之间的主要区别点。如果您想成为数据科学家,那么您必须具备该领域的知识。但为什么?数据科学的首要目标是从这些数据中提取有用的见解,以便它可以为公司的业务带来利润。如果您不了解公司的业务方面,不知道公司的商业模式是如何运作的,以及您如何无法将其构建得比您更好,那么您对这家公司毫无用处。您需要知道如何向正确的人提出正确的问题,以便您能够感知到获取所需信息所需的适当信息。下面是数据科学和机器学习之间差异的完整表格。
编号 | 数据科学 | 机器学习 |
---|---|---|
1 | 数据科学是一个关于从结构化和半结构化数据中提取数据的过程和系统的领域。 | 机器学习是一个研究领域,它使计算机能够在没有明确编程的情况下进行学习。 |
2 | 需要整个分析领域。 | 机器与数据科学的结合。 |
3 | 数据科学是处理数据的分支。 | 机器利用数据科学技术来了解数据。 |
4 | 数据科学中的数据可能是也可能不是从机器或机械过程演变而来的。 | 机器学习使用各种技术,如回归和监督聚类。 |
5 | 数据科学作为一个更广泛的术语,不仅关注算法统计,还关注数据处理。 | 机器学习只关注算法统计。 |
6 | 数据科学是多学科的广义术语。 | 机器学习适合数据科学。 |
7 | 数据科学的许多操作,即数据收集、数据清洗、数据操作等。 | 机器学习分为三种类型:无监督学习、强化学习、监督学习。 |
8 | 示例:Netflix 使用数据科学技术。 | 示例:Facebook 使用机器学习技术。 |