机器学习简介

当今计算领域最流行的两个流行语是人工智能 (AI) 和机器学习。 很多时候人们可以互换使用它们。 事实上,人工智能不仅仅包含机器学习,而且机器学习是人工智能最有前途的方面之一。

什么是机器学习?

机器学习是一台机器(通常是一台计算机或一系列计算机)完成一项任务的过程,而无需特别指示如何完成该任务。 一个普通的计算机应用程序将遵循一系列控制结构,告诉它如何以各种方式做出反应。 例如,我看到红灯然后停下来,或者如果房子是 1200 平方英尺,那么在特定市场上它会花费 150,000 美元。

机器学习与 AI 有何区别?

ML 和 AI 之间的区别在于,AI 没有特定的指令集,而是经过训练可以查看大量数据,然后推断或猜测类似集合的结果可能是什么。 在我们的房价中 example,系统可能会得到这样的信息:

#平方英尺销售价格
11200150,000 美元
2900120,000 美元
31500160,000 美元
41000140,000 美元
51350?

该系统有前四所房屋的价格,根据这些信息,人工智能将尝试根据提供的先前数据集预测估计价格可能是多少。

如果我们将这些价格绘制成图表,我们可以直观地看到数据的样子,这可以帮助我们了解机器学习系统将要做什么:

预测 1350 平方英尺房屋价格的一种简单方法是尝试绘制一条与我们集合中的数据尽可能接近的线。 输出将类似于以下内容:

我们可以看到这不是一个完美的拟合,实际上没有完美拟合的直线,但如果我们尽最大努力将这条线拟合到现有数据,那么我们可以做出一个很好的猜测或推断1350平方英尺的房子的价格是多少。 它可能会比 1200 平方英尺的房子多一点,比 1500 平方英尺的房子少一点。

定义一条线的数学方程中有两个变量:它与垂直轴相交的点和线的斜率。 我们的机器学习算法的目标是选择这两个值以最适合数据。 我们不会深入探讨这个解决方案背后的所有数学问题,但可以将一行描述为:Y = a + bX

其中 a 是与 Y 轴的交点,b 描述直线的斜率。

事实证明,如果您使用二次方程 (Y = aX2 + bX +c),它将为我们提供一条更适合该数据的曲线。 这条曲线看起来像这样:

price_graph3-1.29.20

如您所见,这更适合,但这样的数据与现实世界不同。 事实是,我们将尽最大努力使曲线适合我们拥有的数据。

机器学习的类型

有几种类型的机器学习系统。 他们根据他们如何使用数据来学习以及他们使用的数据类型进行分类。 我们将在本文中介绍的三种机器学习类型是监督学习、无监督学习和强化学习。

监督学习

房价 example 以上是监督学习的一种形式。 通过监督学习,我们为算法提供了一组真实输入和真实结果的数据。 在我们的 example,我们可能有数百栋房屋及其平方英尺。 该数据称为训练数据。 该算法将寻找适合训练数据的曲线或直线。 当它这样做时,它可以使用该曲线或线来预测不同房屋的价格适合的位置。

无监督学习

通过监督学习,您拥有一组具有真实输入和真实输出的数据“训练集”。 这使我们能够推断或猜测新输入的输出将是什么。 对于无监督学习,我们只有输入数据。 此数据在输入之前尚未标记或分类。 无监督学习的目标是将相似的项目组合在一起。

作为一个 example,我们将使用基于 2019-2020 堪萨斯城酋长队进攻先发球员的数据集。 我们将绘制它们的身高和体重,并尝试在不知道其他任何信息的情况下对它们进行分类。 数据集是:

高度(英寸)重量(磅)
70185
79315
78309
75300
77321
77320
75260
73211
75230
71224
70242

如果我们将这些信息绘制在图表上,它看起来像这样:

price_graph4-1.29.20

经过适当调整的无监督学习算法将能够轻松地将四名玩家分成一组(红色圆圈),将另外五名玩家分成另一组(绿色圆圈),剩下的两名玩家可能不容易分类。

price_graph5-1.29.20

事实证明,红色圆圈是跑卫和外接手,他们往往是更小更快的球员,而绿色圆圈包含进攻线卫,他们往往是更大更强的球员。 两名未归类的球员是四分卫(随着时间的推移,四分卫在 NFL 中变得更大)和近端锋,这是接球手和线卫之间的混合体。 无监督学习系统将使用各种统计模型来尝试对数据集中的所有玩家进行逻辑分组。

强化学习

强化学习是一个系统,它根据所提供的选择向系统提供正反馈和负反馈。 一个优秀的 example 其中可能是个人推荐系统。

如果你曾经看过 Netflix,您知道它会根据您的观看历史为您提供合适的推荐。 Netflix 使用强化学习系统来确定您可能喜欢或不喜欢什么。 这个数据集的输入是你之前看过的节目,以及看过类似节目的其他人也喜欢的节目。

然后该系统建议显示它认为与您的口味相似。 响应(或强化)是您是否实际选择并观看建议的节目。 如果您喜欢某个节目,并且有 100 个人喜欢该节目,并且也喜欢类似的节目,那么系统可能会根据所有这些选择推荐与您的品味相关的另一个节目。

随着时间的推移,系统会根据您是否选择接受建议的建议来更多地了解您和您的偏好。 然后,它会发展其算法以使其知识更丰富,然后根据这些先前的选择提出未来的建议。

一个实际的例子

垃圾邮件过滤器

每天您可能都会收到大量垃圾邮件。 在过去,这是一个巨大的问题,但近年来,电子邮件提供商已经开始使用机器学习来解决这个现实世界的问题。

machine_learning_pic2.29.20

使用的一个系统将一系列电子邮件作为训练数据。 一半已知为垃圾邮件,另一半已知不是垃圾邮件。

然后,系统会跟踪两个数据集中的每个单词(甚至每个短语或单词系列)。 然后,垃圾邮件过滤器可以预测电子邮件中包含的特定术语、短语或一系列单词是垃圾邮件还是非垃圾邮件的可能性。 使用此数据,您可以从新邮件的文字中确定该电子邮件是否为垃圾邮件的可能性。

给定这个数据集:

Word

垃圾邮件

受益人

97

现金

82

50

阿姨

2

20

如果一条包含“Beneficiary”、“Cash”和“is”字样的邮件,我们可以确定该邮件有 77% 的可能性是垃圾邮件。 但是,如果消息说“您的阿姨将在下午 5 点回家”,则该消息有 11% 的可能性是垃圾邮件。 现代垃圾邮件过滤器拥有更多的数据,因此在确定邮件是否为垃圾邮件方面变得更加准确。

结论

机器学习是一个已经存在了很长一段时间的概念。 它的应用最近在我们的日常生活中变得越来越有用。 随着这项技术的改进,这些系统将能够以更少的人工干预完成更复杂的任务。

立即与专家交谈!

您是否正在想办法尝试利用最新的机器学习技术来解决更大的业务问题或解决您可能遇到的问题? 如果是这样,我们的解决方案团队可能非常能够提供一种方法,使您能够利用这一热门新技术在当今竞争激烈的市场中获得所需的优势。

给我们打电话 800.580.4985,或打开 聊天 或与我们联系,今天与我们经验丰富的托管专家之一交谈!