如何向普通人解释机器学习和数据挖掘?

网友解答: 我来谈一下机器学习和数据挖掘的一个方面。一开始我们先来看一个人为设计的场景。假设一个房间里神奇地漂浮着无数个小球。我们想搞清楚这些小球停留的位置是否存在着一种特定的结构。比方

网友解答:

我来谈一下机器学习和数据挖掘的一个方面。

一开始我们先来看一个人为设计的场景。假设一个房间里神奇地漂浮着无数个小球。我们想搞清楚这些小球停留的位置是否存在着一种特定的结构。比方说,小球是不是更易集中在某一特定区域?是不是故意避开某些点位?它们是均匀分布于整个空间吗?

但是房间一片漆黑,我们什么也看不见。于是我们找来了一部带闪光灯的照相机,想把漂浮在整个房间的小球都拍下来。

照片犹如下图一样:

就算小球的位置之间确实存在某种联系,从这张照片上我们也看不出个所以然。看上去小球就像是均匀分布的一样。所以我们尝试着换了下位置,从新的角度拍下了第二张照片。

照片上的小球看起来还是随机分布的,没有任何规律。让我们换个高点的角度试试看。

呃,还是看不出有什么规律来。那我们最后再换个低点的角度试一次。

啊哈,这次有点意思了:看起来小球集中分布在靠近屋顶和地面的两个区域,中间这段没有一个小球。因此,为了发现这个规律,我们在拍照时就必须找到一个“好”的角度。如果角度不对,那我们永远都不可能找出任何规律。

在上面这个例子中,我们想说的其实是三维数据点。每个小球的位置都可以由3个数字来表示,每个数字分别代表它在XYZ三条轴上的位置。在实际的电脑运算中,数据点的位置会由更多的数字组合来表示。医院病人的病历可能会包含500组数字,包括他的生日年月日、身高、体重、血压、最近一次的看病记录、胆固醇指标等等。我们会想要搞清楚不同病人的数据点之间是否存在某种规律,如心脏病人的数据点是否会集中分布?如果数据点确实会集中分布,当我们发现新入院病人的数据点也出现同样的趋势时,我们就可以推断这位病人很可能犯心脏病。当然,实际操作起来肯定不会如此简单。

一个人是不可能用肉眼看到这些数据点的。人怎么可能分得清500个维度呢?就像在上面那个例子中,没有人能看得清“黑屋”中小球,我们也同样看不见500个维度中的那些数据点。我们可以用二维图片来展示位于三维空间中的数据点,用同样的方法,我们也可以更低维度的“照片”来表现拥有500个维度的数据点。

只有从合适的“角度”拍下“照片”,我们才可以从中找出不同数据点之间的规律,不然将很难有所发现。这就是人们所说的如何从“大数据”中“发现见解”。

向计算机专家们特别说明一下,我想给非专业人员解释清楚主成分分析是怎么一回事。上面的图片是用专门的软件制作的。

网友解答:

机器学习

属于人工智能研究与应用的一个分支领域。机器学习的研究更加偏向理论性,其目的更偏向于是研究一种为了让计算机不断从数据中学习知识,而使机器学习得到的结果不断接近目标函数的理论。

机器学习,引用卡内基梅隆大学机器学习研究领域的著名教授Tom Mitchell的经典定义:

如果一个程序在使用既有的经验E(Experience)来执行某类任务T(Task)的过程中被认为是“具备学习能力的”,那么它一定要展现出:利用现有的经验E,不断改善其完成既定任务T的性能(Performance)的特质。

数据挖掘

你可以简单地理解为,机器学习为数据挖掘提供了理论方法,而数据挖掘技术是机器学习技术的一个实际应用。但在这一应用中存在一个很重要的问题需要数据挖掘专家解决,因为传统的机器学习算法多是为了处理中小规模的数据而设计的,但数据挖掘面临的往往是海量的数据,如果直接使用机器学习的算法可能并不一定能得到令人满意的效果,因此需要数据挖掘专家针对具体的问题对机器学习算法进行改造和优化。

其次,在进行数据挖掘时,如何管理海量的数据,这就需要用到数据库的数据管理技术。

因此,数据挖掘技术可以简单看作是运用数据库提供的数据管理技术来获取数据,然后再利用改造后的机器学习方法对获取到的数据进行学习,学习的结果可以对未来进行预测。

数据挖掘技术

数据分析

数据分析更多的是指从历史数据里面发现有价值的信息,从而提高决策的科学性。数据分析更侧重于通过分析数据的历史分布然后从中得出一些有价值的信息。

在对比数据分析和数据挖掘时,数据分析更像是对历史数据的一个统计分析过程,比如我们可以对历史数据进行分析后得到一个粗糙的结论,但当我们想要深入探索为什么会出现这个结论时,就需要进行数据挖掘,探索引起这个结论的种种因素,然后建立起结论和因素之间模型,当因素有新的值出现时,我们就可以利用这个模型去预测可能产生的结论。

因此数据分析更像是数据挖掘的一个中间过程。

以下给出一个通俗的例子来说明:

虚竹和段誉要决斗了,有人找到星宿老仙,让星宿老仙预测谁会取得胜利。

虚竹VS段誉

Case1:

星宿老仙做了个统计,发现两人曾经共交手过6789次,其中虚竹赢了4567次。

另外,虚竹同乔峰交手,胜率是80%,段誉斗乔峰胜率是60%。星宿老仙得出决斗的趋势应该是虚竹赢。

因为星宿老仙假设这次胜利跟历史有关,通过对历史数据分析可以得到这里决斗虚竹胜利的概率更大。这就是数据分析。

数据分析过程

Case2:

星宿老仙对收集了古往今来各大高手的个人信息和对战数据,建立个人信息和对战结果之间的模型,发现出身、教育、经验、婚恋状态四个因素是影响成败的主要因素。

出身贫苦的孩子一般比皇亲国戚功夫练得刻苦;

师父越厉害,传授给徒弟的武功和功力越多,徒弟的功夫会更高;

对战经验丰富的人因为擅长利用环境而获胜的机会更大;

单身的人在决斗的时候无牵无挂,比非单身的人更放得开,更容易取得胜利。

于是星宿老仙输入虚竹和段誉的个人信息,虚竹出身贫苦,遇到的名师不亚于段誉,而且打架经验丰富,并且单身,所以这次打头,模型预测的结果是虚竹胜。这就是数据挖掘。

数据挖掘过程

若要查看更加详细的内容,可以到作者主页查看作者之前写的两篇文章,希望对大家的学习和理解有所帮助。

《「上」人工智能,机器学习,数据挖掘,数据分析和深度学习到底什么意思,它们之间又有什么区别和联系?》

《「下」人工智能,机器学习,数据挖掘,数据分析和深度学习到底什么意思,它们之间又有什么区别和联系?》

标签: