数据挖掘10大经典算法

 

数据挖掘10大经典算法

图1 数据挖掘10大经典算法

  • 有监督学习(Supervised Learning):我们有一个数据集,如果对于每一个单一的数据根据它的特征向量我们要去判断它的标签(算法的输出值),那么就是有监督学习。通俗的说,有监督学习就是比无监督学习多了一个可以表达这个数据特质的标签。

有监督学习,分为两个大类:

1.回归分析(Regression Analysis):回归分析,其数据集是给定一个函数和它的一些坐标点,然后通过回归分析的算法,来估计原函数的模型,求出一个最符合这些已知数据集的函数解析式。然后它就可以用来预估其它未知输出的数据了,你输入一个自变量它就会根据这个模型解析式输出一个因变量,这些自变量就是特征向量,因变量就是标签。 而且标签的值是建立在连续范围的。
2.分类(Classification):其数据集,由特征向量和它们的标签组成,当你学习了这些数据之后,给你一个只知道特征向量不知道标签的数据。

  • 无监督学习(Unsupervised Learning)所有数据只有特征向量没有标签,但是可以发现这些数据呈现出聚群的结构,本质是一个相似的类型的会聚集在一起。把这些没有标签的数据分成一个一个组合,就是聚类(Clustering)。比如Google新闻,每天会搜集大量的新闻,然后把它们全部聚类,就会自动分成几十个不同的组,每个组内新闻都具有相似的内容结构。


其他相关资源:
详解可以参见:数据挖掘十大经典算法(详解)
机器学习C++库:c++开源机器学习库(更新中20140330)
另其他开源机器学习:值得mark的11个开源机器学习项目   18个最热深度学习Github项目逐一介绍

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注