basic knowledge
basic knowledge
机器学习算法类型
监督式学习
工作原理:此类算法有一个目标/输出变量(依赖变量),该值是通过一组预测因子(独立变量)推测出来的。通过这些预测因子,我们生成方程式得出输入与期望输出的对应关系。整个训练过程会持续到模型能通过训练数据达到一定的精确度。这类监督式学习算法有:回归算法,决策树,随机森林,邻近算法(KNN) 和逻辑回归算法等。
非监督式学习
工作原理:此类算法,没有目标或预期输出变量。而是用于聚集不同的组别,其被广泛的应用于根据不同设定对客户人群进行分类。这类非监督式算法有:关联规则(Apriori algorithm),K均值聚类算法。
增强式学习
运用这类算法,机器被训练成为能都做出特定的决策。机器被暴露于一个环境,它在其中通过不断的尝试与错误训练自己。这种机器学习通过过去的经验来试图捕捉最优解来做出最准确的商业决策。这类增强式算法有:马可夫决策过程。
基本概念
训练数据(training data):一个给定的、有限的、用于学习的数据。
输入空间(input space):输入的可能取值的集合;
特征空间(feature space):每个具体的输入是一个实例,通常由特征向量表示。特征向量存在的空间称为特征空间。(有时输入空间和特征空间为相同空间,有时则不同,则需将实例从输入空间映射到特征空间),模型是定义在特征空间的。
输出空间(output space):输出的可能取值的集合;
训练集:输入(或特征向量)与输出对组成。
输入与输出对又称为样本。
联合概率分布:监督学习假设输入和输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数。 训练数据和测试数据是依据P(X,Y)独立同分布产生的。X 和 Y 具有联合分布的假设是监督学习关于数据的基本假设。
假设空间(hypothesis space):模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间。模型可以是概率模型也可以使非概率模型。由P(Y|X)或决策函数 Y = f(X)表示。具体的用小写字母表示。
(PS.输入、输出变量用大写字母表示,输入输出变量所取得的值用小写字母表示。)
机器学习问题的组成
机器学习主要是由三部分组成,即:表示(模型,模型的假设空间)、评价(策略,模型选择的准则)和优化(算法,模型学习的方法)。
表示(或者称为:模型):就是指模型的假设空间
Representation表示主要做的就是建模,故可以称为模型。模型要完成的主要工作是转换:将实际问题转化成为计算机可以理解的问题,就是我们平时说的建模。类似于传统的计算机学科中的算法,数据结构,如何将实际的问题转换成计算机可以表示的方式。
评价(或者称为:策略):J常说的性能度量就是性能评价的意思,注意不一定性能度量作为目标函数或是指标。而策略就是指模型选择的准则,其中常用到各种指标,比如代价函数、损失函数。——————也就是说,需要将评价过程中分为两部分,一部分是性能度量/指标,另一部分是目标函数。而有些入回归任务可以直接把性能度量作为目标函数!!!
Evalution评价的目标是判断已建好的模型的优劣。对于第一步中建好的模型,评价是一个指标,用于表示模型的优劣。这里就会是一些评价的指标以及一些评价函数的设计。
有的问题可以直接基于设定的性能度量直接做最优化,得出该问题的一般求解模型。
比如回归任务最常用的性能度量就是均方误差,目标就是让均方误差最小,这就直接转化成了一个最优化问题。而逻辑回归就不行,需要进行再次转化,得到参数的似然性作为目标函数。
其他一些常用的有错误率与精度、查准查全率、ROC与AOC等。J知道有些指标的作用就是性能 度量。
优化(或者称为:算法):就是指模型学习的方法
Optimization优化的目标是评价的函数,我们是希望能够找到最好的模型,也就是说评价最高的模型。
选定模型
一种方式是根据有没有标记样本考虑。
如果是有标记样本,可以考虑有监督学习。对有监督学习而言,根据最终所需要的输出结果。
如果涉及到分类,可以参考的模型有线性回归及其非线性扩展、决策树、神经网络、支持向量机SVM、规则学习等。
如果是回归问题,可以认为是分类的连续形式,方法便是以上模型的变种或扩展。
如果涉及到概率,可以参考的有神经网络、贝叶斯、最大似然、EM、概率图、隐马尔科夫模型、强化学习等。
如果没有标记样本,可以考虑无监督学习,无监督学习方法主要提到的是聚类。随机选定几个样本,通过一定的算法不停迭代直至收敛或者达到停止条件,然后便将所有样本分成了几类。
Reference
Last updated
Was this helpful?