清华大学机器学习课程

授课方针:

任何对机器学习有爱好,想了解根本原理,前沿课题和运用实践的大学核算机系或相关科系的高年级本科生,研讨生,以及青年教师,和在高科技企业中从事相关作业的技能人员。

主讲教师:余凯博士与张潼教授

讲课内容:

Day 1

lecture 1: Introduction to ML and review of linear algebra, probability, statistics (kai)

lecture 2: linear model (tong)

lecture 3: overfitting and regularization (tong)

lecture 4: linear classification (kai)

Day 2

lecture 5: basis expansion and kernel methods (kai)

lecture 6: model selection and evaluation (kai)

lecture 7: model combination (tong)

lecture 8: boosting and bagging (tong)

Day 3

lecture 9: overview of learning theory (tong)

lecture 10: optimization in machine learning (tong)

lecture 11: online learning (tong)

lecture 12: sparsity models (tong)

Day 4

lecture 13: introduction to graphical models (kai)

lecture 14: structured learning (kai)

lecture 15: feature learning and deep learning (kai)

lecture 16: transfer learning and semi supervised learning (kai)

Day 5

lecture 17: matrix factorization and recommendations (kai)

lecture 18: learning on images (kai)

lecture 19: learning on the web (tong)

lecture 20: summary and road ahead (tong)

第1课:序言课

机器学习中3个比不行少的元素,数据,模型和算法。现在数据来历比较广泛,每天都能够发生T级以上的数据。模型的话便是机器学习课程中需求研讨的各种模型,算法便是怎样经过数据和模型来学习出模型中的参数。可是余教师在课堂上提出一个观念便是这3个元素都不重要,最重要的是需求,一旦有了需求,就会选用各种办法取求解问题了。不愧是百度公司的技能副总监。别的机器学习的首要运用场合包含核算机视觉,语音辨认,天然语音处理,查找,引荐系统,无人驾驶,问答系统等。

第2课:线性模型

线性回归模型需求处理下面3个问题:

1. 怎样从练习数据估量线性模型的参数?即截距和斜率。

2. 学习到的线性模型功能怎样?咱们是否能够找到更好的模型?

3. 模型中2个参数的重要性怎样估量?

处理第1个问题是一个优化问题,即求得使丢失函数最小的参数。这儿的丢失函数是平方项的,也称为线性最小二乘思维。线性模型的表达式为:

其间噪声参数为0均值的高斯噪声。假如后边求出的噪声不是一个均值为0,方差相同的相似高斯散布的随机变量,则阐明这个模型还能够被改善。比方说将x首要映射到非线性函数中去,然后对非线性函数用最小二乘法做线性回归。至于怎样得到非线性映射函数f(x)则要么经过人为调查估测,要么经过机器学习中的特征学习来主动取得。

更广义的线性模型并不必定是一个线性方程。仅仅其参数或许是线性的。线性模型能够模仿非线性函数。

残差能够看做是噪声的近似。可是一般来说残差要比噪声小。所以在线性模型中,噪声项就能够用残差来估量,不过其分母不是1/n,而是1/(n-p),由于需求达一个无偏估量。

特征向量元素特点的重要性点评常见的有以下2种办法:榜首是抽掉一个特征想,然后核算其残差改变值与悉数特征都用上的比值,所得到的分数为F-score,F-score越大,阐明该特点越重要。第2种办法是选用t散布来假定检验得到Z-score,即假定对应特征特点不存在(即其值为0)时,呈现样本数据的概率为Z-score,假如Z-score越大,阐明该特点越不重要。

第3课:过拟合和规矩项

Regularization中文意思是规矩,指的是在overfitting和underfitting之间做平衡,经过约束参数空间来操控模型的杂乱度。测验差错和练习差错之间差一个规矩项,其公式为:

模型越杂乱阐明模型越不安稳,学习到的方针函数越不润滑,也就越简略over-fitting。所以需求操控模型的杂乱度,一般来说有2种办法,即削减模型中参数的个数或许减小参数的空间巨细,现在用得最多的便是减小参数的空间巨细,是经过规矩项到达的。规矩项的引进一起也需求引进一个调理的参数,该参数的巨细一般经过穿插验证取得。假如规矩项是2次的,则也称为ridge回归,规矩项是一次的则称为lasso回归。Ridge回归的长处是解比较安稳,且答应参数的个数大于样本的个数。Lasson回归的长处是有稀少解,不过解不必定安稳。

假如碰到参数个数大于样本个数,这时分就不能够用参数个数来做规矩化了,而是选用缩小参数空间的办法,这样的话既在核算学上对特征数量集大时有鲁棒性,一起在数值核算上方程解也具有安稳性。

第4课:线性分类器

很好的了解线性分类器,能够了解许多ml的概念,以及非线性问题。线性分类器是在实践运用进程中最有用的模型。

据余教师讲,从06年开端,人工神经网络又开端热起来了,首要体现在deep learning范畴。

svm理论很完美,运用场合也很广,同理,logistic回归运用场合也十分广,和svm差不多。

当数据为大样本数据时,用线性SVM模型比较好。

第5课:非线性svm

RKHS标明定理:即模型的参数是在练习样本的线性质空间中,是练习样本的线性组合。这不只适用于svm,对其他的模型,比方感知机,RBF网络,LVQ,boosting,logistic回归等模型都建立。

Kernel能够简略了解为标明2个值相似度的丈量。经过核函数能够更好的了解regularization。所需优化的方针函数能够写成参数办法,参数办法的对偶办法和非参数办法这3种。假如在非参数办法中,其规矩项是由所学习到的函数f(x)来操控的,它的模与对应核函数进行特征函数分化时的特征值系数成反比。即特征函数分化中非主成分的函数对应的特征系数小,得到的赏罚就大,就会更加被按捺。因而咱们保存的首要是主成分的那些特征函数。从上面能够看出,核函数是有必定的结构的,该结构决议了终究的方针函数f(x)长得什么样。

逻辑回归和svm的差异仅仅loss函数的不同,logstic回归的loss函数为logstic函数,核svm的loss函数为hinge loss。两者有着相同的功能,逻辑回归是带概率的输出,更简略用于多分类问题。不过现在,这2种办法都是旧办法了。

LVQ中文名为学习矢量化,它是一个依据模型的有监督学习分类器。

因而咱们在规划一个模型时,需求考虑选用什么样的loss函数?选用什么样的基函数h(x)?h(x)是有限维的仍是无限维的?是否需求学习h(x)?用什么样的办法来优化方针函数,QP,LBFGS,仍是梯度下降等?

理论上运用kernel理论能够完成用有限的核算完结无限空间的学习问题,可是在实践问题中,由于其杂乱度是样本个数N的3次方,所以当样本数据许多时,根本上是无法完成的。

参数模型和非参数模型的差异不是看模型中是否有参数,一切的模型都是有参数的,非参数模型是指跟着样本数的添加,其模型中的参数的个数也跟着添加。反之就为参数模型了。常见的非参数模型有高斯进程,核svm,dirichlet进程等。

第6课:模型挑选

模型挑选在实践运用进程中十分有用,一般把与模型有关的数据分为3部分,练习数据,验证数据和测验数据,如下图所示:

其间练习数据和验证数据都是已有的样本数据,即已调查到了的数据。测验数据是未来实践运用中发生的数据,是事前不知道的。

模型的参数分为2部分,榜首部分是模型确认后经过练习样本学习得到的参数。另一部分是手动输入的参数,也叫做超参数,是用来操控模型的杂乱度的,也便是来操控模型自身长什么样的,它是由验证数据来调理的。

模型挑选问题便是说怎样验证一个模型是否好。模型的好坏终究是要看它在测验数据集上的体现。因而在未观测到测验数据时,咱们只能用验证数据集来替代它进行测验。一般选用的办法为穿插验证,比方说LOOCV,即留一法穿插验证,相似的还有k折穿插验证。穿插验证的首要意图是避免练习出来的模型过拟合。可是在当今由于数据都是海量的,穿插验证办法运用越来越少了,由于假如练习数据集十分大的话,一般不会发生过拟合现象。

还有一些办法是不需求经过验证而直接来点评模型好坏的,比方是AIC,BIC,MDL,SRM等。

第7课:模型均匀

本文中讲的model是指的一个learning algorithm,乃至比learning algorithm所指的规模还要小,由于在一个learning algorithm里,不同的参数调理和不同的输入特征都会导致不同的model。模型挑选的方针是使模型有更好的可解说性和更好的功能,而模型均匀的方针只需求使模型有更好的功能即可,由于模型均匀进程顶用到了许多模型,而模型个数越多则其可解说性就越低。模型均匀的英文名称有model ensemble,model blending, model combination, model averaging.

Model selection 和 model combination的不同运用体现在,假如某个模型以肯定的优势好于其他一切模型,那么这时分咱们就选用model selection,由于不只有好的功能,还能够取得好的可解说性。假如一切的模型在功能体现上都差不多,没有所谓的好坏,且模型自身又有很大的不同,这时分就能够选用model combination来大大进步其功能了。一般来说,model combination比model selection要安稳些。

那么该怎样结构差异性大的模型呢?能够从下面四个方面下手:

1. 不同的学习算法。

2. 不同参数调整。

3. 有差异的输入特征。

4. 引进随机思维,比方bagging。

关于指数权值的模型均匀仅仅在均一模型均匀(即选用投票的办法)的基础大将投票权值改为模型差错的指数办法,而不是相同的均值。假如所学习到的一个模型的差错越大,则其权值越低,理论上比较完美。不过在张教师讲他自己试验的时分发现并没有什么进步,有时分作用还不如voting。

Stacking和指数权值的模型均匀有点相似,也是先学习出各个模型,然后把学习出的模型作为第二层学习的输入,优化最小的第二层的差错来学习模型的权值。

Bagging也是一种均一模型均匀,它的一切模型的学习算法相同,仅仅输入样本选用bootstrip取得。由于是选用boostrip取得的,所以其练习样本有些不必定用到了,而有些则重复用到了。这样每个学习出来的model不是很安稳,因而这也扩展了model之间的差异性,进步了集群学习的功能。Bagging是减小学习的方差,而boosting是减小学习的差错。

最终模型均匀的一个比较知名的运用场合便是把决策树改形成随机森林的比方。由于单颗决策树虽然有可解说性,能够很好的处理非均匀的特征以及是一种非线性的办法,可是它的最大缺陷便是分类成果不精确,因而在样本挑选和输入特征挑选方面选用了随机的办法得到不同的模型后,再做均匀就成了随机森林,理论和试验标明随机森林的作用要比决策树好许多。

第8课:Boosting

Boosting既能够看做是signal learning也能够看做是ensemble learning,本课中将其看做是ensemble learning。它是由多个弱分类器组合成一个强分类器,可是这儿所指的弱分类器满意的条件其实并不弱,由于它需求满意对样本的所以加权状况的分类作用都要大于0.5,因而现在有不少学者不称这些为弱分类器了,而称为根本分类器。Boosting中最常用的算法是AdaBoosting,AdaBoosting是对分类过错的样本加大其权重来到达resamble的作用。且选用贪婪算法进行loss的函数的优化。

VC维的传统界说为: 对一个方针函数集,假如存在H个样本能够被函数会集的函数按一切或许的2的K次方种办法分隔,则称函数集能够把H个样本打散;函数集的VC维便是它能打散的最大样本数目H。

AdaBoosting不是最大margin的,但为什么比最大marign的boosting作用要好呢?课程中从传统的boosting剖析来做了必定的解说,可是仍不能够解说当练习差错为0时,其泛化差错还在减小这一问题,后边的学者又提出了从margin bound方面来解说这个问题。别的从另一个视点来更好的了解boosing的办法是greedy boosting,即寻觅样本权重d和弱分类器权重w的进程是一个贪婪进程。最终教师讲了一个general loss函数以及使用这个函数进行的general boosting。

第9课:学习理论概论

这节课的内容比较理论化,听不太懂。机器学习理论的首要方针是均匀一个学习算法的好坏,即怎样经过练习差错来估量测验差错。能够经过共同性收敛来估量练习差错和测验差错之间的联系,即测验差错以大约率事情小于练习差错加上某个值,这个值的巨细与练习样本数以及概率值有关。证明上面的共同性收敛需求用到切比雪夫不等式,VC维,covering numbers这几种技能。其间covering numbers界说为attain练习样本的猜测函数的个数(详细是什么没有了解清楚)。咱们能够用VC维来估量convering number。最终教师还讲了一个Rademacher杂乱度并说了下它和VC维之间的联系,诚心不明白Rademacher是个什么东东!

第10课:机器学习中的优化问题

机器学习中大部分问题都能够归结为参数优化问题,即找到最适合方针函数的参数,该参数一般满意使方针函数最大或许最小。

常见的优化办法有梯度下降法,该办法是每次沿着梯度下降最快的那个方向寻觅函数值,不断迭代就能够寻觅到近似的极值。该办法的学习速率(即每次沿梯度方向行进的间隔)和收敛速率是最值得重视的。一般来讲,假如函数是润滑且是严厉为凸函数的,则其收敛速度最快,其实是润滑但不严厉凸的,最慢的要数非润滑函数。因而当函数有一部分是润滑,而另一部分不润滑时,咱们能够选用Proximal 梯度下降法,该办法是最近几年抢手起来的,作用比梯度下降要好,更新的相似的算法还有Nestervo这个学者的Accelerated 梯度法(满是数学公式,彻底看不明白)。为了求出部分极值点,一般能够选用近似泰勒打开中的H矩阵来求得,典型的算法有LBFGS。别的当需求优化的参数为一个向量时,不必定需求把这个向量的元素对等考虑,咱们能够分隔优化,即每次只优化参数向量中的一个,其它的坚持不变,这样循环直到收敛。最终教师讲了凸函数的优化问题还能够选用Dual 梯度下降法。

实话说,这种纯数学公式的东西太庸俗了!

第11课:Online learning

Online learning指的是每逢来一个数据,就会学习一个最优的猜测函数,其最优的准则是当时方位loss函数值最小,因而每一步的猜测函数都有或许不同,这便是Online learning。其实很早前就有online learning的比方,比方说感知机学习规矩。

在了解Online learning之前需求了解regret 剖析这个概率,regret指的是,Online learning中每次学习的差错减去运用用当时停止的最优函数而发生的差错的均匀值,当然咱们期望regret越小越好。

Online learning的关键是需求更不断新状况。其实Online learning也是一个优化问题,咱们能够把第10讲的优化问题悉数转换成对应的Online learning。比方说凸优化,梯度下降法,proximal descent。其间将proximal descent转换成online版别能够选用L1规矩化,Dual averaging, 坚持second order信息等。核算梯度下降能够用来优化大规模的数据,它的不同变种首要来历于不同的proximal 函数,不同的学习率,是否是dual averaging, 是否是averaging, 是否是acceleration等。

第12课:sparsity model

Sparsity model的呈现时为了处理核算学习中的维数灾祸问题的,即样本的个数远远小于特征的维数。处理规范的稀少回归模型能够选用greedy算法和convex relaxation。Greedy 算法中比较有代表性的是OMP。要从稀少的参数重建参数需求有2个条件,即irrepresentable和RIP。稀少模型一个代表性的问题是Lasso的求解。教师从上面2个条件介绍了lasso的求解。Lasso是依据L1规矩化的。其它一些比较杂乱的规矩项对应的sparsity model有比方structured sparsity(比方说group structure), graphical model, matrix regularization. 这又是一堂纯数学的课程。

第13课:Graphical model

Graphical model是一个运用比较广泛的模型,不过比较杂乱,由于里边触及到了许多概率的常识。可是这节课的内容还算比较外表,没有过多的细节。首要从3个方面介绍graphical model,即model自身,推理办法和模型的结构学习。概率模型中一大部分便是graphic model,而graphic model中又分为有向图和无向图,有向图中比较有代表的是贝叶斯网络,无向图中比较有代表的是MRF。本节内容首要是讲的有向图。任何一个杂乱的贝叶斯网络都能够由causal chains,common cause, common effect这3部分构成。Graphical model运用很广,比方说常见的线性回归问题也能够转换成graphical model问题,假如是分段线性回归问题还能够转换成带有隐变量的graphical model。贝叶斯网络中的推理一般是给定一些观测数据,求出在此观测数据下呈现某些中间状况的概率。当网络是简略的链或许是树状时,推理起来比较简略,当模型含有环状结构时,对应的推理就十分杂乱了。 Graphical model中最终一个问题是模型结构的学习,能够将其看做是结构的查找问题,对应的许多AI查找算法此刻也能够派上用场。结构学习的问题首要包含发现模型中的隐变量,因果联系直接从数据中学习其结构。

第14课:structured learning

结构学习的办法和理论包含结构输入,结构输出和结构模型。其间结构模型分为conditional model 和 generative model。Generative model包含HMM,HMM有调查值独立性的假定,为了处理该假定带来的问题,后来有学长提出了MEMM算法,不过MEMM自身又带来了标示偏置问题,最终边的改善算法CRF成功的处理了标示偏置问题。CRF模型能够看做是logistic 回归在结构学习结构下的扩展.同理M3N能够看做是SVM在结构化结构下的扩展。最终课堂上教师比较了CRFs和M3N两种算法。

第15课:deep learning

这节课讲的内容比较简略激发人的爱好,一是由于deep learning最近十分炽热,二是由于用deep learning来做一些视觉问题,其作用能进步不少。本次课程没有讲详细的细节,首要是介绍了一些deep learning的概念和运用。Deep learning的意思是能够主动来学习一些特征,比方说在视觉的分类或许辨认中,一般都是特征提取+分类器规划,而且提取到的特征的好坏直接影响了分类器的分类作用,可是在现在的核算机视觉范畴,其特征的提取都是咱们人工规划的,需求针对不同的运用场合来提取不同的特征,余教师恶作剧的说,核算机视觉最近10年的最大成果便是有了个SIFT特征,可是它是依据RGB图画提出的,当今各种传感器,比方Kinect等。咱们又得去从头规划它的特征,莫非咱们还要等10年么?因而能够看出,一个通用的特征提取结构需求给出,这便是deep learning,也叫做feature learning,也便是说给了许多样本,系统能够主动去学习这些样本的特征,而不是依托人工来规划。听起来是多么的诱人!这就更相似于AI了。Deep learning首要是确认一个算法的层次结构,这个层次结构十分重要,它的主意和人体大脑皮层的作业机制相似,由于人大脑在辨认某些东西的时分也是一个层次结构的。课件中首要接受了multi-scale models和hierarchical model,structure spectrum等,但没有详细打开,仅仅做了一个总述性的介绍。

第16课:Transfer learning & Semi-supervised learning

一方面由于有些问题的练习样本数据十分少,且样本的获取价值十分高,或许是模型的练习时间特别长,另一方面由于许多问题之间有相似性,所以TL(transfer learning)就发生了。TL首要是把多个相似的task放在一起来处理,它们同享同一个输入空间和输出空间,TL常见的比方有传感器网络猜测,引荐系统,图画分类等。常见的用来处理TL问题有下面几个模型,HLM(层次线性模型),NN,回归线性模型,这些模型本质上都是校园一个隐含的相同的特征空间。别的教师也讲到了TL和GP(高斯进程)的比照,高斯进程是一个贝叶斯核机器的非线性算法,经过对先验样本的选用学习能够得到尖利的后验概率模型,它是一种非参数的模型。TL办法首要分为4大类:样本之间的搬迁,特征表达的搬迁,模型的搬迁和相关范畴常识的搬迁。其间特征表达的搬迁和模型的搬迁在数学本质上是相似的,也是学者们研讨的要点。

SSL(Semi-supervised learning)是为了到达用少数标示了的样本+许多没有标示的样本,来学习一个比单独用少数标示样本作用更好的模型。教师举了一个混合高斯散布的比方来解说SSL学习的作用,经过这个比方引出了SSL的一个通用模型。本课还简略的介绍了co-training 办法,所谓co-training,便是把表组好的数据分红几类,每一类都train一个model,然后把这些model作用到unlabel的样本上,经过优化办法到达输出共同的作用。最终介绍的Graph Laplacian以及它的harmonic 解就彻底木有看懂。

第17课:Recommendation Systems

Recommendation Systems一个简略的运用便是会依据用户的购买前史来退算出用户或许喜爱的产品,然后引荐给用户,现在许多互联网公司都在做这方面的研讨,由于能够带来许多的经济效益。Recommendation Systems是一个协同滤波问题,本课程首要环绕不同用户给不同电影评分这个比方来介绍。首要要处理的是前史数据差错不同的问题,即要对数据做预处理完成归一化。

在对Recommendation Systems进行规划的一个干流办法之一是将Recommendation Systems问题看做是一个分类问题,即把用户i对一切电影打分看做是要猜测的标签,而其他一切人对电影的打分看做是特征,首要选用的办法是朴素贝叶斯,KNN等(其他大部分的分类算法都能够派上用场)。Recommendation Systems问题的另一干流办法是把它当作矩阵分化(MF)问题,这在实践运用中是作用最好的。由于咱们调查到的数据是很稀少的,许多方位都是missing的,且这些数据之间内部是存在一个简略结构的,因而咱们能够把需求填充的矩阵R分化成2个低秩矩阵的乘积,这能够选用SVD或许SVD+一些优化的办法来处理。

由此能够看出,Recommendation Systems是一个典型的ML问题。

第18课:computer vision

本课简略的介绍了下computer vision中的根本问题,比方说什么事computer vison, computer vison的难点,computer vison问题的分类:特征检测,边际检测,方针检测,图画切割,拼图,3D重建,核算机图形学,方针辨认等等。

第19课:learning on the web

机器学习在web上的运用比较广泛,比方前面讲过的引荐系统,别的还有一些查找成果排序,分类问题,社区行为剖析,用户行为模型等等。本课程首要从分类和排序做了一些介绍。网络上存在着各种废物信息,例如废物邮件,废物网页,废物广告等,分类问题便是选用ML的办法过滤掉这些废物信息。别的一个比较常见的分类问题是文本分类,找出文本描绘的主题,其间BOW算法既简略,又取得了很好的作用。最终教师对Web-search问题也做了个简略的介绍。总归本课大约介绍了下ML在web上的简略运用和应战。

资源下载此资源下载价格为30积分,νìρ免费,请先

如遇到链接失效请提交工单处理。

【下载提示】

1. 本站30000+源码及视频教程,除了热门商业代售区源码及课程外,只要有下载按钮的,终/身νìρ都可以免费下载。

2. 本站源码及教程来自30多个渠道采购,资源描述为转载资源站点内容,本站没有精力一一测试,可能搭建失败。

3. 本站开通数十站点会/员,资源过多,大部分无法亲自测试,源码有可能存在缺\\\\陷或者不完整的风险,仅供参考&研究。确认购买视为接受该风险,由于源码具有可复\\\\制性,不接受任何理由退\\\\款!!!

4. 本站使用在线支付,付款完毕后,积分自动到账。

5. 充积分比例:1:1。

6. 所有源码包含安装教程与否,请仔细观看资源描述。

7. 所有源码不提供代安装搭建,如有疑问请提提交工单。

资源下载
下载需要:30 积分
νìρ特权:免费

如遇到链接失效请提交工单处理。

【下载提示】

1. 本站30000+源码及视频教程,除了热门商业代售区源码及课程外,只要有下载按钮的,终/身νìρ都可以免费下载。

2. 本站源码及教程来自30多个渠道采购,资源描述为转载资源站点内容,本站没有精力一一测试,可能搭建失败。

3. 本站开通数十站点会/员,资源过多,大部分无法亲自测试,源码有可能存在缺\\\\陷或者不完整的风险,仅供参考&研究。确认购买视为接受该风险,由于源码具有可复\\\\制性,不接受任何理由退\\\\款!!!

4. 本站使用在线支付,付款完毕后,积分自动到账。

5. 充积分比例:1:1。

6. 所有源码包含安装教程与否,请仔细观看资源描述。

7. 所有源码不提供代安装搭建,如有疑问请提提交工单。

清华大学机器学习课程原文链接:https://www.qwzy8.com/36660.html

广告位招租

评论0

请先

           
1,如有问题请前往用户中心提交工单,12小时内回复!
2,投稿优质资源可获得最长本站置顶广告位推荐,收益100%归作者所有,可提现!
3,欢迎发布其他站点购买的各类源码教程资源,支持置换本站各类资源!
没有账号? 注册  忘记密码?