COMP3314 序言

COMP3314课程内容机器学习相关的入门知识。其中有部分内容与博客上COMP3354数据学习有所重合,所以如果你在学习本节课之前先学习了有关COMP3354的内容,那么这节课的一大半概念对你来说会变得更容易。 如果有关联知识,我会将链接插入到笔记中...

Cpt1: 机器学习介绍

实际上这一部分的很多概念都已经在COMP3354第一章里讲过了。建议你去看看这一部分: https://naughtychas.github.io/notes/COMP3354/chapter1/Chapter 1 & ...

分治法 归并排序

Cpt2: 感知机与自适应线性神经元

大脑由神经元组成。神经元的工作方式很像一个投票系统。树突用来接收来自其他神经元的信号,细胞核处理信号。如果信号足够强,轴突就负责将脉冲发送给下一个神经元。 这样的过程可以很容易被数学来建模。1943年有数学家尝试用数学来描述这个过程,而他们做的就是把...

Cpt3: 逻辑回归,SVM和KNN

逻辑回归逻辑回归 ( Logistic Regression ) 的名字里虽然带有Regression, 但是它其实是一个经典的二元分类算法,并非预测连续数值的回归模型。 在之前提到的Perceptron和Adaline中,我们的核心一直是计算特征...

Cpt4: 数据预处理

在机器学习中有一句至理名言,叫做“垃圾进,垃圾出”(Garbage In, Garbage Out)。这句话的意思是,如果我们输入的数据质量很差,那么我们得到的结果也会很差。 因此,预处理 (Preprocessing) 并不是什么可有可无的步骤...

Cpt5: 数据降维

我们发现即使我们对数据进行了预处理,使用这些干净的数据直接进行分析和建模可能仍然存在一些问题。机器学习发展至今,需要处理的数据集也跟随问题的复杂性不断增加,数据集的维度也在不断增加。 这些高维数据集可能包含许多特征,但其中一些特征可能是冗余的,或者与...

Cpt6: 模型评估与调参

上一章是降维,这一章来点没有那么重理论的东西:我们来看看当你训练完模型,如何评价模型的好坏,以及如何调参来让模型更好。 我们不妨来通过一个真实数据集来讲解这一章的内容。 我们要是用的数据集叫做BCWD,是一个乳腺癌数据集,包含了569条数据,每...

Cpt7: 集成学习

我们在之前的章节中已经介绍了许多不同的单体模型,例如Logistic Regression, SVM, 决策树等等。然而在真正的实践中,单体模型由于各种因素,例如过拟合,欠拟合,数据噪声等等,往往无法达到理想的性能。 而 集成学习(Ensemble ...

Cpt8: 回归分析

之前我们谈到的几乎所有任务都是在预测分类标签,而我们要尝试换个角度,来看看如果想要预测一个特定的数值,应该怎么做。 Regression 正是用来预测数值的机器学习方法,我们叫它回归。我们不仅能够使用回归来预测特定数字,回归还能帮助我们理解变量之间的...