欢迎阅读 COMP3354 数据学习的笔记。本文根据我的课堂学习过程编写,因此笔记内容可能存在疏漏,错误等其他不可预见的问题。请见谅!

你之所以能看见这份笔记,是因为我比较喜欢用写下笔记的方式来整理自己学到的内容。这样不仅对我自己有好处,如果你也是一位课友,或者仅仅对机器学习和数据学习感兴趣,那么非常感谢你们来读我的笔记!希望我的笔记能够帮到你。

由于这课到最后允许携带Cheatsheet,我在近乎每个章节的结尾用LLMs (Gemini 3.0 Pro) 生成了一些“概括性”内容,加速我的写作与考试准备的流程。如果您介意可以跳过该部分。

这份笔记将带你攀登数据学习的三座大山。在开始之前,让我先给你一张地图,这样你就知道我们要去哪,以及为什么要按这个顺序走。


第一座山:理论基石

我们的旅程从一个哲学问题开始:机器能学习吗?(Ch1)在这一章,你会看到监督学习、无监督学习、强化学习的全景预览。

但要让机器学习,我们首先需要一门语言来描述"不确定性"。这就是概率论(Ch2)。有了这门语言,我们就能回答:"给定数据,参数最可能是什么?" 这就是参数估计与MLE(Ch3)。

准备好理论后,我们就来讲解线性回归与逻辑回归(Ch4)。你会发现,之前学的MLE竟然和"最小化平方误差"殊途同归。

但模型训练好了不代表万事大吉。如果模型在训练集上完美、在测试集上稀烂,那就是过拟合。如何对抗它?答案是正则化(Ch5)。

最后,我们从理论上回答一个根本问题:模型为什么能泛化?需要多少数据才够? 这就是偏差-方差分解与PAC理论(Ch6)。


第二座山:无监督与降维

前六章我们一直有"标签"这个拐杖。但现实中,大部分数据是没有标签的。

当没人告诉你答案时,你能发现数据中的结构吗?我们通过聚类(Ch7)来将数据整理成一个结构。

计算和训练需要太多算力,当数据维度高达成千上万时,你可能无法训练模型。你能精简信息而不丢失本质吗?我们通过PCA降维(Ch8)来找到可能的解决方案。


第三座山:序列决策与深度学习

前面的模型都是"一锤子买卖":输入→输出,结束。但如果环境会反馈呢?如果你的决策会影响未来呢?这就是强化学习(Ch9),把你扔进迷宫里,让你自己寻找出口。

最后,当数据变成图像、文本这些复杂结构时,我们需要更强大的模型。从感知机到神经网络(Ch10),再到席卷一切的Transformer与LLM(Ch11)。

哦对了最后的Transformer不会涵盖太多内容。


如果准备好了,那么让我们从第一章开始,看看"学习"到底意味着什么。