3.6

CS229

Lecture 4 讲了感知机，广义线性模型，Softmax

广义线性模型的逻辑（或者说，故事）是这样的：想要根据特征构成的向量 $x$ 预测 $y$ ，我们知道 $y$ 的分布和 $x$ 有关，所以 $x$ 是 $y$ 的分布的参数，但 $x$ 并非凌乱地作为这个分布的参数，散落在公式各处，而是先线性地整合起来，整合的结果 $η = θ^{T} x$ 作为分布的参数，另外要求这个分布满足某种形式，成为指数分布族。机器学习所学习的是 $x$ 如何整合，也就是学习线性映射的系数 $θ$

Lecture 5 讲了 GDA ，朴素贝叶斯

前置知识有多元正态分布，实际上，多元正态分布就是 $x = μ + A u$ 的分布，其中， $u$ 是 $n$ 个独立同分布的标准正态分布变量，容易推导出协方差矩阵 $Σ = A A^{T}$ ，分布为：

p (x) = \frac{1}{\sqrt{(2 π)^{n} | Σ |}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}