机器学习常见损失函数

0-1损失函数(zero-one loss)

0-1损失是指预测值和目标值不相等为1，否则为0:

$L ( Y , f ( X ) ) = \left\{ \begin{array} { l } { 1 , Y \neq f ( X ) } \\ { 0 , Y = f ( X ) } \end{array} \right. \\$

特点：

(1)0-1损失函数直接对应分类判断错误的个数，但是它是一个非凸函数，不太适用.

(2)感知机就是用的这种损失函数。但是相等这个条件太过严格，因此可以放宽条件，即满足 $|Y - f(x)| < T$ 时认为相等，

$L ( Y , f ( X ) ) = \left\{ \begin{array} { l } { 1 , | Y - f ( X ) | \geq T } \\ { 0 , | Y = f ( X ) | < T } \end{array} \right. \\$

2. 绝对值损失函数

绝对值损失函数是计算预测值与目标值的差的绝对值：

$L(Y, f(x)) = |Y - f(x)| \\$

3. log对数损失函数

log对数损失函数的标准形式如下：

$L(Y, P(Y|X)) = -logP(Y|X) \\$

特点：

(1) log对数损失函数能非常好的表征概率分布，在很多场景尤其是多分类，如果需要知道结果属于每个类别的置信度，那它非常适合。

(2)健壮性不强，相比于hinge loss对噪声更敏感。

(3)逻辑回归的损失函数就是log对数损失函数。

4. 平方损失函数

平方损失函数标准形式如下：

$L ( Y | f ( X ) ) = \sum _ { N } ( Y - f ( X ) ) ^ { 2 } \\$

特点：

(1)经常应用与回归问题

5. 指数损失函数（exponential loss）

指数损失函数的标准形式如下：

$L(Y|f(X)) = exp[-yf(x)] \\$

特点：

(1)对离群点、噪声非常敏感。经常用在AdaBoost算法中。

6. Hinge 损失函数

Hinge损失函数标准形式如下：

$L(y, f(x)) = max(0, 1-yf(x)) \\$

特点：

(1)hinge损失函数表示如果被分类正确，损失为0，否则损失就为 $1-yf(x)$ 。SVM就是使用这个损失函数。

(2)一般的 $f(x)$ 是预测值，在-1到1之间， $y$ 是目标值(-1或1)。其含义是， $f(x)$ 的值在-1和+1之间就可以了，并不鼓励 $|f(x)| > 1$ ，即并不鼓励分类器过度自信，让某个正确分类的样本距离分割线超过1并不会有任何奖励，从而使分类器可以更专注于整体的误差。