前言

假设现在平面上有一些数据点，我们需要使用一条直线对这些点进行拟合，也就是寻找最佳拟合直线，这个拟合过程就称作回归。

而利用 Logistic 回归进行分类的主要思想就是：根据现有数据对分类边界线建立回归公式，以此进行分类。

“回归”一词实际上就是源于最佳拟合。而我们训练的过程就是找到最佳拟合参数，从而得到我们的回归公式。

接下来，我们将对 Logistic 回归分类器的推导和实现过程进行展示。

原理

所谓拟合，其实就是根据现有的样本，寻找某种统一的规律，使得绝大部分样本的分布都尽可能地满足这种这种规律。

如下图：

上图中，样本大致分布在 $y = \frac{1}{2}x + 1$ 这条直线附近，那么我们就称方程 $2y - x - 2 = 0$ 为对样本的坐标分布的拟合。

其中，各变量的系数 $(2,-1,-1)$ 就叫做拟合参数。

当然，上图中的例子，我们所做的拟合严格来讲应该属于线性回归（Linear Regression）的范围。这是因为上例中的因变量 $y$ 的值并不是一个二类值（即非 0 即 1）。

Logistic 回归是基于线性回归的基础上，通过引入 Sigmoid 函数，将线性问题转换为非线性问题，进而达到分类的效果。

线性回归

在了解 Logistic 回归之前，我们首先来了解一下线性回归。

所谓线性，就是一个函数，或者称为映射，且要求同时满足两个条件：可加性和齐次性。

这两个概念解释起来比较麻烦，在这里我们可以将其简单的理解为对于多元变量函数：

$f(x_1,x_2,x_3,\cdots,x_n) = \alpha_1 x_1 + \alpha_2 x_2 + \alpha_3 x_3 + \cdots + \alpha_n x_n + b$

即函数 $f$ 的值是其各个自变量通过加减运算得到的，各自变量之间的幂数相同。

而对于类似：

$f(x_1,x_2,x_3,\cdots,x_n) = \alpha_1 x_1 + \alpha_2 x_2^2 + \alpha_3 x_3^{\frac{1}{2}} + \cdots + \alpha_n x_n + b$

的函数就不属于线性函数，因为函数中的各项自变量的幂次不同。

建立模型

对于数据集 $D$，共有 $m$ 个样本 $\{(x_1,y_1), (x_2,y_2), (x_3,y_3) \cdots (x_m,y_m)\}$ ，其中， $y_i$ 是样本 $x_i$ 的标签，每个样本 $x_i$ 有 $n$ 个维度：

$x_i = \{x_{i_1}, x_{i_2}, x_{i_3} \cdots x_{i_n}\},i = 1、2、3 \cdots m$

线性模型的目的是为了找到一个线性组合使得对于 $D$ 中的所有样本：

$\hat{y_i} = f(x_i) = w_1 x_{i_1} + w_2 x_{i_2} + \cdots + w_n x_{i_n} + b \rightarrow y_i, \quad i = 1, 2, 3 \cdots m$

用向量形式表示为：

$\hat{Y} = f(X) = XW + b$

其中：

$X = \left [ \begin{matrix} x_{1_1} & x_{1_2} & x_{1_3} & \cdots & x_{1_n} \\ x_{2_1} & x_{2_2} & x_{2_3} & \cdots & x_{2_n} \\ x_{3_1} & x_{3_2} & x_{3_3} & \cdots & x_{3_n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ x_{m_1} & x_{m_2} & x_{m_3} & \cdots & x_{m_n} \\ \end{matrix} \right ] ,\quad W = \left [ \begin{matrix} w_1 \\ w_2 \\ w_3 \\ \vdots\\ w_m \\ \end{matrix} \right ] ,\quad \hat{Y} = \left [ \begin{matrix} \hat{y_1} \\ \hat{y_2} \\ \hat{y_3} \\ \vdots\\ \hat{y_m} \\ \end{matrix} \right ] ,\quad b = const$

我们将每个样本的标签 $y_i$ 也写成矩阵形式：

$Y = \left [ \begin{matrix} y_1 \\ y_2 \\ y_3 \\ \vdots\\ y_m \\ \end{matrix} \right ]$

通常来讲，带有 $b$ 的形式不太好求解，因此可以根据线性表达式：

$f(x_i) = w_1 x_{i_1} + w_2 x_{i_2} + \cdots + w_n x_{i_n} + b \Leftrightarrow f(x_i) = b*1 + w_1 x_{i_1} + w_2 x_{i_2} + \cdots + w_n x_{i_n}$

将矩阵 $W$ 和 $X$ 进行改造，将 $b$ 放进 $W$ 矩阵中，将 $X$ 矩阵增加一列，即令：

$X = \left [ \begin{matrix} 1 & x_{1_1} & x_{1_2} & x_{1_3} & \cdots & x_{1_n} \\ 1 & x_{2_1} & x_{2_2} & x_{2_3} & \cdots & x_{2_n} \\ 1 & x_{3_1} & x_{3_2} & x_{3_3} & \cdots & x_{3_n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m_1} & x_{m_2} & x_{m_3} & \cdots & x_{m_n} \\ \end{matrix} \right ] ,\quad W = \left [ \begin{matrix} b \\ w_1 \\ w_2 \\ w_3 \\ \vdots\\ w_m \\ \end{matrix} \right ] ,\quad$

则矩阵表达可简化为：

$\hat{Y} = W^TX$

我们的目标就是找到合适的 $W、b$ ，使得 $\hat{Y}$ 尽量趋向于 $Y$ ，为了表示这两者之间的差异，通常可以用以下几种方式进行衡量：

1、误差平方和：

$dist(\hat{Y}, Y) = ||\hat{Y} - Y||_2^2= \sum_{i = 1}^{m} (\hat{y_i} - y_i)^2$

2、欧氏距离

$dist(\hat{Y}, Y) = ||\hat{Y} - Y||_2 = \sqrt{\sum_{i = 1}^{m} (\hat{y_i} - y_i)^2}$

3、曼哈顿距离

$dist(\hat{Y}, Y) = ||\hat{Y} - Y||_1 = \sum_{i = 1}^{m} |\hat{y_i} - y_i|$

当然，还有其他的距离表示方式，在这里不一一例举。

对于样本 $X$ ，若其特征是一维的，则称其回归问题为一元线性回归。一元线性回归的问题的本质就是在 $xy$ 平面上求的一条直线，来尽量拟合在该平面内的所有样本点。其中 $w$ 就是直线的斜率， $b$ 就是直线在 $y$ 轴上的截距。

若 $X$ 的特征是二维的，即二元线性回归，则其本质是在 $x_1x_2y$ 空间中求的一个平面，来尽量拟合在该三维空间中的所有样本点。

对于多元线性回归问题，则求的就是一个尽量拟合所有样本的超平面。

求解

我们以误差平方和作为度量（也可以称之为损失函数）：

$L(w,b) = \sum_{i=1}^{m} [(w x_i + b) - y_i]^2$

则目标就是将损失降到最小：

$\underset{w,b}{min} L(w) = \underset{w,b}{min} \sum_{i=1}^{m} [(w x_i + b) - y_i]^2$

矩阵形式表示为：

$\underset{w,b}{min} L(w) = (\hat{Y} - Y)(\hat{Y} - Y)^T = (W^TX - Y)(W^TX - Y)^T$

对于求解，通常有两种方式：

最小二乘法

由于目标函数是关于 $w,b$ 的凸函数，因此当其关于 $w$ 和 $b$ 的导数为 0 时，得到最优解，即：

$\frac{\partial L}{\partial w} = 2 \sum_{i = 1}^{m} x_i [(wx_i + b) - y_i] = 0 \\ \frac{\partial L}{\partial b} = 2 \sum_{i = 1}^{m} [(wx_i + b) - y_i] = 0$

上式中，系数 2 并不影响求导结果，为了求导方便，一般将误差平方和写作以下形式：
$L(w,b) = \frac{1}{2} \sum_{i=1}^{m} [(w x_i + b) - y_i]^2$
这样，求导后就不会出现 2 的系数了。

因此：

$\frac{\partial L}{\partial w} = \sum_{i = 1}^{m} x_i [(wx_i + b) - y_i] = 0 \\ \frac{\partial L}{\partial b} = \sum_{i = 1}^{m} [(wx_i + b) - y_i] = 0$

用矩阵的形式来表示就是：

$\underset{W}{min} L(W) = \frac{1}{2} (Y - \hat{Y})^T(Y - \hat{Y}) = \frac{1}{2} (Y - XW)^T(Y - XW)$

通过极值点求最优解：

$\frac{\partial L}{\partial W} = \frac{\partial [\frac{1}{2} (Y - XW)^T(Y - XW)]}{\partial W} = 0 \Rightarrow W^* = (X^TX)^{-1}X^TY\\$

通常情况下 $X^TX$ 往往不是满秩矩阵，所以无法求解矩阵的逆，故无法求的唯一的阶。因此通常会引入正则化的方式，将矩阵补成满秩。

L2正则：
$\begin{aligned} \underset{W}{min} L(W) &= \frac{1}{2} (Y - \hat{Y})^T(Y - \hat{Y}) + \frac{\lambda}{2}||W||^2_2 \\ &= \frac{1}{2} (Y - XW)^T(Y - XW) + \frac{\lambda}{2}||W||^2_2 \end{aligned}$
求得：
$W^* = (X^TX -\lambda I)^{-1}X^TY\\$
通过正则化，还可以限制模型复杂度。

当然，除了 L2正则，还有岭回归、lasso回归、弹性网络等正则化方式。

梯度下降法

虽然使用最小二乘法可以一步就能求得最优解，但是其中会涉及到大量的矩阵的运算，因此在一般情况下会使用梯度下降法来进行求解。

我们仍然使用误差平方和来作为损失函数：

$L(w,b) = \sum_{i=1}^{m} \frac{1}{2}[(w x_i + b) - y_i]^2$

损失函数 $L(w,b)$ 在任意一点的梯度为：

$\left\{ \begin{aligned} & \frac{\partial L}{\partial w} = \sum_{i = 1}^{m} x_i [(wx_i + b) - y_i]\\ & \frac{\partial L}{\partial b} = \sum_{i = 1}^{m} [(wx_i + b) - y_i] \end{aligned} \right.$

梯度下降法通过随机化初始的 $w, b$ 并通过迭代的方式来逐渐逼近最优解。

在迭代的过程中， $w, b$ 向负梯度的方向增长。过程如下：

将 $w,b$ 初始化为随机数，作为迭代开始的初始值： $w^{(0)} = rand, \quad b^{(0)} = rand$

在第 $t$ 次迭代时，通过第 $t - 1$ 次迭代时 $w,b$ 的值计算梯度： $\frac{\partial L}{\partial w^{(t-1)}}, \quad \frac{\partial L}{\partial b^{(t-1)}}$

计算完梯度后，需要判断梯度是否接近于 $0$ ，若接近于 $0$ 则认为已经逼近了最优解，可以跳出迭代，否则继续迭代。

通过学习率，来计算 $w,b$ 移动的距离，方向为负梯度方向：
$\left\{ \begin{aligned} &\Delta w = -learn\_rate * \frac{\partial L}{\partial w^{(t-1)}} \\ &\Delta b = -learn\_rate * \frac{\partial L}{\partial b^{(t-1)}} \\ \end{aligned} \right. \qquad \Rightarrow \qquad \left\{ \begin{aligned} &w^{(t)} = w^{(t-1)} + \Delta w \\ &b^{(t)} = b^{(t-1)} + \Delta b \\ \end{aligned} \right.$
其中， $learn\_rate$ 为学习率，也可以理解为每次移动的步长。在迭代刚开始的时候，学习率可以设置大一点，前期移动的距离可以大一点；迭代后期可以设置小一点，这样移动距离小，可以更精确。

重复迭代过程，直到达到最大迭代次数或梯度趋近于 $0$ 。

伪代码如下：

$\begin{aligned} & Begin:\\ & \qquad w^{(0)} = rand, \quad b^{(0)} = rand \\ & For \ t=1 \to max\_it:\\ & \qquad \Delta w = -learn\_rate * \frac{\partial L}{\partial w^{(t-1)}} \\ & \qquad \Delta b = -learn\_rate * \frac{\partial L}{\partial b^{(t-1)}} \\ & \qquad w^{(t)} = w^{(t-1)} + \Delta w \\ & \qquad b^{(t)} = b^{(t-1)} + \Delta b \\ \end{aligned}$
为了简化计算过程，仍然可以采用最小二乘法中的思想，在样本 $x_i = \{x_{i_1}, x_{i_2}, x_{i_3} \cdots x_{i_n}\},i = 1、2、3 \cdots m$ 中添加一个值为 1 的特征，将 $n$ 维特征变为 $n+1$ 维，即：
$x_i = \{x_{i_1}, x_{i_2}, x_{i_3} \cdots x_{i_n}\} \quad \Rightarrow \quad x_i = \{1, x_{i_1}, x_{i_2}, x_{i_3} \cdots x_{i_n}\}, \quad i = 1、2、3 \cdots m\\$
然后同样在 $w$ 添加一个元素 $w_0$ ，将其视作 $b$ ，即：
$w = \{w_1, w_2, w_3 \cdots w_n\}, b \quad \Rightarrow \quad w = \{w_0, w_1, w_2, w_3 \cdots w_n\}$
这样，在迭代过程中就只用计算 $\frac{\partial L}{\partial w}$ ，并对 $w$ 进行迭代即可。

$\begin{aligned} & Begin:\\ & \qquad w^{(0)} = rand \\ & For \ t=1 \to max\_it:\\ & \qquad \Delta w = -learn\_rate * \frac{\partial L}{\partial w^{(t-1)}} \\ & \qquad w^{(t)} = w^{(t-1)} + \Delta w \\ \end{aligned}$

代码实现

import numpy as np

def create_samples(size: int, dimension: int):
    x = np.mat(np.random.rand(size, dimension))
    alphas = np.mat(np.random.rand(dimension, 1)) * 10
    noise = np.mat(np.random.rand(size, 1))
    y = x * alphas + noise
    return x, y, alphas

def linear_regression(data_mat: np.matrix, value: np.matrix):
    m, n = data_mat.shape
    data_mat = np.insert(data_mat, 0, np.ones(m), axis=1)
    weights = np.ones((n + 1, 1))

    max_cycles = 10000

    step = 0.001

    for i in range(max_cycles):
        partial_w = data_mat.transpose() * (data_mat * weights - value)
        if np.fabs(np.max(partial_w)) < 1e-7:
            break
        weights = weights - step * partial_w

    return weights[0, 0], weights[1:, 0]

def predict(x: np.matrix, w: np.matrix, b: float):
    return x * w + b

x, y, alpha = create_samples(400, 4)
b, weight = linear_regression(x, y)
print(alpha)
print(weight)

create_samples 函数：

代码的第 3-8 行，定义了一个 create_samples 函数，用来创建样本数据。该函数接收两个 int 型的参数 size 和 dimension，分别代表样本的数量和样本的特征的维度。

代码的第 4 行，创建了一个 size 行 $\times$ dimension 列 的随机数矩阵，作为样本集。

代码的第 5 行，创建了一个 dimension 行 $\times$ 1 列 的随机数矩阵作为样本特征的权重。

代码的第 6 行，创建了一个 size 行 $\times$ 1 列 的随机数矩阵作为噪音。

代码的第 7 行，创建通过样本 x 和权重 alpha 来计算出样本的标签值，并加上噪音 noise 数据。

linear_regression 函数：

代码的第 10-25 行，定义了一个 linear_regression 函数，用来使用线性回归来计算回归系数。

该函数接收两个 np.matrix 类型的参数 data_mat 和 value，分别代表样本和其标签值。

代码的第 11 行，计算出样本矩阵的行和列，并分别保存在变量 m 和 n 中。

代码的第 12 行，通过对输入的样本数据矩阵进行扩展，添加了一列全 1 的列向量，形成了一个新的 m 行 $\times$ n+1 列 的矩阵。

代码的第 13 行，创建了一个全 1 的 n+1 列向量，作为初始的回归系数。

代码的第 15 行，定义了最大的迭代次数。

代码的第 17 行，定义了每次移动的步长，也可以称为学习率。

代码的第 19-23 行，开始进行迭代计算。

代码的第 20 行，计算当前的梯度值（偏导）。

代码的第 21-22 行，通过梯度值来判断是否满足停止迭代的条件（偏导接近于 0）。

代码的第 23 行，通过梯度和学习率来更新回归系数。

代码的第 25 行，返回回归系数向量的第一个元素，作为 $b$ ，返回剩下的元素作为回归系数 $w$ 。

predict 函数：

代码的第 27-28 行，定义了一个 predict 函数，用来对输入的样本的标签值进行预测。

该函数接收三个参数，np.matrix 型的参数 x 为待预测的样本，是一个 1 行 $\times$ n 列 的行向量；np.matrix 型的参数 w 为和 float 型的参数 b 为回归系数。

代码的第 28 行，计算 $x*w+b$ 作为预测值进行返回。

测试：

代码的第 30-33 行，为测试语句。

代码的第 30 行，通过 create_samples 函数创建了 400 个 4 维特征的样本集。

代码的第 31 行，通过 linear_regression 函数计算回归系数 $w$ 和 $b$ 。

代码的第 32、33 行，即打印创建样本时所使用的权重和线性通过线性回归计算出的回归系数。

下图为迭代过程中的误差平方和变化：

可以看出，在迭代刚开始时，误差的下降速度非常快，最终在第 7600 左右次迭代时，偏导已经趋向于 0 。

为了更好地展示线性回归的效果，我们使用 1 维特征的样本集来对回归效果进行展示：

Logistic 回归

Logistic 回归于线性回归原理一致，但与线性回归的用途不同。

一般来讲，线性回归用于数值型的拟合问题，即 $x \to y$ ，而 Logistic 运用于分类问题，即 $x \to [0 \ or \ 1]$ 。

如果说，能够想办法将数值问题转化为分类问题，那么就能够使用线性回归的思想来解决分类问题。

我们假想这样一种函数 $H$ ，能够接收所有的输入值，而其输出只有两个值，如下：

$H(x) = \left \{ \begin{aligned} 1,\quad 0 \leq x\\ 0,\quad x < 0\\ \end{aligned} \right.$

其函数图像如下：

那么只需要将线性回归 $F(x)$ 的结果通过 $H(x)$ 映射到 $[0 \ or \ 1]$ 上，即： $H(F(x)) \to [0 \ or \ 1]$ ，即可将线性回归转化为 Logistic 回归。

但是上面的越阶函数存在一定的问题，其在 $0$ 点处是瞬间跳跃的，这个跳跃过程有时不好处理。因此我们采用另一个具有类似性质的连续函数 Sigmoid 函数来将其替代：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

其函数图像如下所示：

可以看出，该函数是处处光滑的，在 $0$ 点的值为 $0.5$ ，当我们将 $x$ 轴的范围扩大时：

或者在 $x$ 前加上系数时： $\sigma(x) = \frac{1}{1 + e^{-10x}}$

建立模型

在线性回归中，我们使用： $\hat{y} = f(x) = w_1 x_1 + w_2x_2 + \cdots w_n x_n + b$ 来表示样本 $x$ 的预测值，现在，我们要将线性回归应用到 Logistic 回归上，因此可以借助 Sigmoid 函数，将 $\hat{y}$ 映射为 $[0 \ or \ 1]$ ，即：

$\hat{y}^* = \sigma(\hat{y}) = \frac{1}{1 + e^{-\hat{y}}} = \frac{1}{1 + e^{-(xw+b)}}$

其中， $x = [x_1, x_2, x_3 \cdots x_n],\ w = [w_1, w_2, w_3 \cdots w_n]^T$ 。

为了方便，我们将 $\hat{y}^*$ 记作 $\hat{y}$ ，此时， $\hat{y}$ 不再代表对样本的回归预测的值，而是代表对样本的预测类别。

我们将式子进行转化：

$\hat{y} = \frac{1}{1 + e^{-(xw + b)}} \Leftrightarrow \frac{\hat{y} - 1}{\hat{y}} = e^{-(xw+b)} \Leftrightarrow \ln{\frac{\hat{y}}{1-\hat{y}}} = xw + b$

其中，我们可以认为 $\hat{y}$ 为类别为 1 的可能性，即 $p(y = 1|x)$ ； $1-\hat{y}$ 为类别为 0 的可能性，即 $p(y=0|x)$ 。

因此二者的比值表示一种几率，即样本 $x$ 为 1 类别的相对可能性。取对数表示“对数几率”。

Logistic 回归就是使用线性回归的方式，去预测这个对数几率，从而根据对数几率来实现分类的效果。因此， Logistic 回归的实质含义应该是：对数几率回归。

即：

$xw + b \to \ln{\frac{p(y=1|x)}{p(y=0|x)}}$

也可以理解为将 $x$ 作为样本，将对数几率作为样本值，使用线性回归去训练回归系数。

那么可以得到：

$\ln{\frac{\hat{y}}{1-\hat{y}}} = \ln{\frac{p (y = 1|x)}{p ( y = 0 | x)}} = xw + b$

而 $p (y = 1|x) + p ( y = 0 | x) = 1$ ，则可得：

$p(y = 1|x) = \frac{e^{xw + b}}{1 + e^{xw + b}} = \frac{1}{1+e^{-(xw + b)}}\\ p(y = 0|x) = \frac{1}{1 + e^{xw + b}} = \frac{e^{-(xw + b)}}{1+e^{-(xw + b)}}$

将上面两式合并可得：

$p(y|x) = p(y = 1|x)^y * p(y = 0|x)^{1-y}$

因为 $y$ 只能取 0 或 1，因此，上式的含义为：
$\begin{aligned} & y = 1:p(1|x) = p(y = 1|x)^1 * p(y = 0|x)^{1-1} = p(y = 1|x) * 1\\ & y = 0:p(0|x) = p(y = 1|x)^0 * p(y = 0|x)^1 = 1 * p(y = 0|x) \end{aligned}$

对于样本集而言，其中共有 $m$ 个样本，样本分别为 $x_1, x_2, x_3 \cdots x_m$ ，各个样本对应的样本值（标签）为 $y_1, y_2, y_3 \cdots y_m$ 。

设 $p_i$ 为 $y_i = 1$ 的概率，即： $p_i = p(y_i = 1|x_i)$ ，则 $y_i = 0$ 的概率为 $1-p_i = p(y_i = 0|x_i)$ ，则：

$p_i = p_i^{y_i}(1-p_i)^{1-y_i}$

又因为各样本之间相互独立，那么他们的联合分布为各边缘分布的乘积，那么可以得到似然函数：

$L(w,b) = \prod_{i = 1}^{m} p_i = \prod_{i = 1}^{m} p_i^{y_i}(1-p_i)^{1-y_i}$

我们的目标就是求出使这一似然函数的值最大的参数估计（ $w，b$ ）。

对函数取对数可得：

$\ln{L(w,b)} = \sum_{i = 1}^{m} \left[ y_i \ln p_i + (1-y_i) \ln(1-p_i) \right]$

则目标参数为：

$w^*, b^* = \underset{w, b}{max} \sum_{i = 1}^{m} \left[ y_i \ln p_i + (1-y_i) \ln(1-p_i) \right]$

将其转化为最小化负的对数似然函数：

$\begin{aligned} w^*, b^* & = -\underset{w, b}{min} \sum_{i = 1}^{m} \left[ y_i \ln p_i + (1-y_i) \ln(1-p_i) \right] \\ \end{aligned}$

其中：

$p_i = p(y_i = 1|x_i) = \frac{1}{1+e^{-(x_i w + b)}}$

如此，就得到了 Logistic 回归的损失函数，即机器学习中的二元交叉墒（Binary crossentropy）：

$\begin{aligned} J(w, b) & = -\frac{1}{m} \sum_{i = 1}^{m} \left[ y_i \ln \frac{1}{1 + e^{-(x_i w+b)}} + (1- y_i) \ln (1-\frac{1}{1 + e^{-(x_i w + b)}}) \right]\\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i \ln(1 + e^{-(x_i w + b)}) + (1- y_i) \ln(1 + e^{x_i w +b}) \right]\\ \end{aligned}$

使用梯度下降法进行优化，首先对 $w、b$ 求导：

$\begin{aligned} \frac{\partial J}{\partial w} & = \frac{\partial \left \{ \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i \ln(1 + e^{-(x_i w + b)}) + (1- y_i) \ln(1 + e^{x_i w + b}) \right] \right\}}{\partial w} \\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i\frac{-x_ie^{-(x_i w + b)}}{1 + e^{-(x_i w+b)}} +(1- y_i)\frac{x_ie^{x_i w + b}}{1 + e^{x_i w+b}} \right]\\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i\frac{-x_i}{1 + e^{x_i w+b}} +(1- y_i)\frac{x_ie^{x_i w + b}}{1 + e^{x_i w+b}} \right]\\ & = \frac{1}{m} \sum_{i = 1}^{m} \frac{-y_i x_i + (1-y_i)x_ie^{x_i w+b} }{1 + e^{x_i w+b}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \frac{-y_i + (1-y_i)e^{x_i w+b} }{1 + e^{x_i w+b}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \frac{-y_i(1 + e^{x_i w+b}) + e^{x_i w+b} }{1 + e^{x_i w+b}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \left[ \frac{e^{x_i w+b} }{1 + e^{x_i w+b}} - y_i\right] \\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \left[ \frac{1}{1 + e^{-(x_i w+b)}} - y_i\right] \\ \end{aligned}$ $\begin{aligned} \frac{\partial J}{\partial b} & = \frac{\partial \left \{ \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i \ln(1 + e^{-(x_i w + b)}) + (1- y_i) \ln(1 + e^{x_i w + b}) \right] \right\}}{\partial w} \\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i\frac{e^{-(x_i w + b)}}{1 + e^{-(x_i w+b)}} +(1- y_i)\frac{e^{x_i w + b}}{1 + e^{x_i w+b}} \right]\\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i\frac{-1}{1 + e^{x_i w+b}} +(1- y_i)\frac{e^{x_i w + b}}{1 + e^{x_i w+b}} \right]\\ & = \frac{1}{m} \sum_{i = 1}^{m} \frac{-y_i + (1-y_i)e^{x_i w+b} }{1 + e^{x_i w+b}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} \frac{-y_i + (1-y_i)e^{x_i w+b} }{1 + e^{x_i w+b}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} \frac{-y_i(1 + e^{x_i w+b}) + e^{x_i w+b} }{1 + e^{x_i w+b}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ \frac{e^{x_i w+b} }{1 + e^{x_i w+b}} - y_i\right] \\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ \frac{1}{1 + e^{-(x_i w+b)}} - y_i\right] \\ \end{aligned}$

为了简化运算，我们将样本和回归系数进行了改造，去掉了 $b$ ，简化为：

$x = [1, x_1, x_2, x_3 \cdots x_n],\ w = [w_0, w_1, w_2 \cdots w_n]^T \Rightarrow \hat{y} = f(x) = xw$

因此得到：

$\begin{aligned} \frac{\partial J}{\partial w} & = \frac{\partial \left \{ \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i \ln(1 + e^{-x_i w}) + (1- y_i) \ln(1 + e^{x_i w}) \right] \right\}}{\partial w} \\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i\frac{-x_ie^{-x_i w}}{1 + e^{-x_i w}} +(1- y_i)\frac{x_ie^{x_i w }}{1 + e^{x_i w}} \right]\\ & = \frac{1}{m} \sum_{i = 1}^{m} \left[ y_i\frac{-x_i}{1 + e^{x_i w}} +(1- y_i)\frac{x_ie^{x_i w }}{1 + e^{x_i w}} \right]\\ & = \frac{1}{m} \sum_{i = 1}^{m} \frac{-y_i x_i + (1-y_i)x_ie^{x_i w} }{1 + e^{x_i w}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \frac{-y_i + (1-y_i)e^{x_i w} }{1 + e^{x_i w}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \frac{-y_i(1 + e^{x_i w}) + e^{x_i w} }{1 + e^{x_i w}}\\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \left[ \frac{e^{x_i w} }{1 + e^{x_i w}} - y_i\right] \\ & = \frac{1}{m} \sum_{i = 1}^{m} x_i \left[ \frac{1}{1 + e^{-x_i w}} - y_i\right] \\ \end{aligned}$

伪代码

$\begin{aligned} & Begin:\\ & \qquad w^{(0)} = rand \\ & For \ t=1 \to max\_it:\\ & \qquad \Delta w = -learn\_rate * \frac{\partial L}{\partial w^{(t-1)}} \\ & \qquad w^{(t)} = w^{(t-1)} + \Delta w \\ \end{aligned}$

代码实现

from sklearn.datasets import make_blobs
import numpy as np

def create_samples(size: int, dimension: int):
    samples, labels = make_blobs(n_samples = size, n_features = dimension, centers = 2, cluster_std = 3.5)
    return np.mat(samples), np.mat(labels).transpose()

def sigmoid(x: np.matrix):
    return 1.0 / (1 + np.exp(-x))

def logistic_regression(data_mat: np.matrix, value: np.matrix):
    m, n = data_mat.shape
    data_mat = np.insert(data_mat, 0, np.ones(m), axis=1)
    weights = np.ones((n + 1, 1))

    max_cycles = 500

    step = 0.01

    for i in range(max_cycles):
        partial_w = data_mat.transpose() * (sigmoid(data_mat * weights) - value)
        weights = weights - step * partial_w

    return weights[0, 0], weights[1:, 0]

def predict(x: np.matrix, w: np.matrix, b: float):
    return 0 if x * w.transpose() + b < 0.5 else 1


x, y = create_samples(100, 2)
b, weight = logistic_regression(x, y)

create_samples 函数

代码的第 4-6 行，定义了一个 create_samples 函数，用来创建样本数据。该函数接收两个 int 型的参数 size 和 dimension，分别代表样本的数量和样本的特征的维度。

代码的第 4 行，调用 make_blobs 函数创建样本和标签。

sigmoid 函数：

代码的第 8-9 行，定义了越阶函数 $sigmoid(x) = \frac{1}{1+e^{-x}}$ 。

logistic_regression 函数：

代码的第 11-24 行，定义了一个 logistic_regression 函数，用来使用线性回归来计算回归系数。

该函数接收两个 np.matrix 类型的参数 data_mat 和 value，分别代表样本和其标签值。

代码的第 12 行，计算出样本矩阵的行和列，并分别保存在变量 m 和 n 中。

代码的第 13 行，通过对输入的样本数据矩阵进行扩展，添加了一列全 1 的列向量，形成了一个新的 m 行 $\times$ n+1 列 的矩阵。

代码的第 14 行，创建了一个全 1 的 n+1 列向量，作为初始的回归系数。

代码的第 16 行，定义了最大的迭代次数。

代码的第 18 行，定义了每次移动的步长，也可以称为学习率。

代码的第 20-24 行，开始进行迭代计算。

代码的第 21 行，计算当前的梯度值（偏导）。

代码的第 22 行，通过梯度和学习率来更新回归系数。

代码的第 24 行，返回回归系数向量的第一个元素，作为 $b$ ，返回剩下的元素作为回归系数 $w$ 。

predict 函数：

代码的第 26-27 行，定义了一个 predict 函数，用来对输入的样本的标签值进行预测。

该函数接收三个参数，np.matrix 型的参数 x 为待预测的样本，是一个 1 行 $\times$ n 列 的行向量；np.matrix 型的参数 w 为和 float 型的参数 b 为回归系数。

代码的第 27 行，计算 $x*w+b$ 与 0.5 进行比较，返回类别。

下图为迭代过程中的误差变化：

$Loss(\hat{y}, y) = \sum_{i = 1}^{m}|[\hat{y_i}] - y_i|$

分类效果：

优化

目前，我们已经成功使用 Logistic 回归实现了分类模型。但是在计算过程中，使用的梯度下降法在每次更新回归系数 $w$ 时都需要遍历整个数据集。当数据集中的样本数量较少时，计算速度尚在可接受的范围内。但是当数据集的规模达到一定的量级或样本的特征较多时，那么使用这种方式进行回归系数的更新的计算复杂度就太高了。

为了减少因样本数量太多或样本特征数量太大所造成的计算开销，可以改进回归系数的计算方式，将迭代更新回归系数的方式改为遍历样本集，每次选择一个样本来更新回归系数，我们暂且称之为随机梯度下降法。

采用这种形式，可以在新的样本加入时，对分类器进行增量式更新，达到在线学习的效果。

伪代码如下：

$\begin{aligned} & Begin:\\ & \qquad w^{(0)} = rand \\ & For \ sample_i \quad in \quad samples\\ & \qquad \Delta w = -learn\_rate * \frac{\partial L(sample_i)}{\partial w^{(t-1)}} \\ & \qquad w^{(t)} = w^{(t-1)} + \Delta w \\ \end{aligned}$

只需要将 logistic_regression 函数修改为：

def logistic_regression(data_mat: np.matrix, value: np.matrix):
    m, n = data_mat.shape
    data_mat = np.insert(data_mat, 0, np.ones(m), axis=1)
    weights = np.ones((n + 1, 1))

    step = 0.01

    for i in range(m):
        partial_w = data_mat[i].transpose() * (sigmoid(sum(data_mat[i] * weights)) - value[i])[0, 0]
        weights = weights - step * partial_w

    return weights[0, 0], weights[1:, 0]

分类效果如下：

我们将原版的 Logistic 回归的效果与采用随机梯度下降进行比较：

可以看出，随机梯度下降的方式虽然降低了运算量，但是分裂效果却并不好。

因此，我们可以对算法进行改造，增加迭代次数：

def logistic_regression(data_mat: np.matrix, value: np.matrix):
    m, n = data_mat.shape
    data_mat = np.insert(data_mat, 0, np.ones(m), axis=1)
    weights = np.ones((n + 1, 1))

    step = 0.01
    max_cycle = 200
    for it in range(max_cycle):
        for i in range(m):
            partial_w = data_mat[i].transpose() * (sigmoid(sum(data_mat[i] * weights)) - value[i])[0, 0]
            weights = weights - step * partial_w
            
    return weights[0, 0], weights[1:, 0]

效果对比如下：

我们看一下使用随机梯度下降时，回归系数的变化：

可以看到，回归系数 $w_0$ 很快便收敛，而 $w_1、w_2$ 则在迭代程中则不断波动。衡量一个算法的优劣的方法，是看其是否收敛，很明显，$w_1、w_2$ 未能很快的达到收敛的效果。因此，我们还需要对算法进行改进，使其尽量避免产生波动，从而收敛于某个值，同时，也想使其收敛速度加快。

import random

def logistic_regression(data_mat: np.matrix, value: np.matrix):
    m, n = data_mat.shape
    data_mat = np.insert(data_mat, 0, np.ones(m), axis=1)
    weights = np.ones((n + 1, 1))

    step = 0.01
    max_cycle = 100
    for it in range(max_cycle):
        indexs = [index for index in range(m)]
        random.shuffle(indexs)
        #indexs = random.sample([i for i in range(0, m)], m)
        for i in range(m):
            step = 4 / (1.0 + it + i) + 0.01
            rand_index = indexs[i]
            partial_w = data_mat[rand_index].transpose() * (sigmoid(sum(data_mat[rand_index] * weights)) - value[rand_index])[0, 0]
            weights = weights - step * partial_w
            
    return weights[0, 0], weights[1:, 0]