网站建设 代理福州seo网络推广
文章目录
- 逻辑斯谛回归
- 二项逻辑斯谛回归模型
- 极大似然估计
- 多项逻辑斯谛回归模型
- 总结归纳
逻辑斯谛回归
写在前面:逻辑斯谛回归最初是数学家 Verhulst 用来研究人口增长是所发现的,是一个非常有趣的发现过程, b 站有更详细的背景及过程推导,在此不再赘述:https://www.bilibili.com/video/BV1No4y1o7ac/?p=59
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k9DMmgs6-1677676936475)(逻辑斯谛回归.assets/image-20230301153119470.png)]
逻辑斯谛分布的标准形式:
F(x)=11+e−xF(x) = \frac{1}{1 + e^{-x}} F(x)=1+e−x1
f(x)=e−x(1+e−x)2f(x) = \frac{e^{-x}}{(1 + e^{-x})^2} f(x)=(1+e−x)2e−x
- 分布函数是一条 SSS 形曲线,该曲线也被称为 sigmoid 曲线,关于点 (0,12)(0,\frac{1}{2})(0,21) 中心对称。
- 概率密度函数一条钟型曲线,中间高两端低,关于 x=0x = 0x=0 对称,在此处取得最大值 (人口增速最大时刻)。
逻辑斯谛回归的一般形式:
设 X\rm XX 是连续随机变量, X\rm XX 服从逻辑斯谛分布是指 X\rm XX 具有下列分布函数和概率密度:
F(x)=P(X⩽x)=11+e−(x−μ)/γF(x)=P(X\leqslant x)={\frac{1}{1+\mathrm{{e}}^{-(x-\mu)/\gamma}}}\\ F(x)=P(X⩽x)=1+e−(x−μ)/γ1
f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2f(x)=F^{\prime}(x)={\frac{\mathrm{e}^{-(x-\mu)/\gamma}}{\gamma(1+\mathrm{e}^{-(x-\mu)/\gamma})^{2}}} f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
式中, μ\muμ 为位置参数, γ>0\gamma > 0γ>0 为形式参数。
- 分布函数是一条 SSS 形曲线,该曲线也被称为 sigmoid 曲线,关于点 (μ,12)(\mu,\frac{1}{2})(μ,21) 中心对称。
- 概率密度函数一条钟型曲线,中间高两端低,关于 x=μx = \mux=μ 对称,在此处取得最大值 14γ\frac{1}{4 \gamma}4γ1 (人口增速最大时刻)。
二项逻辑斯谛回归模型
P(Y=1∣x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)
P(Y=0∣x)=11+exp(w⋅x+b)P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} P(Y=0∣x)=1+exp(w⋅x+b)1
其中,x∈Rnx \in {\bf R^n}x∈Rn 是输入,Y∈0,1Y \in {0,1}Y∈0,1 是输出,w∈Rnw \in {\bf R^n}w∈Rn 和 b∈Rnb \in {\bf R^n}b∈Rn 是参数,www 称为权值向量,bbb 称为偏置,w⋅xw \cdot xw⋅x 为 xxx 和 xxx 的内积。
为了方便,将权重向量和输入向量加以扩充,仍记为 www 和 xxx ,则有:
ω=(ω(1),ω(2),⋯,ω(n),b)T,x=(x(1),x(2),⋯,x(n),1)T,\omega=\left(\omega^{(1)}, \omega^{(2)}, \cdots, \omega^{(n)}, b\right)^T, \quad \quad x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^T, ω=(ω(1),ω(2),⋯,ω(n),b)T,x=(x(1),x(2),⋯,x(n),1)T,
逻辑分布函数重写为:
P(Y=1∣x)=ew⋅x1+ew⋅xP(Y=1 \mid x)=\frac{e^{w \cdot x}}{1 + e^{w \cdot x}} P(Y=1∣x)=1+ew⋅xew⋅x
P(Y=0∣x)=11+ew⋅xP(Y=0 \mid x)=\frac{1}{1 + e^{w \cdot x}} P(Y=0∣x)=1+ew⋅x1
极大似然估计
二项分布:
P(Y)={1−p,Y=0p,Y=1=(1−p)1−YpYP(Y)=\left\{\begin{array}{ll} 1-p, & Y=0 \\ p, & Y=1 \end{array}=(1-p)^{1-Y} p^Y\right. P(Y)={1−p,p,Y=0Y=1=(1−p)1−YpY
对于 (xi,yi)(x_i, y_i)(xi,yi) ,有:
P(Y=yi∣xi)=(1−pi)1−yipiyiP(Y = y_i | x_i) = (1 - p_i)^{1 - y_i} p_i^{y_i} P(Y=yi∣xi)=(1−pi)1−yipiyi
其中:
pi=ew⋅xi1+ew⋅xi1−pi=11+ew⋅xi\begin{align} p_i = \frac{e^{w \cdot x_i}}{1 + e^{w \cdot x_i}}\\ 1 - p_i = \frac{1}{1 +e^{w \cdot x_i}} \end{align} pi=1+ew⋅xiew⋅xi1−pi=1+ew⋅xi1
对于数据集 T=(X1,y1),(x2,y2),⋯,(xN,yN)T = {(X_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}T=(X1,y1),(x2,y2),⋯,(xN,yN) 出现的概率:
∏i=1N(1−pi)1−yipiyi\prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i} i=1∏N(1−pi)1−yipiyi
该概率只与 www 有关,即可得关于 www 的似然函数:
L(w)=∏i=1N(1−pi)1−yipiyiL(w) = \prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i} L(w)=i=1∏N(1−pi)1−yipiyi
对数似然函数:
log∏i=1Npiyi(1−pi)1−yi=∑i=1N[yilogpi+(1−yi)log(1−pi)]=∑i=1N[yilogpi1−pi+log(1−pi)]\begin{align} \log \prod_{i = 1}^{N} p_i^{y_i} (1 - p_i)^{1 - y_i} &= \sum_{i = 1}^{N}[y_i \log p_i + (1 - y_i) \log(1-p_i)]\\ &= \sum_{i = 1}^{N}[y_i \log \frac{p_i}{1 - p_i} + \log(1 - p_i)] \end{align} logi=1∏Npiyi(1−pi)1−yi=i=1∑N[yilogpi+(1−yi)log(1−pi)]=i=1∑N[yilog1−pipi+log(1−pi)]
代入(12)(13)式:
L(w)=∑i=1N[yiw⋅xi−log(1+ew⋅xi)]L(w) = \sum_{i = 1}^{N}[y_i \ w \cdot x_i - \log(1 + e^{w \cdot x_i})] L(w)=i=1∑N[yi w⋅xi−log(1+ew⋅xi)]
这样,问题就变成了以对数似然函数为目标函数的最优化问题,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
多项逻辑斯谛回归模型
二项逻辑斯谛回归模型可将其推广到多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类。假设离散型随机变量 YYY 的取值集合是 1,2,⋯,K{1,2,\cdots, K}1,2,⋯,K ,那么多项逻辑斯谛回归模型是:
P(Y=k∣x)=exp(wk⋅x)1+∑k=1K−1exp(wk⋅x),k=1,2,⋯,K−1P(Y=K∣x)=11+∑k=1K−1exp(wk⋅x)\begin{align} P(Y&=k \mid x)=\frac{\exp \left(w_k \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)}, \quad k=1,2, \cdots, K-1 \\ P(Y&=K \mid x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_k \cdot x\right)} \end{align} P(YP(Y=k∣x)=1+∑k=1K−1exp(wk⋅x)exp(wk⋅x),k=1,2,⋯,K−1=K∣x)=1+∑k=1K−1exp(wk⋅x)1
这里,x∈Rn+1x \in {\bf R^{n+1}}x∈Rn+1 ,wk∈Rn+1w_k \in {\bf R^{n+1}}wk∈Rn+1 。
总结归纳
- 逻辑斯谛回归归根结底是将分类问题用回归模型来解决。
- 正态分布是在给定均值和方差的情况下具有最大熵的分布,这样的假设可以使得数据携带的信息量最大。通常在没有任何假设的情况下,连续型数据常被假设为正态分布,离散型数据常被假设为等概率分布。
- P(Y=1∣x)+P(Y=0∣x)=1P(Y=1 \mid x) + P(Y=0 \mid x) = 1P(Y=1∣x)+P(Y=0∣x)=1 。
- 逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
- 逻辑回归模型不局限于输入变量和输出变量之间是否存在线性关系,可以通过 sigmoid 函数代替非连续型函数,当 sigmoid 函数大于等于 0.5时即可判断类别。
- 逻辑回归的输入变量可以是连续变量,也可以是离散变量。
- 参数估计:说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。
- 极大似然估计:极大似然估计就是建立在参数估计的思想上,已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
- sigmoid 激活函数在深度学习中应用广泛,逻辑斯谛回归更是在分类问题中被大量使用。