From a45d1e0ec6ddfb2816fc5df1cca2ad4a73ac1b25 Mon Sep 17 00:00:00 2001 From: JIMMY ZHAO Date: Thu, 19 Sep 2024 00:11:06 -0400 Subject: [PATCH] =?UTF-8?q?=E5=87=B8=E8=B5=8C=E5=8D=9A=E6=9C=BA=E5=9C=A8?= =?UTF-8?q?=E7=BA=BF=E6=A2=AF=E5=BA=A6=E4=B8=8B=E9=99=8D+=E5=87=B8?= =?UTF-8?q?=E8=B5=8C=E5=8D=9A=E6=9C=BA=E7=BC=A9=E5=87=8F=E6=8A=95=E5=BD=B1?= =?UTF-8?q?=E7=9A=84=E8=AF=AF=E5=B7=AE?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/chapter1/chapter1.md | 14 ++-- docs/chapter4/chapter4.md | 6 +- docs/chapter6/chapter6.md | 2 +- docs/chapter7/chapter7.md | 10 +-- docs/chapter8/chapter8.md | 133 ++++++++++++++++++++++++++++++++++---- 5 files changed, 136 insertions(+), 29 deletions(-) diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index f5b1c69..fdba6aa 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -185,7 +185,7 @@ $$ 1. **Hessian 矩阵条件**:若一个两次可微的函数 $f(x)$ 的 Hessian 矩阵 $H_f$ 在凸集中的所有 $x$ 处均为正定的(即矩阵的所有特征值为正),则该函数是强凸的。 -2. **梯度条件**:若一个可微函数 $f(x)$ 是强凸的,则存在一个常数 $m$,使得对于凸集中的任意 $x,y$,有 $||\nabla f(x) - \nabla f(y)||_2 \geq m ||x - y||_2$。其中,$\nabla f(x)$ 表示 $f(x)$ 在点 $x$ 处的梯度。 +2. **梯度条件**:若一个可微函数 $f(x)$ 是强凸的,则存在一个常数 $m$,使得对于凸集中的任意 $x,y$,有 $\|\nabla f(x) - \nabla f(y)\|_2 \geq m \|x - y\|_2$。其中,$\nabla f(x)$ 表示 $f(x)$ 在点 $x$ 处的梯度。 直观上,对于强凸函数 $f(x)$,可以在任意一点处构造一个二次函数作为其下界。这一性质使得优化算法更加高效,并具有类似于 **P90** 中定理 7.2 的良好性质。 @@ -770,8 +770,8 @@ $$ 设 $\{X_t\}$ 是一个随机过程,$\{\mathcal{F}_t\}$ 是一个随时间 $t$ 变化的过滤(即包含随时间增加的所有信息的 σ-代数的序列)。当这个随机过程 $\{X_t\}$ 是鞅时,必须满足以下条件: 1. **适应性(Adaptedness)**:对于每一个 $t$,$X_t$ 是 $\mathcal{F}_t$-可测的(即 $X_t$ 的值在时间 $t$ 时刻是已知信息的函数)。 -2. **积分性(Integrability)**:对于所有 $t$,$E[|X_t|] < \infty$。 -3. **鞅性质(Martingale Property)**:对于所有 $t$ 和 $s \geq t$,有 $E[X_s \mid \mathcal{F}_t] = X_t$。这意味着在已知当前时刻 $t$ 的信息 $\mathcal{F}_t$ 条件下,未来某个时刻 $s$ 的期望值等于当前时刻 $t$ 的值。 +2. **积分性(Integrability)**:对于所有 $t$,$\mathbb{E}[|X_t|] < \infty$。 +3. **鞅性质(Martingale Property)**:对于所有 $t$ 和 $s \geq t$,有 $\mathbb{E}[X_s \mid \mathcal{F}_t] = X_t$。这意味着在已知当前时刻 $t$ 的信息 $\mathcal{F}_t$ 条件下,未来某个时刻 $s$ 的期望值等于当前时刻 $t$ 的值。 ### 直观解释 @@ -785,8 +785,8 @@ $$ 除了标准的鞅,还有两个相关的概念: -1. **超鞅(Submartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $E[X_s \mid \mathcal{F}_t] \geq X_t$,则称 $\{X_t\}$ 为超鞅(或上鞅)。 -2. **亚鞅(Supermartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $E[X_s \mid \mathcal{F}_t] \leq X_t$,则称 $\{X_t\}$ 为亚鞅(或下鞅)。 +1. **超鞅(Submartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $\mathbb{E}[X_s \mid \mathcal{F}_t] \geq X_t$,则称 $\{X_t\}$ 为超鞅(或上鞅)。 +2. **亚鞅(Supermartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $\mathbb{E}[X_s \mid \mathcal{F}_t] \leq X_t$,则称 $\{X_t\}$ 为亚鞅(或下鞅)。 一个区分超鞅和亚鞅的记忆方法是:“生活是一个超鞅:随着时间的推进,期望降低。” @@ -795,7 +795,7 @@ $$ 鞅差 $D_t$ 定义为 $D_t = X_t - X_{t-1}$,鞅差序列(Martingale Difference Sequence)$\{D_t\}$ 则满足以下条件: 1. **适应性(Adaptedness)**:对于每一个 $t$,$D_t$ 是 $\mathcal{F}_t$-可测的。 -2. **零条件期望(Zero Conditional Expectation)**:对于所有 $t$,有 $E[D_t \mid \mathcal{F}_{t-1}] = 0$,即在已知过去信息 $\mathcal{F}_{t-1}$ 的条件下,$D_t$ 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差,即每一步的变化是纯随机的。 +2. **零条件期望(Zero Conditional Expectation)**:对于所有 $t$,有 $\mathbb{E}[D_t \mid \mathcal{F}_{t-1}] = 0$,即在已知过去信息 $\mathcal{F}_{t-1}$ 的条件下,$D_t$ 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差,即每一步的变化是纯随机的。 虽然鞅差序列中的每个元素的条件期望为零,但这并不意味着这些元素是独立的。相反,它们可以有复杂的依赖关系。鞅差序列的关键性质是每个元素在条件期望下为零,这使得它在分析鞅和集中不等式(如 Bernstein 不等式)中非常有用。 @@ -1098,7 +1098,7 @@ $$ $$ \begin{align} \mathbb{E}[|X+Y|^p] &\leq \mathbb{E}[(|X|+|Y|)|X+Y|^{p-1}] \\ -&= \mathbb{E}[|X||X+Y|^{p-1}] + \mathbb{E}[|Y||X+Y|^{p-1}] \\ +&= \mathbb{E}[|X\|X+Y|^{p-1}] + \mathbb{E}[|Y\|X+Y|^{p-1}] \\ &\leq (\mathbb{E}[|X|^p])^{\frac{1}{p}} (\mathbb{E}[|X+Y|^{(p-1)q}])^{\frac{1}{q}} \\ &\quad + (\mathbb{E}[|Y|^p])^{\frac{1}{p}} (\mathbb{E}[|X+Y|^{(p-1)q}])^{\frac{1}{q}} \\ &= [(\mathbb{E}[|X|^p])^{\frac{1}{p}} + (\mathbb{E}[|Y|^p])^{\frac{1}{p}}] \cdot \frac{\mathbb{E}[|X+Y|^p]}{(\mathbb{E}[|X+Y|^p])^{\frac{1}{p}}} diff --git a/docs/chapter4/chapter4.md b/docs/chapter4/chapter4.md index 2195a10..5a3fcb9 100644 --- a/docs/chapter4/chapter4.md +++ b/docs/chapter4/chapter4.md @@ -143,7 +143,7 @@ $$ 在这个过程中,使用了式 4.16,通过给出任意置换下的情况,将期望问题转化为级数求和,进一步缩放成有关指数函数的公式: $$ \begin{equation} -\frac{1}{2m}\sum_{i=1}^{(2m)!}\mathbb{I}(|\hat E_{T_iD}(h)-\hat E_{T_iD'}(h)||)=\sum_{k\in[l]\\s.t.|2k/m-l/m|\geq\epsilon/2}\frac{\tbinom{l}{k}\tbinom{2m-l}{m-k}}{\tbinom{2m}{m}} +\frac{1}{2m}\sum_{i=1}^{(2m)!}\mathbb{I}(|\hat E_{T_iD}(h)-\hat E_{T_iD'}(h)\|)=\sum_{k\in[l]\\s.t.|2k/m-l/m|\geq\epsilon/2}\frac{\tbinom{l}{k}\tbinom{2m-l}{m-k}}{\tbinom{2m}{m}} \end{equation} $$ @@ -282,7 +282,7 @@ $$ **P79**提到,由经验损失(4.72)可知 $\Phi_\rho$ 最多是 $\frac{1}{\rho} - Lipschitz$。 -考虑由 Lipschitz 的定义证明。由拉格朗日中值定理我们得到 $|\Phi_\rho(x_1)-\Phi_\rho(x_2)|\leq|\Phi_\rho'(\xi)||x_1-x_2|$ ,由于 $\Phi_\rho$ 的表达式已经给出,我们可以直接计算其导数,得到 $|\Phi_\rho'(\xi)|\leq\frac{1}{\rho}$,因此根据定义我们可以得到 $\rho$-间隔损失函数是 $\frac{1}{\rho}-Lipschitz$ 函数。 +考虑由 Lipschitz 的定义证明。由拉格朗日中值定理我们得到 $|\Phi_\rho(x_1)-\Phi_\rho(x_2)|\leq|\Phi_\rho'(\xi)\|x_1-x_2|$ ,由于 $\Phi_\rho$ 的表达式已经给出,我们可以直接计算其导数,得到 $|\Phi_\rho'(\xi)|\leq\frac{1}{\rho}$,因此根据定义我们可以得到 $\rho$-间隔损失函数是 $\frac{1}{\rho}-Lipschitz$ 函数。 ## 4.12【证明补充】引理4.7的补充 @@ -301,7 +301,7 @@ $$ 令 $\gamma'=\gamma u$,因为 $\Phi(·,\alpha)$为减函数,易知其最大值为$1/4$,因此有$\gamma'\in[0,1/4)\subseteq[0,1)$。此时带入引理4.3可得: $$ \begin{equation} -P(Z'\gt\gamma')\ge E[Z']-\gamma' \ge u-u\gamma = (1-\gamma)u +P(Z'\gt\gamma')\ge \mathbb{E}[Z']-\gamma' \ge u-u\gamma = (1-\gamma)u \end{equation} $$ diff --git a/docs/chapter6/chapter6.md b/docs/chapter6/chapter6.md index a007864..f3fafd2 100644 --- a/docs/chapter6/chapter6.md +++ b/docs/chapter6/chapter6.md @@ -159,7 +159,7 @@ $$ 首先,令 $L_j$ 表示区域 $\Omega(x,Z)$ 中第 $j$ 个属性的边长,我们可以得到 $Diam(\Omega(x,Z))$ 与 $L_j$ 的关系: $$ \begin{align} -Diam(\Omega(x,Z))&=sup_{x,x'\in\Omega}||x-x'||\\ +Diam(\Omega(x,Z))&=sup_{x,x'\in\Omega}\|x-x'\|\\ &=\sqrt{\sum_{j=1}^dL_j^2} \end{align} $$ diff --git a/docs/chapter7/chapter7.md b/docs/chapter7/chapter7.md index 6d9d2b6..878c798 100644 --- a/docs/chapter7/chapter7.md +++ b/docs/chapter7/chapter7.md @@ -15,10 +15,10 @@ 设 $\{x_k\}$ 是算法生成的迭代序列,我们可以根据以下公式来衡量算法的收敛率: $$ \begin{equation} -\lim_{t\rightarrow+\infty}\frac{||x_{t+1} - x^*||}{||x_t - x^*||^p} = C +\lim_{t\rightarrow+\infty}\frac{\|x_{t+1} - x^*\|}{\|x_t - x^*\|^p} = C \end{equation} $$ -其中,$C$为收敛因子,$p$为收敛阶数,$x^*$ 表示最优解,$||.||$ 表示适当的范数。 +其中,$C$为收敛因子,$p$为收敛阶数,$x^*$ 表示最优解,$\|.\|$ 表示适当的范数。 根据收敛率的不同情况,我们可以将其分类如下: 1. **超线性收敛**:$p\ge1$,$C=0$,表明每次迭代都会使得误差减小,且减小的速度越来越快。特别地,当$p>1$时,称为$p$阶收敛。例如,$p=2$时称为平方收敛,$p=3$时称为立方收敛。 @@ -50,13 +50,13 @@ $$ 首先,如果目标函数满足 $\lambda$-强凸且 $\gamma$-光滑,那么根据第一章补充内容中的结论,我们有 $\gamma\ge\lambda$。这是因为对于任意 $\omega,\omega'$,光滑系数 $\gamma$ 被定义为: $$ \begin{equation} -f(\omega)\le f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\gamma}{2}||\omega-\omega'||^2 +f(\omega)\le f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\gamma}{2}\|\omega-\omega'\|^2 \end{equation} $$ 而强凸系数 $\lambda$ 被定义为: $$ \begin{equation} -f(\omega)\ge f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\lambda}{2}||\omega-\omega'||^2 +f(\omega)\ge f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\lambda}{2}\|\omega-\omega'\|^2 \end{equation} $$ 光滑系数 $\gamma$ 决定了 $f(\omega)$ 的上界,而强凸系数 $\lambda$ 决定了 $f(\omega)$ 的下界,因此光滑系数 $\gamma$ 不小于强凸系数 $\lambda$。 @@ -189,7 +189,7 @@ $$ 首先,(7.60)中第二个不等式的推导利用了Cauchy-Schwarz不等式(1.14),即 $\|x^Ty\|\le\|x\|\|y\|$。这里,我们令 $x=\underbrace{[1,\cdots,1]}_{T}$,$y=\underbrace{[\|\omega_1-w^*\|,\cdots,\|\omega_T-w^*\|]}_{T}$,则有: $$ \begin{equation} -|x^Ty|=\sum_{t=1}^T\|\omega_t-w^*\|\le \sqrt{T}\sqrt{\sum_{t=1}^T\|\omega_t-w^*\|^2}=|x||y| +|x^Ty|=\sum_{t=1}^T\|\omega_t-w^*\|\le \sqrt{T}\sqrt{\sum_{t=1}^T\|\omega_t-w^*\|^2}=|x\|y| \end{equation} $$ diff --git a/docs/chapter8/chapter8.md b/docs/chapter8/chapter8.md index eac60eb..1249663 100644 --- a/docs/chapter8/chapter8.md +++ b/docs/chapter8/chapter8.md @@ -58,17 +58,17 @@ $$ \max_{x_1, x_2 \in D} \|x_1 - x_2\| \leq D $$ -3. **定义 1(凸函数)**:函数 $f : D arrow \mathbb{R}$ 是凸的,如果: +3. **定义 1(凸函数)**:函数 $f : D \rightarrow \mathbb{R}$ 是凸的,如果: $$ f(x_1) \geq f(x_2) + \nabla f(x_2)^\top (x_1 - x_2), \quad \forall x_1, x_2 \in D $$ -4. **定义 2(强凸函数)**:函数 $f : D arrow \mathbb{R}$ 是 $\lambda$-强凸的,如果: +4. **定义 2(强凸函数)**:函数 $f : D \rightarrow \mathbb{R}$ 是 $\lambda$-强凸的,如果: $$ f(x_1) \geq f(x_2) + \nabla f(x_2)^\top (x_1 - x_2) + \frac{\lambda}{2} \|x_1 - x_2\|^2, \quad \forall x_1, x_2 \in D $$ -5. **定义 3(指数凹函数)**:函数 $f : D arrow \mathbb{R}$ 是 $\alpha$-指数凹的(简称 $\alpha$-exp-concave),如果: +5. **定义 3(指数凹函数)**:函数 $f : D \rightarrow \mathbb{R}$ 是 $\alpha$-指数凹的(简称 $\alpha$-exp-concave),如果: $$ \exp(-\alpha f(x)) \text{ 是凹的} $$ @@ -136,7 +136,7 @@ $$ -## 8.3 【定理补充】随机多臂赌博机遗憾界 +## 8.3 【定理补充】随机多臂赌博机的遗憾界 **P172**中定理8.3给出了随机多臂赌博机的遗憾界,我们在此基础上对部分证明过程进行补充。 @@ -157,12 +157,12 @@ $$ \begin{align} \mathbb{E}[n_i^T]&\le\lceil\frac{2\ln T}{\Delta_i^2}\rceil+2\sum_{t=1}^{T-1}\sum_{p=1}^{t-1}\sum_{q=l}^{t-1}t^{-4} \\ &\le\frac{2\ln T}{\Delta_i^2}+1+2\sum_{t=1}^{T-1}\sum_{p=1}^{t}\sum_{q=1}^{t}t^{-4} \\ -&\le\frac{2\ln T}{\Delta_i^2}+1+2\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2} +&\le\frac{2\ln T}{\Delta_i^2}+1+2\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2} \end{align} $$ -根据$p$-级数判别法,当$p=2\gt1$时,级数收敛,因此$\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$是有界的。至于该级数的具体值,对定理的结论没有影响,因此我们可以将其视为一个常数,然后带入后续推导中。为了证明的完整性,我们对此进行简要说明。 +根据$p$-级数判别法,当$p=2\gt1$时,级数收敛,因此$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$是有界的。至于该级数的具体值,对定理的结论没有影响,因此我们可以将其视为一个常数,然后带入后续推导中。为了证明的完整性,我们对此进行简要说明。 -$\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$的取值在数学界被称为Basel问题,推导过程涉及诸多前置定理,感兴趣的读者可以查看这个[讲义](https://www.math.cmu.edu/~bwsulliv/basel-problem.pdf)。此处提供另一种在微积分变换中常见的缩放方法: +$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$的取值在数学界被称为Basel问题,推导过程涉及诸多前置定理,感兴趣的读者可以查看这个[讲义](https://www.math.cmu.edu/~bwsulliv/basel-problem.pdf)。此处提供另一种在微积分变换中常见的缩放方法: $$ \begin{align} \sum_{t=1}^{T-1}t^{-2}&\le1+\int_{1}^{T-1}\frac{1}{x^2}dx \\ @@ -173,12 +173,12 @@ $$ 对不等式两边同时取极限,可得: $$ \begin{equation} -\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}\le2 +\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}\le2 \end{equation} $$ 代入(8.46),同样可得类似(8.47)的结论。 -这里继续沿用书中给出的$\lim_{Tarrow+\infty}\sum_{t=1}^{T}t^{-2}=\frac{\pi^2}{6}$,代入(8.46)得到遗憾界(8.47): +这里继续沿用书中给出的$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T}t^{-2}=\frac{\pi^2}{6}$,代入(8.46)得到遗憾界(8.47): $$ \begin{equation} \mathbb{E}[regret]\le\sum_{i=1}^{K}\frac{2\ln T}{\Delta_i^2}+O(1) @@ -244,13 +244,120 @@ $$ $$ \begin{align} &\frac{\partial f(w)}{\partial w}=-2X^T(Y-w^T X)+2\lambda w = 0 \\ -arrow&X^TY = (X^TX + \lambda I)w \\ -arrow&w^* = (X^TX + \lambda I)^{-1}X^TY +\rightarrow&X^TY = (X^TX + \lambda I)w \\ +\rightarrow&w^* = (X^TX + \lambda I)^{-1}X^TY \end{align} $$ 相比于每次传入新数据$(x_t,y_t)$时从头计算$w_t$,这里巧妙地利用了 Sherman-Morrison-Woodbury 公式将任何形如$(A+uv^T)^{-1}$的矩阵逆转化为可逆矩阵$A$和列向量$u,v$之间的运算,在$O(d^2)$的时间复杂度内完成参数的更新。 -## 8.6 【定理补充】凸赌博机的遗憾界 + + +## 8.6 【定理补充】凸赌博机的在线梯度下降 + + +**P182**中引理8.3给出了凸赌博机的随机版本在线梯度下降,我们在此给出完整的证明过程。 + +设 $f_1, f_2, \dots, f_T: W \to \mathbb{R}$ 为一列凸且可微的函数,$\omega_1, \omega_2, \dots, \omega_T \in W$ 的定义满足 $\omega_1$ 为任意选取的点,且 $\omega_{t+1} = \Pi_W(\omega_t − \eta g_t)$,其中 $\eta > 0$,且 $g_1, \dots, g_T$ 是满足 $\mathbb{E}[g_t|\omega_t] = \nabla f_t(\omega_t)$ 的随机向量变量,且 $\|g_t\| \leq l$,其中 $l > 0$。则当 $\eta = \frac{\Lambda}{l\sqrt{T}}$ 时,有: + +$$ +\begin{equation} +\sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t)] - \min_{\omega \in W} \sum_{t=1}^{T} f_t(\omega) \le l\Lambda \sqrt{T} +\end{equation} +$$ + +**证明:** +设 $\omega^\star$ 为在 $W$ 中使 $\sum_{t=1}^{T} f_t(\omega)$ 最小化的点。由于 $f_t$ 是凸且可微的,我们可以使用梯度界定 $f_t(\omega_t)$ 和 $f_t(\omega^\star)$ 之间的差异: + +$$ +\begin{equation} +f_t(\omega^\star) - f_t(\omega_t) \ge \nabla f_t(\omega_t)^\top (\omega^\star − \omega_t) = \mathbb{E}[g_t|\omega_t]^\top (\omega^\star − \omega_t) +\end{equation} +$$ + +对该不等式取期望,得到: + +$$ +\begin{equation} +\mathbb{E}[f_t(\omega_t) − f_t(\omega^\star)] \leq \mathbb{E}[g_t^\top (\omega_t − \omega^\star)] +\end{equation} +$$ + +我们使用 $\|\omega_t − \omega^\star\|^2$ 作为潜在函数。注意到 $\|\Pi_W(\omega) − \omega^\star\| \leq \|\omega − \omega^\star\|$,因此: + +$$ +\begin{align} +\|\omega_{t+1} − \omega^\star\|^2 &= \|\Pi_W(\omega_t − \eta g_t) − \omega^\star\|^2 \\ +&\leq \|\omega_t − \eta g_t − \omega^\star\|^2 \\ +&= \|\omega_t − \omega^\star\|^2 + \eta^2 \|g_t\|^2 − 2\eta (\omega_t − \omega^\star)^\top g_t \\ +&\leq \|\omega_t − \omega^\star\|^2 + \eta^2 l^2 − 2\eta (\omega_t − \omega^\star)^\top g_t +\end{align} +$$ + +整理后得到: + +$$ +\begin{equation} +g_t^\top (\omega_t − \omega^\star) \leq \frac{\|\omega_t − \omega^\star\|^2 − \|\omega_{t+1} − \omega^\star\|^2 + \eta^2 l^2}{2\eta} +\end{equation} +$$ + +因此,我们有: + +$$ +\begin{align} +\sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t)] − \sum_{t=1}^{T} f_t(\omega^\star) &= \sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t) − f_t(\omega^\star)] \\ +&\leq \sum_{t=1}^{T} \mathbb{E}[g_t^\top (\omega_t − \omega^\star)] \\ +&\leq \sum_{t=1}^{T} \mathbb{E} \left[\frac{\|\omega_t − \omega^\star\|^2 − \|\omega_{t+1} − \omega^\star\|^2 + \eta^2 l^2}{2\eta}\right] \\ +&= \frac{\mathbb{E}[\|\omega_1 − \omega^\star\|^2] - \mathbb{E}[\|\omega_{T+1} − \omega^\star\|^2]}{2\eta} + \frac{T \eta l^2}{2} \\ +&\le \frac{\mathbb{E}[\|\omega_1 − \omega^\star\|^2]}{2\eta} + \frac{T \eta l^2}{2} \\ +&\le \frac{\Lambda^2}{2\eta} + \frac{T \eta l^2}{2} +\end{align} +$$ + +代入 $\eta = \frac{\Lambda}{l\sqrt{T}}$ 可得最终结果。 + + + +## 8.7 【定理补充】凸赌博机的缩减投影误差 + +**P182**中引理8.4给出了凸赌博机的缩减投影误差,我们在此给出完整的证明过程。 + +设 $f_1, f_2, \dots, f_T: W \to \mathbb{R}$ 为一列凸且可微的函数且 $\forall \omega \in W,i \in [T]$ 满足 $|f_i(\omega)| \le c$,有: + +$$ +\min_{\omega \in (1−\alpha)W} \sum_{t=1}^T f_t(\omega) - \min_{\omega \in W} \sum_{t=1}^T f_t(\omega) \leq 2\alpha cT +$$ + +**证明:** +显然,$(1−\alpha)W \subseteq W$。因此,有: + +$$ +\min_{\omega \in (1−\alpha)W} \sum_{t=1}^T f_t(\omega) = \min_{\omega \in W} \sum_{t=1}^T f_t((1−\alpha)\omega) +$$ + +由于每个$f_t$是凸函数,且$0 \in W$,则我们有: + +$$ +\begin{align} +\min_{\omega \in W} \sum_{t=1}^T f_t((1−\alpha)\omega) &\leq \min_{\omega \in W} \sum_{t=1}^T \alpha f_t(0) + (1−\alpha) f_t(\omega) \\ +&= \min_{\omega \in W} \sum_{t=1}^T \alpha (f_t(0) − f_t(\omega)) + f_t(\omega) +\end{align} +$$ + +最后,由于对于任意$\omega \in W$和$t \in \{1, \dots, T\}$,我们有$|f_t(\omega)| \leq c$,因此可以得出: + +$$ +\begin{align} +\sum_{t=1}^{T} \min_{\omega \in W} \alpha (f_t(0) − f_t(\omega)) + f_t(\omega) &\leq \min_{\omega \in W}\sum_{t=1}^{T} 2\alpha c + f_t(\omega) \\ +&= 2\alpha cT + \min_{\omega \in W} \sum_{t=1}^{T} f_t(\omega) +\end{align} +$$ + +进行适当移项即可得原不等式。 + + + +## 8.8 【定理补充】凸赌博机的遗憾界 **P182**中定理8.5给出了凸赌博机的遗憾界,在证明开始时,作者对$\eta,\alpha,\delta$的取值进行了限定。我们可以发现这些取值不是很直观,证明给出的解释也较为分散,部分取值与证明略有出入,因此我们在此进行补充。 @@ -280,7 +387,7 @@ $$ f(\delta^*)=O(T^{3/4}) \end{equation} $$ -如果我们想加速收敛,则可将$\alpha$的取值与$\delta$相关联。根据上面的结论,当迭代次数$T$足够大时,必然有$\deltaarrow0$。因此,不妨取$\alpha=\frac{\delta}{\Lambda_1}$,代入(8.91)中并利用对钩函数$f(\delta)$的性质,得到: +如果我们想加速收敛,则可将$\alpha$的取值与$\delta$相关联。根据上面的结论,当迭代次数$T$足够大时,必然有$\delta\rightarrow0$。因此,不妨取$\alpha=\frac{\delta}{\Lambda_1}$,代入(8.91)中并利用对钩函数$f(\delta)$的性质,得到: $$ \begin{align} &\delta^*=T^{-1/4}\sqrt{\frac{dc\Lambda_1\Lambda_2}{3(l\Lambda_1+c)}} \\