From a45d1e0ec6ddfb2816fc5df1cca2ad4a73ac1b25 Mon Sep 17 00:00:00 2001
From: JIMMY ZHAO <knightyzhao@gmail.com>
Date: Thu, 19 Sep 2024 00:11:06 -0400
Subject: [PATCH] =?UTF-8?q?=E5=87=B8=E8=B5=8C=E5=8D=9A=E6=9C=BA=E5=9C=A8?=
 =?UTF-8?q?=E7=BA=BF=E6=A2=AF=E5=BA=A6=E4=B8=8B=E9=99=8D+=E5=87=B8?=
 =?UTF-8?q?=E8=B5=8C=E5=8D=9A=E6=9C=BA=E7=BC=A9=E5=87=8F=E6=8A=95=E5=BD=B1?=
 =?UTF-8?q?=E7=9A=84=E8=AF=AF=E5=B7=AE?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/chapter1/chapter1.md |  14 ++--
 docs/chapter4/chapter4.md |   6 +-
 docs/chapter6/chapter6.md |   2 +-
 docs/chapter7/chapter7.md |  10 +--
 docs/chapter8/chapter8.md | 133 ++++++++++++++++++++++++++++++++++----
 5 files changed, 136 insertions(+), 29 deletions(-)

diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
index f5b1c69..fdba6aa 100644
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -185,7 +185,7 @@ $$
 
 1. **Hessian 矩阵条件**：若一个两次可微的函数 $f(x)$ 的 Hessian 矩阵 $H_f$ 在凸集中的所有 $x$ 处均为正定的（即矩阵的所有特征值为正），则该函数是强凸的。
 
-2. **梯度条件**：若一个可微函数 $f(x)$ 是强凸的，则存在一个常数 $m$，使得对于凸集中的任意 $x,y$，有 $||\nabla f(x) - \nabla f(y)||_2 \geq m ||x - y||_2$。其中，$\nabla f(x)$ 表示 $f(x)$ 在点 $x$ 处的梯度。
+2. **梯度条件**：若一个可微函数 $f(x)$ 是强凸的，则存在一个常数 $m$，使得对于凸集中的任意 $x,y$，有 $\|\nabla f(x) - \nabla f(y)\|_2 \geq m \|x - y\|_2$。其中，$\nabla f(x)$ 表示 $f(x)$ 在点 $x$ 处的梯度。
 
 直观上，对于强凸函数 $f(x)$，可以在任意一点处构造一个二次函数作为其下界。这一性质使得优化算法更加高效，并具有类似于 **P90** 中定理 7.2 的良好性质。
 
@@ -770,8 +770,8 @@ $$
 设 $\{X_t\}$ 是一个随机过程，$\{\mathcal{F}_t\}$ 是一个随时间 $t$ 变化的过滤（即包含随时间增加的所有信息的 σ-代数的序列）。当这个随机过程 $\{X_t\}$ 是鞅时，必须满足以下条件：
 
 1. **适应性（Adaptedness）**：对于每一个 $t$，$X_t$ 是 $\mathcal{F}_t$-可测的（即 $X_t$ 的值在时间 $t$ 时刻是已知信息的函数）。
-2. **积分性（Integrability）**：对于所有 $t$，$E[|X_t|] < \infty$。
-3. **鞅性质（Martingale Property）**：对于所有 $t$ 和 $s \geq t$，有 $E[X_s \mid \mathcal{F}_t] = X_t$。这意味着在已知当前时刻 $t$ 的信息 $\mathcal{F}_t$ 条件下，未来某个时刻 $s$ 的期望值等于当前时刻 $t$ 的值。
+2. **积分性（Integrability）**：对于所有 $t$，$\mathbb{E}[|X_t|] < \infty$。
+3. **鞅性质（Martingale Property）**：对于所有 $t$ 和 $s \geq t$，有 $\mathbb{E}[X_s \mid \mathcal{F}_t] = X_t$。这意味着在已知当前时刻 $t$ 的信息 $\mathcal{F}_t$ 条件下，未来某个时刻 $s$ 的期望值等于当前时刻 $t$ 的值。
 
 ### 直观解释
 
@@ -785,8 +785,8 @@ $$
 
 除了标准的鞅，还有两个相关的概念：
 
-1. **超鞅（Submartingale）**：若对于所有 $t$ 和 $s \geq t$，有 $E[X_s \mid \mathcal{F}_t] \geq X_t$，则称 $\{X_t\}$ 为超鞅（或上鞅）。
-2. **亚鞅（Supermartingale）**：若对于所有 $t$ 和 $s \geq t$，有 $E[X_s \mid \mathcal{F}_t] \leq X_t$，则称 $\{X_t\}$ 为亚鞅（或下鞅）。
+1. **超鞅（Submartingale）**：若对于所有 $t$ 和 $s \geq t$，有 $\mathbb{E}[X_s \mid \mathcal{F}_t] \geq X_t$，则称 $\{X_t\}$ 为超鞅（或上鞅）。
+2. **亚鞅（Supermartingale）**：若对于所有 $t$ 和 $s \geq t$，有 $\mathbb{E}[X_s \mid \mathcal{F}_t] \leq X_t$，则称 $\{X_t\}$ 为亚鞅（或下鞅）。
 
 一个区分超鞅和亚鞅的记忆方法是：“生活是一个超鞅：随着时间的推进，期望降低。”
 
@@ -795,7 +795,7 @@ $$
 鞅差 $D_t$ 定义为 $D_t = X_t - X_{t-1}$，鞅差序列（Martingale Difference Sequence）$\{D_t\}$ 则满足以下条件：
 
 1. **适应性（Adaptedness）**：对于每一个 $t$，$D_t$ 是 $\mathcal{F}_t$-可测的。
-2. **零条件期望（Zero Conditional Expectation）**：对于所有 $t$，有 $E[D_t \mid \mathcal{F}_{t-1}] = 0$，即在已知过去信息 $\mathcal{F}_{t-1}$ 的条件下，$D_t$ 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差，即每一步的变化是纯随机的。
+2. **零条件期望（Zero Conditional Expectation）**：对于所有 $t$，有 $\mathbb{E}[D_t \mid \mathcal{F}_{t-1}] = 0$，即在已知过去信息 $\mathcal{F}_{t-1}$ 的条件下，$D_t$ 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差，即每一步的变化是纯随机的。
 
 虽然鞅差序列中的每个元素的条件期望为零，但这并不意味着这些元素是独立的。相反，它们可以有复杂的依赖关系。鞅差序列的关键性质是每个元素在条件期望下为零，这使得它在分析鞅和集中不等式（如 Bernstein 不等式）中非常有用。
 
@@ -1098,7 +1098,7 @@ $$
 $$
 \begin{align}
 \mathbb{E}[|X+Y|^p] &\leq \mathbb{E}[(|X|+|Y|)|X+Y|^{p-1}] \\
-&= \mathbb{E}[|X||X+Y|^{p-1}] + \mathbb{E}[|Y||X+Y|^{p-1}] \\
+&= \mathbb{E}[|X\|X+Y|^{p-1}] + \mathbb{E}[|Y\|X+Y|^{p-1}] \\
 &\leq (\mathbb{E}[|X|^p])^{\frac{1}{p}} (\mathbb{E}[|X+Y|^{(p-1)q}])^{\frac{1}{q}} \\
 &\quad + (\mathbb{E}[|Y|^p])^{\frac{1}{p}} (\mathbb{E}[|X+Y|^{(p-1)q}])^{\frac{1}{q}} \\
 &= [(\mathbb{E}[|X|^p])^{\frac{1}{p}} + (\mathbb{E}[|Y|^p])^{\frac{1}{p}}] \cdot \frac{\mathbb{E}[|X+Y|^p]}{(\mathbb{E}[|X+Y|^p])^{\frac{1}{p}}}
diff --git a/docs/chapter4/chapter4.md b/docs/chapter4/chapter4.md
index 2195a10..5a3fcb9 100644
--- a/docs/chapter4/chapter4.md
+++ b/docs/chapter4/chapter4.md
@@ -143,7 +143,7 @@ $$
 在这个过程中，使用了式 4.16，通过给出任意置换下的情况，将期望问题转化为级数求和，进一步缩放成有关指数函数的公式：
 $$
 \begin{equation}
-\frac{1}{2m}\sum_{i=1}^{(2m)!}\mathbb{I}(|\hat E_{T_iD}(h)-\hat E_{T_iD'}(h)||)=\sum_{k\in[l]\\s.t.|2k/m-l/m|\geq\epsilon/2}\frac{\tbinom{l}{k}\tbinom{2m-l}{m-k}}{\tbinom{2m}{m}}
+\frac{1}{2m}\sum_{i=1}^{(2m)!}\mathbb{I}(|\hat E_{T_iD}(h)-\hat E_{T_iD'}(h)\|)=\sum_{k\in[l]\\s.t.|2k/m-l/m|\geq\epsilon/2}\frac{\tbinom{l}{k}\tbinom{2m-l}{m-k}}{\tbinom{2m}{m}}
 \end{equation}
 $$
 
@@ -282,7 +282,7 @@ $$
 
 **P79**提到，由经验损失（4.72）可知 $\Phi_\rho$ 最多是 $\frac{1}{\rho} - Lipschitz$。
 
-考虑由 Lipschitz 的定义证明。由拉格朗日中值定理我们得到 $|\Phi_\rho(x_1)-\Phi_\rho(x_2)|\leq|\Phi_\rho'(\xi)||x_1-x_2|$ ，由于 $\Phi_\rho$ 的表达式已经给出，我们可以直接计算其导数，得到 $|\Phi_\rho'(\xi)|\leq\frac{1}{\rho}$，因此根据定义我们可以得到 $\rho$-间隔损失函数是 $\frac{1}{\rho}-Lipschitz$ 函数。
+考虑由 Lipschitz 的定义证明。由拉格朗日中值定理我们得到 $|\Phi_\rho(x_1)-\Phi_\rho(x_2)|\leq|\Phi_\rho'(\xi)\|x_1-x_2|$ ，由于 $\Phi_\rho$ 的表达式已经给出，我们可以直接计算其导数，得到 $|\Phi_\rho'(\xi)|\leq\frac{1}{\rho}$，因此根据定义我们可以得到 $\rho$-间隔损失函数是 $\frac{1}{\rho}-Lipschitz$ 函数。
 
 ## 4.12【证明补充】引理4.7的补充
 
@@ -301,7 +301,7 @@ $$
 令 $\gamma'=\gamma u$，因为 $\Phi(·,\alpha)$为减函数，易知其最大值为$1/4$，因此有$\gamma'\in[0,1/4)\subseteq[0,1)$。此时带入引理4.3可得：
 $$
 \begin{equation}
-P(Z'\gt\gamma')\ge E[Z']-\gamma' \ge u-u\gamma = (1-\gamma)u
+P(Z'\gt\gamma')\ge \mathbb{E}[Z']-\gamma' \ge u-u\gamma = (1-\gamma)u
 \end{equation}
 $$
 
diff --git a/docs/chapter6/chapter6.md b/docs/chapter6/chapter6.md
index a007864..f3fafd2 100644
--- a/docs/chapter6/chapter6.md
+++ b/docs/chapter6/chapter6.md
@@ -159,7 +159,7 @@ $$
 首先，令 $L_j$ 表示区域 $\Omega(x,Z)$ 中第 $j$ 个属性的边长，我们可以得到 $Diam(\Omega(x,Z))$ 与 $L_j$ 的关系：
 $$
 \begin{align}
-Diam(\Omega(x,Z))&=sup_{x,x'\in\Omega}||x-x'||\\
+Diam(\Omega(x,Z))&=sup_{x,x'\in\Omega}\|x-x'\|\\
 &=\sqrt{\sum_{j=1}^dL_j^2}
 \end{align}
 $$
diff --git a/docs/chapter7/chapter7.md b/docs/chapter7/chapter7.md
index 6d9d2b6..878c798 100644
--- a/docs/chapter7/chapter7.md
+++ b/docs/chapter7/chapter7.md
@@ -15,10 +15,10 @@
 设 $\{x_k\}$ 是算法生成的迭代序列，我们可以根据以下公式来衡量算法的收敛率：
 $$
 \begin{equation}
-\lim_{t\rightarrow+\infty}\frac{||x_{t+1} - x^*||}{||x_t - x^*||^p} = C 
+\lim_{t\rightarrow+\infty}\frac{\|x_{t+1} - x^*\|}{\|x_t - x^*\|^p} = C 
 \end{equation}
 $$
-其中，$C$为收敛因子，$p$为收敛阶数，$x^*$ 表示最优解，$||.||$ 表示适当的范数。
+其中，$C$为收敛因子，$p$为收敛阶数，$x^*$ 表示最优解，$\|.\|$ 表示适当的范数。
 
 根据收敛率的不同情况，我们可以将其分类如下：
 1. **超线性收敛**：$p\ge1$，$C=0$，表明每次迭代都会使得误差减小，且减小的速度越来越快。特别地，当$p>1$时，称为$p$阶收敛。例如，$p=2$时称为平方收敛，$p=3$时称为立方收敛。
@@ -50,13 +50,13 @@ $$
 首先，如果目标函数满足 $\lambda$-强凸且 $\gamma$-光滑，那么根据第一章补充内容中的结论，我们有 $\gamma\ge\lambda$。这是因为对于任意 $\omega,\omega'$，光滑系数 $\gamma$ 被定义为：
 $$
 \begin{equation}
-f(\omega)\le f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\gamma}{2}||\omega-\omega'||^2
+f(\omega)\le f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\gamma}{2}\|\omega-\omega'\|^2
 \end{equation}
 $$
 而强凸系数 $\lambda$ 被定义为：
 $$
 \begin{equation}
-f(\omega)\ge f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\lambda}{2}||\omega-\omega'||^2
+f(\omega)\ge f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\lambda}{2}\|\omega-\omega'\|^2
 \end{equation}
 $$
 光滑系数 $\gamma$ 决定了 $f(\omega)$ 的上界，而强凸系数 $\lambda$ 决定了 $f(\omega)$ 的下界，因此光滑系数 $\gamma$ 不小于强凸系数 $\lambda$。
@@ -189,7 +189,7 @@ $$
 首先，（7.60）中第二个不等式的推导利用了Cauchy-Schwarz不等式（1.14），即 $\|x^Ty\|\le\|x\|\|y\|$。这里，我们令 $x=\underbrace{[1,\cdots,1]}_{T}$，$y=\underbrace{[\|\omega_1-w^*\|,\cdots,\|\omega_T-w^*\|]}_{T}$，则有：
 $$
 \begin{equation}
-|x^Ty|=\sum_{t=1}^T\|\omega_t-w^*\|\le \sqrt{T}\sqrt{\sum_{t=1}^T\|\omega_t-w^*\|^2}=|x||y|
+|x^Ty|=\sum_{t=1}^T\|\omega_t-w^*\|\le \sqrt{T}\sqrt{\sum_{t=1}^T\|\omega_t-w^*\|^2}=|x\|y|
 \end{equation}
 $$
 
diff --git a/docs/chapter8/chapter8.md b/docs/chapter8/chapter8.md
index eac60eb..1249663 100644
--- a/docs/chapter8/chapter8.md
+++ b/docs/chapter8/chapter8.md
@@ -58,17 +58,17 @@ $$
    \max_{x_1, x_2 \in D} \|x_1 - x_2\| \leq D
    $$
 
-3. **定义 1（凸函数）**：函数 $f : D arrow \mathbb{R}$ 是凸的，如果：
+3. **定义 1（凸函数）**：函数 $f : D \rightarrow \mathbb{R}$ 是凸的，如果：
    $$
    f(x_1) \geq f(x_2) + \nabla f(x_2)^\top (x_1 - x_2), \quad \forall x_1, x_2 \in D
    $$
 
-4. **定义 2（强凸函数）**：函数 $f : D arrow \mathbb{R}$ 是 $\lambda$-强凸的，如果：
+4. **定义 2（强凸函数）**：函数 $f : D \rightarrow \mathbb{R}$ 是 $\lambda$-强凸的，如果：
    $$
    f(x_1) \geq f(x_2) + \nabla f(x_2)^\top (x_1 - x_2) + \frac{\lambda}{2} \|x_1 - x_2\|^2, \quad \forall x_1, x_2 \in D
    $$
 
-5. **定义 3（指数凹函数）**：函数 $f : D arrow \mathbb{R}$ 是 $\alpha$-指数凹的（简称 $\alpha$-exp-concave），如果：
+5. **定义 3（指数凹函数）**：函数 $f : D \rightarrow \mathbb{R}$ 是 $\alpha$-指数凹的（简称 $\alpha$-exp-concave），如果：
    $$
    \exp(-\alpha f(x)) \text{ 是凹的}
    $$
@@ -136,7 +136,7 @@ $$
 
 
 
-## 8.3 【定理补充】随机多臂赌博机遗憾界
+## 8.3 【定理补充】随机多臂赌博机的遗憾界
 
 **P172**中定理8.3给出了随机多臂赌博机的遗憾界，我们在此基础上对部分证明过程进行补充。
 
@@ -157,12 +157,12 @@ $$
 \begin{align}
 \mathbb{E}[n_i^T]&\le\lceil\frac{2\ln T}{\Delta_i^2}\rceil+2\sum_{t=1}^{T-1}\sum_{p=1}^{t-1}\sum_{q=l}^{t-1}t^{-4} \\
 &\le\frac{2\ln T}{\Delta_i^2}+1+2\sum_{t=1}^{T-1}\sum_{p=1}^{t}\sum_{q=1}^{t}t^{-4} \\
-&\le\frac{2\ln T}{\Delta_i^2}+1+2\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2} 
+&\le\frac{2\ln T}{\Delta_i^2}+1+2\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2} 
 \end{align}
 $$
-根据$p$-级数判别法，当$p=2\gt1$时，级数收敛，因此$\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$是有界的。至于该级数的具体值，对定理的结论没有影响，因此我们可以将其视为一个常数，然后带入后续推导中。为了证明的完整性，我们对此进行简要说明。
+根据$p$-级数判别法，当$p=2\gt1$时，级数收敛，因此$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$是有界的。至于该级数的具体值，对定理的结论没有影响，因此我们可以将其视为一个常数，然后带入后续推导中。为了证明的完整性，我们对此进行简要说明。
 
-$\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$的取值在数学界被称为Basel问题，推导过程涉及诸多前置定理，感兴趣的读者可以查看这个[讲义](https://www.math.cmu.edu/~bwsulliv/basel-problem.pdf)。此处提供另一种在微积分变换中常见的缩放方法：
+$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$的取值在数学界被称为Basel问题，推导过程涉及诸多前置定理，感兴趣的读者可以查看这个[讲义](https://www.math.cmu.edu/~bwsulliv/basel-problem.pdf)。此处提供另一种在微积分变换中常见的缩放方法：
 $$
 \begin{align}
 \sum_{t=1}^{T-1}t^{-2}&\le1+\int_{1}^{T-1}\frac{1}{x^2}dx \\
@@ -173,12 +173,12 @@ $$
 对不等式两边同时取极限，可得：
 $$
 \begin{equation}
-\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}\le2
+\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}\le2
 \end{equation}
 $$
 代入（8.46），同样可得类似（8.47）的结论。
 
-这里继续沿用书中给出的$\lim_{Tarrow+\infty}\sum_{t=1}^{T}t^{-2}=\frac{\pi^2}{6}$，代入（8.46）得到遗憾界（8.47）：
+这里继续沿用书中给出的$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T}t^{-2}=\frac{\pi^2}{6}$，代入（8.46）得到遗憾界（8.47）：
 $$
 \begin{equation}
 \mathbb{E}[regret]\le\sum_{i=1}^{K}\frac{2\ln T}{\Delta_i^2}+O(1)
@@ -244,13 +244,120 @@ $$
 $$
 \begin{align}
 &\frac{\partial f(w)}{\partial w}=-2X^T(Y-w^T X)+2\lambda w = 0 \\
-arrow&X^TY = (X^TX + \lambda I)w \\
-arrow&w^* = (X^TX + \lambda I)^{-1}X^TY
+\rightarrow&X^TY = (X^TX + \lambda I)w \\
+\rightarrow&w^* = (X^TX + \lambda I)^{-1}X^TY
 \end{align}
 $$
 相比于每次传入新数据$(x_t,y_t)$时从头计算$w_t$，这里巧妙地利用了 Sherman-Morrison-Woodbury 公式将任何形如$(A+uv^T)^{-1}$的矩阵逆转化为可逆矩阵$A$和列向量$u,v$之间的运算，在$O(d^2)$的时间复杂度内完成参数的更新。
 
-## 8.6 【定理补充】凸赌博机的遗憾界
+
+
+## 8.6 【定理补充】凸赌博机的在线梯度下降
+
+
+**P182**中引理8.3给出了凸赌博机的随机版本在线梯度下降，我们在此给出完整的证明过程。
+
+设 $f_1, f_2, \dots, f_T: W \to \mathbb{R}$ 为一列凸且可微的函数，$\omega_1, \omega_2, \dots, \omega_T \in W$ 的定义满足 $\omega_1$ 为任意选取的点，且 $\omega_{t+1} = \Pi_W(\omega_t − \eta g_t)$，其中 $\eta > 0$，且 $g_1, \dots, g_T$ 是满足 $\mathbb{E}[g_t|\omega_t] = \nabla f_t(\omega_t)$ 的随机向量变量，且 $\|g_t\| \leq l$，其中 $l > 0$。则当 $\eta = \frac{\Lambda}{l\sqrt{T}}$ 时，有：
+
+$$
+\begin{equation}
+\sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t)] - \min_{\omega \in W} \sum_{t=1}^{T} f_t(\omega) \le l\Lambda \sqrt{T}
+\end{equation}
+$$
+
+**证明:**  
+设 $\omega^\star$ 为在 $W$ 中使 $\sum_{t=1}^{T} f_t(\omega)$ 最小化的点。由于 $f_t$ 是凸且可微的，我们可以使用梯度界定 $f_t(\omega_t)$ 和 $f_t(\omega^\star)$ 之间的差异：
+
+$$
+\begin{equation}
+f_t(\omega^\star) - f_t(\omega_t) \ge \nabla f_t(\omega_t)^\top (\omega^\star − \omega_t) = \mathbb{E}[g_t|\omega_t]^\top (\omega^\star − \omega_t)
+\end{equation}
+$$
+
+对该不等式取期望，得到：
+
+$$
+\begin{equation}
+\mathbb{E}[f_t(\omega_t) − f_t(\omega^\star)] \leq \mathbb{E}[g_t^\top (\omega_t − \omega^\star)]
+\end{equation}
+$$
+
+我们使用 $\|\omega_t − \omega^\star\|^2$ 作为潜在函数。注意到 $\|\Pi_W(\omega) − \omega^\star\| \leq \|\omega − \omega^\star\|$，因此：
+
+$$
+\begin{align}
+\|\omega_{t+1} − \omega^\star\|^2 &= \|\Pi_W(\omega_t − \eta g_t) − \omega^\star\|^2 \\
+&\leq \|\omega_t − \eta g_t − \omega^\star\|^2 \\
+&= \|\omega_t − \omega^\star\|^2 + \eta^2 \|g_t\|^2 − 2\eta (\omega_t − \omega^\star)^\top g_t \\
+&\leq \|\omega_t − \omega^\star\|^2 + \eta^2 l^2 − 2\eta (\omega_t − \omega^\star)^\top g_t
+\end{align}
+$$
+
+整理后得到：
+
+$$
+\begin{equation}
+g_t^\top (\omega_t − \omega^\star) \leq \frac{\|\omega_t − \omega^\star\|^2 − \|\omega_{t+1} − \omega^\star\|^2 + \eta^2 l^2}{2\eta}
+\end{equation}
+$$
+
+因此，我们有：
+
+$$
+\begin{align}
+\sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t)] − \sum_{t=1}^{T} f_t(\omega^\star) &= \sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t) − f_t(\omega^\star)] \\
+&\leq \sum_{t=1}^{T} \mathbb{E}[g_t^\top (\omega_t − \omega^\star)] \\
+&\leq \sum_{t=1}^{T} \mathbb{E} \left[\frac{\|\omega_t − \omega^\star\|^2 − \|\omega_{t+1} − \omega^\star\|^2 + \eta^2 l^2}{2\eta}\right] \\
+&= \frac{\mathbb{E}[\|\omega_1 − \omega^\star\|^2] - \mathbb{E}[\|\omega_{T+1} − \omega^\star\|^2]}{2\eta} + \frac{T \eta l^2}{2} \\
+&\le \frac{\mathbb{E}[\|\omega_1 − \omega^\star\|^2]}{2\eta} + \frac{T \eta l^2}{2} \\
+&\le \frac{\Lambda^2}{2\eta} + \frac{T \eta l^2}{2}
+\end{align}
+$$
+
+代入 $\eta = \frac{\Lambda}{l\sqrt{T}}$ 可得最终结果。
+
+
+
+## 8.7 【定理补充】凸赌博机的缩减投影误差
+
+**P182**中引理8.4给出了凸赌博机的缩减投影误差，我们在此给出完整的证明过程。
+
+设 $f_1, f_2, \dots, f_T: W \to \mathbb{R}$ 为一列凸且可微的函数且 $\forall \omega \in W,i \in [T]$ 满足 $|f_i(\omega)| \le c$，有：
+
+$$
+\min_{\omega \in (1−\alpha)W} \sum_{t=1}^T f_t(\omega) - \min_{\omega \in W} \sum_{t=1}^T f_t(\omega) \leq 2\alpha cT
+$$
+
+**证明：**  
+显然，$(1−\alpha)W \subseteq W$。因此，有：
+
+$$
+\min_{\omega \in (1−\alpha)W} \sum_{t=1}^T f_t(\omega) = \min_{\omega \in W} \sum_{t=1}^T f_t((1−\alpha)\omega)
+$$
+
+由于每个$f_t$是凸函数，且$0 \in W$，则我们有：
+
+$$
+\begin{align}
+\min_{\omega \in W} \sum_{t=1}^T f_t((1−\alpha)\omega) &\leq \min_{\omega \in W} \sum_{t=1}^T \alpha f_t(0) + (1−\alpha) f_t(\omega) \\
+&= \min_{\omega \in W} \sum_{t=1}^T \alpha (f_t(0) − f_t(\omega)) + f_t(\omega)
+\end{align}
+$$
+
+最后，由于对于任意$\omega \in W$和$t \in \{1, \dots, T\}$，我们有$|f_t(\omega)| \leq c$，因此可以得出：
+
+$$
+\begin{align}
+\sum_{t=1}^{T} \min_{\omega \in W} \alpha (f_t(0) − f_t(\omega)) + f_t(\omega) &\leq \min_{\omega \in W}\sum_{t=1}^{T} 2\alpha c + f_t(\omega) \\
+&= 2\alpha cT + \min_{\omega \in W} \sum_{t=1}^{T} f_t(\omega)
+\end{align}
+$$
+
+进行适当移项即可得原不等式。
+
+
+
+## 8.8 【定理补充】凸赌博机的遗憾界
 
 **P182**中定理8.5给出了凸赌博机的遗憾界，在证明开始时，作者对$\eta,\alpha,\delta$的取值进行了限定。我们可以发现这些取值不是很直观，证明给出的解释也较为分散，部分取值与证明略有出入，因此我们在此进行补充。
 
@@ -280,7 +387,7 @@ $$
 f(\delta^*)=O(T^{3/4})
 \end{equation}
 $$
-如果我们想加速收敛，则可将$\alpha$的取值与$\delta$相关联。根据上面的结论，当迭代次数$T$足够大时，必然有$\deltaarrow0$。因此，不妨取$\alpha=\frac{\delta}{\Lambda_1}$，代入（8.91）中并利用对钩函数$f(\delta)$的性质，得到：
+如果我们想加速收敛，则可将$\alpha$的取值与$\delta$相关联。根据上面的结论，当迭代次数$T$足够大时，必然有$\delta\rightarrow0$。因此，不妨取$\alpha=\frac{\delta}{\Lambda_1}$，代入（8.91）中并利用对钩函数$f(\delta)$的性质，得到：
 $$
 \begin{align}
 &\delta^*=T^{-1/4}\sqrt{\frac{dc\Lambda_1\Lambda_2}{3(l\Lambda_1+c)}} \\