Skip to content

Commit

Permalink
凸赌博机在线梯度下降+凸赌博机缩减投影的误差
Browse files Browse the repository at this point in the history
  • Loading branch information
zhimin-z committed Sep 19, 2024
1 parent b54a143 commit a45d1e0
Show file tree
Hide file tree
Showing 5 changed files with 136 additions and 29 deletions.
14 changes: 7 additions & 7 deletions docs/chapter1/chapter1.md
Original file line number Diff line number Diff line change
Expand Up @@ -185,7 +185,7 @@ $$

1. **Hessian 矩阵条件**:若一个两次可微的函数 $f(x)$ 的 Hessian 矩阵 $H_f$ 在凸集中的所有 $x$ 处均为正定的(即矩阵的所有特征值为正),则该函数是强凸的。

2. **梯度条件**:若一个可微函数 $f(x)$ 是强凸的,则存在一个常数 $m$,使得对于凸集中的任意 $x,y$,有 $||\nabla f(x) - \nabla f(y)||_2 \geq m ||x - y||_2$。其中,$\nabla f(x)$ 表示 $f(x)$ 在点 $x$ 处的梯度。
2. **梯度条件**:若一个可微函数 $f(x)$ 是强凸的,则存在一个常数 $m$,使得对于凸集中的任意 $x,y$,有 $\|\nabla f(x) - \nabla f(y)\|_2 \geq m \|x - y\|_2$。其中,$\nabla f(x)$ 表示 $f(x)$ 在点 $x$ 处的梯度。

直观上,对于强凸函数 $f(x)$,可以在任意一点处构造一个二次函数作为其下界。这一性质使得优化算法更加高效,并具有类似于 **P90** 中定理 7.2 的良好性质。

Expand Down Expand Up @@ -770,8 +770,8 @@ $$
设 $\{X_t\}$ 是一个随机过程,$\{\mathcal{F}_t\}$ 是一个随时间 $t$ 变化的过滤(即包含随时间增加的所有信息的 σ-代数的序列)。当这个随机过程 $\{X_t\}$ 是鞅时,必须满足以下条件:

1. **适应性(Adaptedness)**:对于每一个 $t$,$X_t$ 是 $\mathcal{F}_t$-可测的(即 $X_t$ 的值在时间 $t$ 时刻是已知信息的函数)。
2. **积分性(Integrability)**:对于所有 $t$,$E[|X_t|] < \infty$。
3. **鞅性质(Martingale Property)**:对于所有 $t$ 和 $s \geq t$,有 $E[X_s \mid \mathcal{F}_t] = X_t$。这意味着在已知当前时刻 $t$ 的信息 $\mathcal{F}_t$ 条件下,未来某个时刻 $s$ 的期望值等于当前时刻 $t$ 的值。
2. **积分性(Integrability)**:对于所有 $t$,$\mathbb{E}[|X_t|] < \infty$。
3. **鞅性质(Martingale Property)**:对于所有 $t$ 和 $s \geq t$,有 $\mathbb{E}[X_s \mid \mathcal{F}_t] = X_t$。这意味着在已知当前时刻 $t$ 的信息 $\mathcal{F}_t$ 条件下,未来某个时刻 $s$ 的期望值等于当前时刻 $t$ 的值。

### 直观解释

Expand All @@ -785,8 +785,8 @@ $$

除了标准的鞅,还有两个相关的概念:

1. **超鞅(Submartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $E[X_s \mid \mathcal{F}_t] \geq X_t$,则称 $\{X_t\}$ 为超鞅(或上鞅)。
2. **亚鞅(Supermartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $E[X_s \mid \mathcal{F}_t] \leq X_t$,则称 $\{X_t\}$ 为亚鞅(或下鞅)。
1. **超鞅(Submartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $\mathbb{E}[X_s \mid \mathcal{F}_t] \geq X_t$,则称 $\{X_t\}$ 为超鞅(或上鞅)。
2. **亚鞅(Supermartingale)**:若对于所有 $t$ 和 $s \geq t$,有 $\mathbb{E}[X_s \mid \mathcal{F}_t] \leq X_t$,则称 $\{X_t\}$ 为亚鞅(或下鞅)。

一个区分超鞅和亚鞅的记忆方法是:“生活是一个超鞅:随着时间的推进,期望降低。”

Expand All @@ -795,7 +795,7 @@ $$
鞅差 $D_t$ 定义为 $D_t = X_t - X_{t-1}$,鞅差序列(Martingale Difference Sequence)$\{D_t\}$ 则满足以下条件:

1. **适应性(Adaptedness)**:对于每一个 $t$,$D_t$ 是 $\mathcal{F}_t$-可测的。
2. **零条件期望(Zero Conditional Expectation)**:对于所有 $t$,有 $E[D_t \mid \mathcal{F}_{t-1}] = 0$,即在已知过去信息 $\mathcal{F}_{t-1}$ 的条件下,$D_t$ 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差,即每一步的变化是纯随机的。
2. **零条件期望(Zero Conditional Expectation)**:对于所有 $t$,有 $\mathbb{E}[D_t \mid \mathcal{F}_{t-1}] = 0$,即在已知过去信息 $\mathcal{F}_{t-1}$ 的条件下,$D_t$ 的条件期望为零。这意味着当前的观察值不提供对未来观察值的系统性偏差,即每一步的变化是纯随机的。

虽然鞅差序列中的每个元素的条件期望为零,但这并不意味着这些元素是独立的。相反,它们可以有复杂的依赖关系。鞅差序列的关键性质是每个元素在条件期望下为零,这使得它在分析鞅和集中不等式(如 Bernstein 不等式)中非常有用。

Expand Down Expand Up @@ -1098,7 +1098,7 @@ $$
$$
\begin{align}
\mathbb{E}[|X+Y|^p] &\leq \mathbb{E}[(|X|+|Y|)|X+Y|^{p-1}] \\
&= \mathbb{E}[|X||X+Y|^{p-1}] + \mathbb{E}[|Y||X+Y|^{p-1}] \\
&= \mathbb{E}[|X\|X+Y|^{p-1}] + \mathbb{E}[|Y\|X+Y|^{p-1}] \\
&\leq (\mathbb{E}[|X|^p])^{\frac{1}{p}} (\mathbb{E}[|X+Y|^{(p-1)q}])^{\frac{1}{q}} \\
&\quad + (\mathbb{E}[|Y|^p])^{\frac{1}{p}} (\mathbb{E}[|X+Y|^{(p-1)q}])^{\frac{1}{q}} \\
&= [(\mathbb{E}[|X|^p])^{\frac{1}{p}} + (\mathbb{E}[|Y|^p])^{\frac{1}{p}}] \cdot \frac{\mathbb{E}[|X+Y|^p]}{(\mathbb{E}[|X+Y|^p])^{\frac{1}{p}}}
Expand Down
6 changes: 3 additions & 3 deletions docs/chapter4/chapter4.md
Original file line number Diff line number Diff line change
Expand Up @@ -143,7 +143,7 @@ $$
在这个过程中,使用了式 4.16,通过给出任意置换下的情况,将期望问题转化为级数求和,进一步缩放成有关指数函数的公式:
$$
\begin{equation}
\frac{1}{2m}\sum_{i=1}^{(2m)!}\mathbb{I}(|\hat E_{T_iD}(h)-\hat E_{T_iD'}(h)||)=\sum_{k\in[l]\\s.t.|2k/m-l/m|\geq\epsilon/2}\frac{\tbinom{l}{k}\tbinom{2m-l}{m-k}}{\tbinom{2m}{m}}
\frac{1}{2m}\sum_{i=1}^{(2m)!}\mathbb{I}(|\hat E_{T_iD}(h)-\hat E_{T_iD'}(h)\|)=\sum_{k\in[l]\\s.t.|2k/m-l/m|\geq\epsilon/2}\frac{\tbinom{l}{k}\tbinom{2m-l}{m-k}}{\tbinom{2m}{m}}
\end{equation}
$$

Expand Down Expand Up @@ -282,7 +282,7 @@ $$

**P79**提到,由经验损失(4.72)可知 $\Phi_\rho$ 最多是 $\frac{1}{\rho} - Lipschitz$。

考虑由 Lipschitz 的定义证明。由拉格朗日中值定理我们得到 $|\Phi_\rho(x_1)-\Phi_\rho(x_2)|\leq|\Phi_\rho'(\xi)||x_1-x_2|$ ,由于 $\Phi_\rho$ 的表达式已经给出,我们可以直接计算其导数,得到 $|\Phi_\rho'(\xi)|\leq\frac{1}{\rho}$,因此根据定义我们可以得到 $\rho$-间隔损失函数是 $\frac{1}{\rho}-Lipschitz$ 函数。
考虑由 Lipschitz 的定义证明。由拉格朗日中值定理我们得到 $|\Phi_\rho(x_1)-\Phi_\rho(x_2)|\leq|\Phi_\rho'(\xi)\|x_1-x_2|$ ,由于 $\Phi_\rho$ 的表达式已经给出,我们可以直接计算其导数,得到 $|\Phi_\rho'(\xi)|\leq\frac{1}{\rho}$,因此根据定义我们可以得到 $\rho$-间隔损失函数是 $\frac{1}{\rho}-Lipschitz$ 函数。

## 4.12【证明补充】引理4.7的补充

Expand All @@ -301,7 +301,7 @@ $$
令 $\gamma'=\gamma u$,因为 $\Phi(·,\alpha)$为减函数,易知其最大值为$1/4$,因此有$\gamma'\in[0,1/4)\subseteq[0,1)$。此时带入引理4.3可得:
$$
\begin{equation}
P(Z'\gt\gamma')\ge E[Z']-\gamma' \ge u-u\gamma = (1-\gamma)u
P(Z'\gt\gamma')\ge \mathbb{E}[Z']-\gamma' \ge u-u\gamma = (1-\gamma)u
\end{equation}
$$

Expand Down
2 changes: 1 addition & 1 deletion docs/chapter6/chapter6.md
Original file line number Diff line number Diff line change
Expand Up @@ -159,7 +159,7 @@ $$
首先,令 $L_j$ 表示区域 $\Omega(x,Z)$ 中第 $j$ 个属性的边长,我们可以得到 $Diam(\Omega(x,Z))$ 与 $L_j$ 的关系:
$$
\begin{align}
Diam(\Omega(x,Z))&=sup_{x,x'\in\Omega}||x-x'||\\
Diam(\Omega(x,Z))&=sup_{x,x'\in\Omega}\|x-x'\|\\
&=\sqrt{\sum_{j=1}^dL_j^2}
\end{align}
$$
Expand Down
10 changes: 5 additions & 5 deletions docs/chapter7/chapter7.md
Original file line number Diff line number Diff line change
Expand Up @@ -15,10 +15,10 @@
设 $\{x_k\}$ 是算法生成的迭代序列,我们可以根据以下公式来衡量算法的收敛率:
$$
\begin{equation}
\lim_{t\rightarrow+\infty}\frac{||x_{t+1} - x^*||}{||x_t - x^*||^p} = C
\lim_{t\rightarrow+\infty}\frac{\|x_{t+1} - x^*\|}{\|x_t - x^*\|^p} = C
\end{equation}
$$
其中,$C$为收敛因子,$p$为收敛阶数,$x^*$ 表示最优解,$||.||$ 表示适当的范数。
其中,$C$为收敛因子,$p$为收敛阶数,$x^*$ 表示最优解,$\|.\|$ 表示适当的范数。

根据收敛率的不同情况,我们可以将其分类如下:
1. **超线性收敛**:$p\ge1$,$C=0$,表明每次迭代都会使得误差减小,且减小的速度越来越快。特别地,当$p>1$时,称为$p$阶收敛。例如,$p=2$时称为平方收敛,$p=3$时称为立方收敛。
Expand Down Expand Up @@ -50,13 +50,13 @@ $$
首先,如果目标函数满足 $\lambda$-强凸且 $\gamma$-光滑,那么根据第一章补充内容中的结论,我们有 $\gamma\ge\lambda$。这是因为对于任意 $\omega,\omega'$,光滑系数 $\gamma$ 被定义为:
$$
\begin{equation}
f(\omega)\le f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\gamma}{2}||\omega-\omega'||^2
f(\omega)\le f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\gamma}{2}\|\omega-\omega'\|^2
\end{equation}
$$
而强凸系数 $\lambda$ 被定义为:
$$
\begin{equation}
f(\omega)\ge f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\lambda}{2}||\omega-\omega'||^2
f(\omega)\ge f(\omega')+\nabla f(\omega')^T(\omega-\omega')+\frac{\lambda}{2}\|\omega-\omega'\|^2
\end{equation}
$$
光滑系数 $\gamma$ 决定了 $f(\omega)$ 的上界,而强凸系数 $\lambda$ 决定了 $f(\omega)$ 的下界,因此光滑系数 $\gamma$ 不小于强凸系数 $\lambda$。
Expand Down Expand Up @@ -189,7 +189,7 @@ $$
首先,(7.60)中第二个不等式的推导利用了Cauchy-Schwarz不等式(1.14),即 $\|x^Ty\|\le\|x\|\|y\|$。这里,我们令 $x=\underbrace{[1,\cdots,1]}_{T}$,$y=\underbrace{[\|\omega_1-w^*\|,\cdots,\|\omega_T-w^*\|]}_{T}$,则有:
$$
\begin{equation}
|x^Ty|=\sum_{t=1}^T\|\omega_t-w^*\|\le \sqrt{T}\sqrt{\sum_{t=1}^T\|\omega_t-w^*\|^2}=|x||y|
|x^Ty|=\sum_{t=1}^T\|\omega_t-w^*\|\le \sqrt{T}\sqrt{\sum_{t=1}^T\|\omega_t-w^*\|^2}=|x\|y|
\end{equation}
$$

Expand Down
133 changes: 120 additions & 13 deletions docs/chapter8/chapter8.md
Original file line number Diff line number Diff line change
Expand Up @@ -58,17 +58,17 @@ $$
\max_{x_1, x_2 \in D} \|x_1 - x_2\| \leq D
$$

3. **定义 1(凸函数)**:函数 $f : D arrow \mathbb{R}$ 是凸的,如果:
3. **定义 1(凸函数)**:函数 $f : D \rightarrow \mathbb{R}$ 是凸的,如果:
$$
f(x_1) \geq f(x_2) + \nabla f(x_2)^\top (x_1 - x_2), \quad \forall x_1, x_2 \in D
$$

4. **定义 2(强凸函数)**:函数 $f : D arrow \mathbb{R}$ 是 $\lambda$-强凸的,如果:
4. **定义 2(强凸函数)**:函数 $f : D \rightarrow \mathbb{R}$ 是 $\lambda$-强凸的,如果:
$$
f(x_1) \geq f(x_2) + \nabla f(x_2)^\top (x_1 - x_2) + \frac{\lambda}{2} \|x_1 - x_2\|^2, \quad \forall x_1, x_2 \in D
$$

5. **定义 3(指数凹函数)**:函数 $f : D arrow \mathbb{R}$ 是 $\alpha$-指数凹的(简称 $\alpha$-exp-concave),如果:
5. **定义 3(指数凹函数)**:函数 $f : D \rightarrow \mathbb{R}$ 是 $\alpha$-指数凹的(简称 $\alpha$-exp-concave),如果:
$$
\exp(-\alpha f(x)) \text{ 是凹的}
$$
Expand Down Expand Up @@ -136,7 +136,7 @@ $$



## 8.3 【定理补充】随机多臂赌博机遗憾界
## 8.3 【定理补充】随机多臂赌博机的遗憾界

**P172**中定理8.3给出了随机多臂赌博机的遗憾界,我们在此基础上对部分证明过程进行补充。

Expand All @@ -157,12 +157,12 @@ $$
\begin{align}
\mathbb{E}[n_i^T]&\le\lceil\frac{2\ln T}{\Delta_i^2}\rceil+2\sum_{t=1}^{T-1}\sum_{p=1}^{t-1}\sum_{q=l}^{t-1}t^{-4} \\
&\le\frac{2\ln T}{\Delta_i^2}+1+2\sum_{t=1}^{T-1}\sum_{p=1}^{t}\sum_{q=1}^{t}t^{-4} \\
&\le\frac{2\ln T}{\Delta_i^2}+1+2\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}
&\le\frac{2\ln T}{\Delta_i^2}+1+2\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}
\end{align}
$$
根据$p$-级数判别法,当$p=2\gt1$时,级数收敛,因此$\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$是有界的。至于该级数的具体值,对定理的结论没有影响,因此我们可以将其视为一个常数,然后带入后续推导中。为了证明的完整性,我们对此进行简要说明。
根据$p$-级数判别法,当$p=2\gt1$时,级数收敛,因此$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$是有界的。至于该级数的具体值,对定理的结论没有影响,因此我们可以将其视为一个常数,然后带入后续推导中。为了证明的完整性,我们对此进行简要说明。

$\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$的取值在数学界被称为Basel问题,推导过程涉及诸多前置定理,感兴趣的读者可以查看这个[讲义](https://www.math.cmu.edu/~bwsulliv/basel-problem.pdf)。此处提供另一种在微积分变换中常见的缩放方法:
$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}$的取值在数学界被称为Basel问题,推导过程涉及诸多前置定理,感兴趣的读者可以查看这个[讲义](https://www.math.cmu.edu/~bwsulliv/basel-problem.pdf)。此处提供另一种在微积分变换中常见的缩放方法:
$$
\begin{align}
\sum_{t=1}^{T-1}t^{-2}&\le1+\int_{1}^{T-1}\frac{1}{x^2}dx \\
Expand All @@ -173,12 +173,12 @@ $$
对不等式两边同时取极限,可得:
$$
\begin{equation}
\lim_{Tarrow+\infty}\sum_{t=1}^{T-1}t^{-2}\le2
\lim_{T\rightarrow+\infty}\sum_{t=1}^{T-1}t^{-2}\le2
\end{equation}
$$
代入(8.46),同样可得类似(8.47)的结论。

这里继续沿用书中给出的$\lim_{Tarrow+\infty}\sum_{t=1}^{T}t^{-2}=\frac{\pi^2}{6}$,代入(8.46)得到遗憾界(8.47):
这里继续沿用书中给出的$\lim_{T\rightarrow+\infty}\sum_{t=1}^{T}t^{-2}=\frac{\pi^2}{6}$,代入(8.46)得到遗憾界(8.47):
$$
\begin{equation}
\mathbb{E}[regret]\le\sum_{i=1}^{K}\frac{2\ln T}{\Delta_i^2}+O(1)
Expand Down Expand Up @@ -244,13 +244,120 @@ $$
$$
\begin{align}
&\frac{\partial f(w)}{\partial w}=-2X^T(Y-w^T X)+2\lambda w = 0 \\
arrow&X^TY = (X^TX + \lambda I)w \\
arrow&w^* = (X^TX + \lambda I)^{-1}X^TY
\rightarrow&X^TY = (X^TX + \lambda I)w \\
\rightarrow&w^* = (X^TX + \lambda I)^{-1}X^TY
\end{align}
$$
相比于每次传入新数据$(x_t,y_t)$时从头计算$w_t$,这里巧妙地利用了 Sherman-Morrison-Woodbury 公式将任何形如$(A+uv^T)^{-1}$的矩阵逆转化为可逆矩阵$A$和列向量$u,v$之间的运算,在$O(d^2)$的时间复杂度内完成参数的更新。

## 8.6 【定理补充】凸赌博机的遗憾界


## 8.6 【定理补充】凸赌博机的在线梯度下降


**P182**中引理8.3给出了凸赌博机的随机版本在线梯度下降,我们在此给出完整的证明过程。

设 $f_1, f_2, \dots, f_T: W \to \mathbb{R}$ 为一列凸且可微的函数,$\omega_1, \omega_2, \dots, \omega_T \in W$ 的定义满足 $\omega_1$ 为任意选取的点,且 $\omega_{t+1} = \Pi_W(\omega_t − \eta g_t)$,其中 $\eta > 0$,且 $g_1, \dots, g_T$ 是满足 $\mathbb{E}[g_t|\omega_t] = \nabla f_t(\omega_t)$ 的随机向量变量,且 $\|g_t\| \leq l$,其中 $l > 0$。则当 $\eta = \frac{\Lambda}{l\sqrt{T}}$ 时,有:

$$
\begin{equation}
\sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t)] - \min_{\omega \in W} \sum_{t=1}^{T} f_t(\omega) \le l\Lambda \sqrt{T}
\end{equation}
$$

**证明:**
设 $\omega^\star$ 为在 $W$ 中使 $\sum_{t=1}^{T} f_t(\omega)$ 最小化的点。由于 $f_t$ 是凸且可微的,我们可以使用梯度界定 $f_t(\omega_t)$ 和 $f_t(\omega^\star)$ 之间的差异:

$$
\begin{equation}
f_t(\omega^\star) - f_t(\omega_t) \ge \nabla f_t(\omega_t)^\top (\omega^\star − \omega_t) = \mathbb{E}[g_t|\omega_t]^\top (\omega^\star − \omega_t)
\end{equation}
$$

对该不等式取期望,得到:

$$
\begin{equation}
\mathbb{E}[f_t(\omega_t) − f_t(\omega^\star)] \leq \mathbb{E}[g_t^\top (\omega_t − \omega^\star)]
\end{equation}
$$

我们使用 $\|\omega_t − \omega^\star\|^2$ 作为潜在函数。注意到 $\|\Pi_W(\omega) − \omega^\star\| \leq \|\omega − \omega^\star\|$,因此:

$$
\begin{align}
\|\omega_{t+1} − \omega^\star\|^2 &= \|\Pi_W(\omega_t − \eta g_t) − \omega^\star\|^2 \\
&\leq \|\omega_t − \eta g_t − \omega^\star\|^2 \\
&= \|\omega_t − \omega^\star\|^2 + \eta^2 \|g_t\|^2 − 2\eta (\omega_t − \omega^\star)^\top g_t \\
&\leq \|\omega_t − \omega^\star\|^2 + \eta^2 l^2 − 2\eta (\omega_t − \omega^\star)^\top g_t
\end{align}
$$

整理后得到:

$$
\begin{equation}
g_t^\top (\omega_t − \omega^\star) \leq \frac{\|\omega_t − \omega^\star\|^2 − \|\omega_{t+1} − \omega^\star\|^2 + \eta^2 l^2}{2\eta}
\end{equation}
$$

因此,我们有:

$$
\begin{align}
\sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t)] − \sum_{t=1}^{T} f_t(\omega^\star) &= \sum_{t=1}^{T} \mathbb{E}[f_t(\omega_t) − f_t(\omega^\star)] \\
&\leq \sum_{t=1}^{T} \mathbb{E}[g_t^\top (\omega_t − \omega^\star)] \\
&\leq \sum_{t=1}^{T} \mathbb{E} \left[\frac{\|\omega_t − \omega^\star\|^2 − \|\omega_{t+1} − \omega^\star\|^2 + \eta^2 l^2}{2\eta}\right] \\
&= \frac{\mathbb{E}[\|\omega_1 − \omega^\star\|^2] - \mathbb{E}[\|\omega_{T+1} − \omega^\star\|^2]}{2\eta} + \frac{T \eta l^2}{2} \\
&\le \frac{\mathbb{E}[\|\omega_1 − \omega^\star\|^2]}{2\eta} + \frac{T \eta l^2}{2} \\
&\le \frac{\Lambda^2}{2\eta} + \frac{T \eta l^2}{2}
\end{align}
$$

代入 $\eta = \frac{\Lambda}{l\sqrt{T}}$ 可得最终结果。



## 8.7 【定理补充】凸赌博机的缩减投影误差

**P182**中引理8.4给出了凸赌博机的缩减投影误差,我们在此给出完整的证明过程。

设 $f_1, f_2, \dots, f_T: W \to \mathbb{R}$ 为一列凸且可微的函数且 $\forall \omega \in W,i \in [T]$ 满足 $|f_i(\omega)| \le c$,有:

$$
\min_{\omega \in (1−\alpha)W} \sum_{t=1}^T f_t(\omega) - \min_{\omega \in W} \sum_{t=1}^T f_t(\omega) \leq 2\alpha cT
$$

**证明:**
显然,$(1−\alpha)W \subseteq W$。因此,有:

$$
\min_{\omega \in (1−\alpha)W} \sum_{t=1}^T f_t(\omega) = \min_{\omega \in W} \sum_{t=1}^T f_t((1−\alpha)\omega)
$$

由于每个$f_t$是凸函数,且$0 \in W$,则我们有:

$$
\begin{align}
\min_{\omega \in W} \sum_{t=1}^T f_t((1−\alpha)\omega) &\leq \min_{\omega \in W} \sum_{t=1}^T \alpha f_t(0) + (1−\alpha) f_t(\omega) \\
&= \min_{\omega \in W} \sum_{t=1}^T \alpha (f_t(0) − f_t(\omega)) + f_t(\omega)
\end{align}
$$

最后,由于对于任意$\omega \in W$和$t \in \{1, \dots, T\}$,我们有$|f_t(\omega)| \leq c$,因此可以得出:

$$
\begin{align}
\sum_{t=1}^{T} \min_{\omega \in W} \alpha (f_t(0) − f_t(\omega)) + f_t(\omega) &\leq \min_{\omega \in W}\sum_{t=1}^{T} 2\alpha c + f_t(\omega) \\
&= 2\alpha cT + \min_{\omega \in W} \sum_{t=1}^{T} f_t(\omega)
\end{align}
$$

进行适当移项即可得原不等式。



## 8.8 【定理补充】凸赌博机的遗憾界

**P182**中定理8.5给出了凸赌博机的遗憾界,在证明开始时,作者对$\eta,\alpha,\delta$的取值进行了限定。我们可以发现这些取值不是很直观,证明给出的解释也较为分散,部分取值与证明略有出入,因此我们在此进行补充。

Expand Down Expand Up @@ -280,7 +387,7 @@ $$
f(\delta^*)=O(T^{3/4})
\end{equation}
$$
如果我们想加速收敛,则可将$\alpha$的取值与$\delta$相关联。根据上面的结论,当迭代次数$T$足够大时,必然有$\deltaarrow0$。因此,不妨取$\alpha=\frac{\delta}{\Lambda_1}$,代入(8.91)中并利用对钩函数$f(\delta)$的性质,得到:
如果我们想加速收敛,则可将$\alpha$的取值与$\delta$相关联。根据上面的结论,当迭代次数$T$足够大时,必然有$\delta\rightarrow0$。因此,不妨取$\alpha=\frac{\delta}{\Lambda_1}$,代入(8.91)中并利用对钩函数$f(\delta)$的性质,得到:
$$
\begin{align}
&\delta^*=T^{-1/4}\sqrt{\frac{dc\Lambda_1\Lambda_2}{3(l\Lambda_1+c)}} \\
Expand Down

0 comments on commit a45d1e0

Please sign in to comment.