Skip to content

Commit

Permalink
add more catalog
Browse files Browse the repository at this point in the history
  • Loading branch information
zhimin-z committed Nov 18, 2024
1 parent 7db6782 commit 55562f3
Showing 1 changed file with 18 additions and 8 deletions.
26 changes: 18 additions & 8 deletions docs/catalog.md
Original file line number Diff line number Diff line change
Expand Up @@ -42,21 +42,31 @@

-- 王茂霖

## 关于机器学习理论与实践
### 理论为实践提供方向

随着机器学习的蓬勃发展,**SOTA(State-of-the-art,最先进技术)**几乎成了评判算法优劣的唯一标准。这种对表面表现的单一追求,常常忽视了支撑其背后的基础理论。正如硅谷投资人吴军曾指出的,最顶尖的科学家通过理论设定学科的边界,赋予未来研究者方向和框架。1936年,图灵在其著名的论文中为可计算性理论奠定了基础,定义了哪些问题可以通过算法解决。同样,机器学习领域的研究者只有具备深厚的理论根基,才能在实践中面对瓶颈时不至于迷失,而是继续探索,甚至开拓新的领域
随着机器学习的蓬勃发展,**SOTA(State-of-the-art,最先进技术)**几乎成了评判算法优劣的唯一标准。然而,这种对表面表现的单一追求,往往忽视了支撑其背后的基础理论。正如硅谷投资人吴军所言,顶尖科学家通过理论设定学科的边界,赋予未来研究者方向和框架。1936年,图灵在其著名论文中奠定了可计算性理论的基础,定义了哪些问题可以通过算法解决。同样,机器学习研究者只有具备深厚的理论根基,才能在实践中面对瓶颈时不迷失方向,而是继续探索,甚至开辟新的研究领域

**没有免费午餐定理(No Free Lunch Theorem)**便是一个鲜明的例子。该定理告诉我们,不存在一种能够应对所有问题的通用算法。尽管许多算法在特定领域或时间点看似“无敌”,如神经网络的兴起,但每个算法的优势往往局限于特定的任务和环境。因此,过度依赖某一种算法的短期成功,可能导致长期陷入困境。通过理论学习,研究者能够意识到这种局限,并避免在实践中过分追逐SOTA,而忽视更为长远的技术路线。
理论研究的重要性在**没有免费午餐定理(No Free Lunch Theorem)**中得到了充分体现。该定理明确指出,不存在一种能够适用于所有问题的通用算法。虽然某些算法在特定领域或时间点可能表现出色,如神经网络的崛起,但其优势通常仅限于特定任务和环境。盲目追求某一种算法的短期成功,可能导致在长期发展中陷入困境。通过理论学习,研究者能够识别这些局限,避免在实践中一味追逐SOTA,而忽视更为长远的技术路线。

当然,理论和实践之间的差距依然存在。许多理论假设在现实应用中并不完全成立,尤其是在面对大数据和复杂模型时,理论的指导可能显得力不从心。但这并不意味着理论无用,恰恰相反,这正是学科发展的驱动力。正如机器学习的发展史所示,当实践进展遇到瓶颈时,往往是理论创新引领了新的突破。例如,在早期,受限于数据和算力,机器学习中的理论研究主导了整个领域的发展;而到了互联网时代,随着数据量的指数级增长和计算资源的提升,实践逐渐超越了理论。如今,面对数据、能源和算力等问题的挑战,理论又重新成为了优化模型效率和算法性能的焦点
1987年,Hecht-Nielsen证明了任何连续的多元函数都可以通过特定的三层神经网络实现。这一成果在神经网络领域引发了广泛讨论。随后,Ismailov进一步扩展了这一理论,证明即使是不连续的函数,也可以通过类似的神经网络实现。这些研究不仅揭示了神经网络在函数逼近中的强大能力,还为模型的泛化性能提供了新的理论支持。这再次说明,机器学习理论不仅帮助我们理解现有模型的潜力,还能为未来的算法设计和改进奠定坚实的基础

一个鲜明的例子是,近期在 ICLR 2024 大会上,斯隆奖得主马腾宇及其团队通过数学方法证明了Transformer 模型具备模拟任意多项式规模数字电路的能力。这一成果表明,随着**思维链(Chain of Thought, CoT)**的不断延展,Transformer能够有效地处理更为复杂的问题。 这项研究不仅展示了理论在推动前沿技术进步中的重要性,还让我们认识到,尽管外界对数据质量不足、模型的算力需求以及能源消耗提出了诸多质疑,但这些问题并非不可逾越。通过深入学习机器学习理论,我们可以更好地理解这些挑战,意识到它们实际上是迈向**通用人工智能(AGI)**过程中必须面对和解决的关键节点。
### 理论与实践的相互成就

不仅如此,理论学习还有助于我们建立对算法泛化能力的深刻理解。通过对机器学习理论的深入研究,我们能够推导出在不同假设条件下,算法的性能极限。比如,我们可以评估某一算法的收敛速度,预测其在不同数据量和模型复杂度下的表现。这些理论工具不仅提高了研究的严谨性,还为实际应用提供了有力的指导。例如,正是通过理论推导,我们能够理解大规模语言模型的训练为何需要如此庞大的数据集,同时又能预见在某些任务上微调模型的效果
然而,理论与实践之间的差距始终存在。许多理论假设在现实应用中可能难以完全成立,特别是在处理大数据和复杂模型时,理论的指导似乎显得力不从心。然而,这并不意味着理论无用,恰恰相反,这正是推动学科发展的驱动力。机器学习的发展史表明,当实践遭遇瓶颈时,往往是理论的创新带来了新的突破。例如,在早期,受限于数据和算力,理论研究主导了机器学习的发展;而在互联网时代,随着数据量的指数级增长和计算资源的提升,实践逐渐超越理论。如今,面对数据、能源和算力的挑战,理论再次成为优化模型效率和提升算法性能的关键

最后,掌握机器学习理论不仅能够为初学者奠定坚实的基础,增强他们的信心,还能帮助他们在面对外界质疑时保持理性和清醒的判断。无论是在研究中追求算法的提升,还是在实践中应对现实的挑战,理论的力量都不可或缺。在本书的编撰中,我们特别对部分证明进行了必要的诠释和展开,主要集中在原书中存在流畅性不足的内容,或那些虽提供了参考文献但证明篇幅不超过5页的论述。对于超出5页的文献,我们建议读者直接参阅原文,以便进行更深入的探究;此类情况在本书中出现频率较低,约不超过五处
每当实践遇到瓶颈,理论创新总能带来突破。Transformer模型便是一个典型例子。近年来,Transformer凭借其强大的任务处理能力成为机器学习领域的明星模型。近期在ICLR 2024大会上,斯隆奖得主马腾宇及其团队通过数学方法证明,Transformer模型可以模拟任意多项式规模的数字电路。这一成果为其在复杂任务中的潜力提供了理论支持。与此同时,Yun等人通过严谨的数学分析,证明了Transformer模型是紧支撑的连续置换等变序列到序列函数的通用逼近器。这些研究进一步揭示了Transformer模型在更广泛任务中的成功背后深层次的理论基础。这些成果不仅帮助我们更深入理解复杂模型的本质,还为未来的模型设计和优化提供了新方向

-- 赵志民
### 理论驱动的未来

理论学习不仅帮助我们理解模型的潜在能力,还为算法的泛化能力提供了深入洞见。通过研究机器学习理论,可以推导出算法在不同假设条件下的性能极限。例如,理论研究可以帮助我们评估算法的收敛速度,预测其在不同数据量和模型复杂度下的表现。这些理论工具不仅提高了研究的严谨性,还为实际应用提供了重要的指导。例如,通过理论分析,我们理解了为什么大规模语言模型的训练需要如此庞大的数据集,以及在某些任务上微调模型的优势。

结合神经网络和Transformer模型的理论进展,我们可以看到,理论贯穿了机器学习发展的每一个阶段。从最初的多层感知器到如今的大规模语言模型,理论研究不仅为算法性能提升提供了保障,也为未来技术发展奠定了稳固的基石。在追求SOTA的过程中,我们不能忽视理论的重要性,因为深刻的理论洞见是应对长期挑战、推动技术演进的关键。

最后,掌握机器学习理论不仅能够为初学者奠定坚实的基础,增强他们的信心,还能帮助他们在面对外界质疑时保持理性和清醒的判断。无论是在研究中提升算法,还是在实践中应对现实挑战,理论的力量都不可或缺。在本书的编撰中,我们特别对部分证明进行了必要的诠释和展开,主要集中于原书中流畅性不足的内容,或那些虽提供了参考文献但证明篇幅不超过5页的论述。对于超出5页的文献,我们建议读者直接参阅原文,以便更深入地探究;此类情况在本书中出现频率较低,约不超过五处。

通过深入学习机器学习理论,我们不仅能够更好地理解当前的挑战,还能认识到这些问题实际上是迈向**通用人工智能(AGI)**过程中必须面对和解决的关键节点。

——赵志民

## 项目成员贡献与特别鸣谢

Expand Down

0 comments on commit 55562f3

Please sign in to comment.