神经网络与高斯过程会碰撞出怎样的火花?
本文中,我们先梳理出单隐层神经网络与高斯过程(GP)的关系,再将概念拓展到多隐层神经网络,然后讨论如何用 GP 来完成传统神经网络的任务,即学习和预测。
1 单隐层神经网络与NNGP
在如下图所示的全连接神经网络中:

函数的输出可以写为:

我们令网络的的所有参数服从高斯分布:




第 j个隐藏单元的输出的方差为:










定义:高斯过程是是一组变量的集合,这组变量的任意子集都服从多元高斯分布。[2]
其实,与其说高斯过程描述了这几个变量,不如说它描述的是一个函数的分布:
对于任意数量的输入,其对应的函数输出的联合概率分布都是多元高斯分布。
[1] 中的作者做了以下的实验来为验证这种高斯分布:



可以看到,随着 H逐渐变大,两个输出呈现出二元高斯分布(并且有明显的相关性)。
现在我们来直觉上理解一下这个结论的作用。




2 多隐层神经网络与NNGP
我们已经知道单隐层神经网络的每一维输出可以看作是一个高斯过程(GP),其实这个结论可以推广到多隐层全连接神经网络 [3]。







可以看到整个递归式中唯一非线性的部分就是激活函数ϕ 。这使得我们不能得到一个完全的解析式。幸运的是对于一些特定的激活函数,是可以有等价的解析式表达的。比如对于常用的 ReLU 函数,递归式就可以表示为如下的解析形式:

3 用NNGP做预测
在讲 NNGP 的预测方法前,我们需要先铺垫一个基础知识:多元高斯分布的条件概率分布。




其中:


现在我们就知道如何用 NNGP 做预测了:
记得我们前两节的结论是:对于全连接层神经网络,当网络参数服从高斯分布,且隐层宽度足够大时,其每一维度的输出都是一个高斯过程。
和常规 learning 问题一样,我们的数据集有两部分:训练集和测试集。

我们将它们记为向量的形式:





4 总结
传统神经网络与神经网络高斯过程(NNGP)最大的区别在于,后者没有显式的训练的过程(即通过 BP 调整参数),而是只借助了神经网络的结构信息(包括网络参数的分布,激活函数)来生成一个 kernel,即协方差矩阵。
我们甚至都不需要真的生成一个神经网络就可以得到 kernel:
假设我们用到是 ReLU 激活函数,那么从:

开始,到递归式:

都不需要涉及神经网络的具体参数。
除此之外,还可以直接指定一个 empirical 的协方差矩阵,比如平方指数(squared exponential)误差:


参考文献
[1] Neal R M. Bayesian learning for neural networks[M]. Springer Science & Business Media, 2012.
[2] Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M]. Cambridge, MA: MIT press, 2006.
[3] Lee J, Bahri Y, Novak R, et al. Deep neural networks as gaussian processes[J]. arXiv preprint arXiv:1711.00165, 2017.
[4] Roman Garnett. BAYESIAN OPTIMIZATION.
文章转自微信公众号@算法进阶
热门API
- 1. AI文本生成
- 2. AI图片生成_文生图
- 3. AI图片生成_图生图
- 4. AI图像编辑
- 5. AI视频生成_文生视频
- 6. AI视频生成_图生视频
- 7. AI语音合成_文生语音
- 8. AI文本生成(中国)
最新文章
- API和微服务:构筑现代软件架构的基石
- 如何免费调用高德经纬度定位API实现地理定位
- AI 驱动的 API 如何改变招聘:2024 年国内外顶级招聘相关API
- API治理:有效API管理的优秀实践和策略
- 企业 API 安全全解析:责任归属、最佳实践与 Boomi 控制平面管理
- WordPress: 从博客平台到AI驱动的内容管理巨人
- 2025 Mono 数据增强 API 使用指南|交易洞察与客户个性化服务实践
- 保险 APIs 应用:提升效率与客户体验
- Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读
- Look DS API 数字标牌实战手册:Zapier 零代码 + Direct API 高定制,一条链路降本 30%
- Axios 干净调用完全指南:拦截器 + 独立客户端,让前端代码优雅起飞
- 2025大学生暑假兼职新风口:从送外卖到做AI副业,你还在靠体力赚零花钱吗?