随机梯度下降BGD,SGD,MBGD BGD每一步迭代都使用训练集的所有内容,会导致数据集很大时,运行速度很慢。相比于BGD,SGD每次随机抽取一个样本,以此来更新参数,SGD计算的更快, … Continue reading 【机器学习】优化器-Adam、Momentum
随机梯度下降BGD,SGD,MBGD BGD每一步迭代都使用训练集的所有内容,会导致数据集很大时,运行速度很慢。相比于BGD,SGD每次随机抽取一个样本,以此来更新参数,SGD计算的更快, … Continue reading 【机器学习】优化器-Adam、Momentum