调参工程学 - 梯度下降优化方法
梯度下降是一个最优化算法。在深度学习中,通过梯度下降来找到损失函数的(局部)最小值,进而获得各个参数的值。 梯度下降最直观的解释如图所示,在山上某处,沿着最陡的方向向下,直到能到达的最低点。 虽然各个深度学习框架封装了若干常用的梯度下降算法,可以当做黑盒来使用,但是作为调参工程
梯度下降是一个最优化算法。在深度学习中,通过梯度下降来找到损失函数的(局部)最小值,进而获得各个参数的值。 梯度下降最直观的解释如图所示,在山上某处,沿着最陡的方向向下,直到能到达的最低点。 虽然各个深度学习框架封装了若干常用的梯度下降算法,可以当做黑盒来使用,但是作为调参工程
九月中旬鹏哥给我打电话,让我给新入学的大一新生们写点东西,告诉他们我的大学四年是怎么样走过来的,然而国庆大东北去浪了,这件事情丢得一干二净。昨天鹏哥电话来催账了,才想起这件忘记得差不多的事情。 写给大一的新生,教他们怎么进入这个领域,如何去成长。教别人,这是一件大事。无论是工
调参对深度学习的效果异常重要,甚至经常开玩笑说这是一门调参工程学。而 Weight Initialization 对模型收敛速度和模型质量有重要影响。 # 深度学习的参数 深度学习的参数分为超参(hyper parameters)和普通参数。超参是模型开始训练前,人工指定的参
Java 在代码中通过使用 try{}catch(){}finally{} 块来对异常进行捕获或者处理。但是对于 JVM 来说,是如何处理 try/catch 代码块与异常的呢。 实际上 Java 编译后,会在
某人心心念念的rmbp终于到手了,然而我还在杭州没法帮忙各种配置,这里就写一份教程好了,自己拿去照着撸吧( ̄︶ ̄)↗ ps. 毕竟你的是高大上的17带bar rmbp。。。然而,bar的操作我都!不!知!道! 大概介绍 macOS 的一些基本操作以及常见的软件、开发环境的搭建。
Java内存模型,即 Java Memory Model(JMM),定义了 Java 虚拟机在计算机内存的工作方式。现在的 Java 内存模型主要源于1.5版本。 缓存与一致性在计算机中,不同硬件的处理速度不同,往往有几个数量级的差距。比如 CPU 的处理速度往往高于内存数个数量
逻辑斯谛回归(Logistic regression)是统计学习中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。逻辑斯谛回归模型与最大熵模型都是属于对数线性模型。 逻辑斯谛回归模型逻辑斯谛分布的分布函数和密度函数如下: $$F(x) =
决策树是一种基本的分类与回归方法。模型可读性强,分类速度快,可以认为是 if-then 规则的集合。 决策树模型与学习分类决策树模型是一种描述对实例进行分类的树形结构。内部节点表示特征或者属性,叶节点表示一个类。分类时,从根节点开始,对实例某一特征进行测试,根据测试结果分配到子节
朴素贝叶斯(naïve Bayes)法是基于被也是定力与特征条件独立假设的分布方法。首先对于训练数据集,基于特征条件独立假设学习输入输出的联合概率分布,然后对于给定的输入,利用贝叶斯定理求出后验概率最大的输出。 朴素贝叶斯法的学习与分类朴素贝叶斯法是典型的生成学习方法。利用训练数
k 近邻法(knn)是一种基本的分类与回归方法。这里只讨论分类问题。knn 分类可以简单理解为,找到距离输入实例最近的 k 个训练数据集中的实例点,其中多数属于某个类,则新输入的实例也属于某个类。 knn 算法根据上述描述,其算法表示为: $$y=\arg \max \