自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 决策树的建模与剪枝
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 在前面的两篇文章中,笔者首先介绍了决策树的基本思想;然后接着介绍了两种用于构建决策树的生成算法:ID3和C4.5。在这篇文章中,笔者将将通过sklearn库来实现对决策树分类算法的建模。 1 Scikit-learn建模 1.1...

2020-05-29 15:08:42 285 0

原创 决策树的生成之ID3与C4.5算法
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 1 基本概念 在正式介绍决策树的生成算法前,我们先将上一篇文章中介绍的几个概念重新梳理一下;并且同时再通过一个例子来熟悉一下计算过程,以便于后续更好的理解决策树的生成算法。 1.1 信息熵 设XXX是一个取值为有限个的离散型随机...

2020-05-27 18:53:34 108 0

原创 这就是决策树的思想
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 1 引例 经过前面的介绍,我们已经学习过了三个分类算法模型,包括逻辑回归、K近邻和朴素贝叶斯。今天我们来开始学习下一个分类算法模型决策树(Decision Tree)。一说到决策树其实很多人或多或少都已经用过,只是自己还不知道罢...

2020-05-25 19:49:37 406 0

原创 TF-IDF文本表示方法与词云图
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎搜索关注! 在前面的一篇文章中,我们介绍了两种基本的用于文本表示的词袋模型表示方法,两者之间的唯一区别就是一个考虑的词频而另外一个没有。下面我们再介绍另外一种应用更为常见和广泛的词袋模型表示方式——TFIDF表示方法。之所以陆续的会出现不同的向...

2020-05-22 16:41:55 305 0

原创 基于词袋模型的垃圾邮件分类
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎搜索关注! 在上一篇文章中我们介绍了用于文本表示的词袋模型,并且详细阐述了如何将文本表示成向量。其主要思想是对比词表中的每个词是否出现在样本中,如果样本中包含有该词,则词表对应位置就用1来表示,没有包含则用0表示,最终得到一个仅包含0,1的向量...

2020-05-21 19:17:24 288 0

原创 文本特征提取之词袋模型
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 1 引例 在前面几讲的示例介绍中,我们所用到的数据集都是别人已经处理好的数据集,换句话说这些数据集的每个特征维度都已经是数值了。但是在实际的建模任务中,我们拿到的数据集并不是这样的形式。例如接下来我们要完成的一个任务:对中文垃圾...

2020-05-20 15:23:25 637 0

原创 可能是最容易理解的朴素贝叶斯
原力计划

前面几讲笔者分别介绍了一种回归模型和两种分类模型以及模型的改善与泛化,今天笔者开始介绍下一个新的分类模型——朴素贝叶斯(Naive Bayes, NB)。那么什么又是朴素贝叶斯呢?从名字也可以看出,朴素贝叶斯算法与贝叶斯公式有着莫大的关联,说得简单点朴素贝叶斯就是由贝叶斯公式加“朴素”这一条件所构...

2020-05-19 19:17:12 155 0

原创 这样理解的K最近邻算法
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 1 引例 前面三讲笔者分别介绍了线性回归、逻辑回归以及模型的改善与泛化,今天笔者开始介绍下一个新的算法模型——K近邻(K-nearest neighbor, KNN)。那么什么又是K近邻呢? 某一天,你和你的几位小伙伴准备去外面...

2020-05-18 19:18:06 160 0

原创 模型的改善与泛化(手写体识别)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 经过前面五篇文章的介绍,我们对模型的改善与泛化算了有了一定的认识与了解。下面笔者就通过一个实际的手写体分类任务来做一个示范,介绍一下常见的操作流程。并同时顺便介绍一下sklearn和matplotlib中常见方法的使用。 1 数...

2020-05-15 19:32:16 226 0

原创 模型的改善与泛化(偏差方差与交叉验证)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 上一篇文章笔者介绍了什么是正则化,以及正则化为什么能够缓解过拟合的原理。从上一篇文章的内容我们可以知道,越是复杂的模型越是可能产生过拟合的现象,这也就为模型在其它未知数据集上的预测带来了误差。但是这些误差来自哪里,是怎么产生的呢...

2020-05-14 19:18:50 144 0

原创 L2正则化为什么能够使得模型更简单?全是因为
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 从上一篇文章的介绍可以知道,模型产生过拟合的现象表现为:在训练集上误差较小,而在测试集上误差较大。并且笔者还说到,之所以产生过拟合现象是由于训练数据中存在一定的噪音,而我们为了尽可能的做到拟合每一个样本点(包括噪音),往往就会使...

2020-05-13 19:40:19 650 0

原创 RNN和LSTM中batchsize和timestep的区别是什么?

RNN和LSTM中batchsize和timestep的区别是什么? 首先需要明确的概念是:batchsize指的是一次喂入网络的样本数,属于样本数量上的概念;而timestep指的是每个样本内包含有多少个时刻(步长),属于每个样本内部的概念。既然题主提出了这样的疑问,说明对于LSTM的细节之处尚...

2020-05-12 21:30:19 822 0

原创 模型的改善与泛化(过拟合)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 1 拟合 在上一篇文章中,我们介绍了为什么要对特征维度进行标准化,不标准化会带来什么样的后果,以及一种常见的标准化方法;同时我们还从另外一个角度(特征映射)介绍了如何将原始的低纬特征通过多项式映射到高维特征,以此来解决分线性的拟...

2020-05-12 21:27:10 437 0

原创 模型的改善与泛化(梯度与等高线)

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 在上一篇文章中,笔者介绍了什么是等高线,并且还同时直接给出了梯度的垂直于等高线的结论,但是并没有介绍为什么。因此本篇文章就来大致介绍一下梯度为什么会垂直于等高线。 设f(x,y)=cf(x,y)=cf(x,y)=c为平面上...

2020-05-11 19:55:07 163 0

原创 模型改善与泛化(标准化与特征映射)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 0 前言 经过前面两讲的内容,我们完成了对线性回归(Linear Regression)和逻辑回归(Logistics Regression)核心内容的学习,但是一些涉及到模型改善(Optimization)与泛化(Genera...

2020-05-11 19:50:28 205 0

原创 逻辑回归(目标函数推导)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 0 前言 前面几篇文章笔者详细的介绍了什么是逻辑回归、如何进行多分类、以及分类任务对应的评价指标等,算是完成了前面第一个阶段的学习。但是到目前为止仍旧有一些问题没有解决,映射函数g(z)g(z)g(z)长什么样?逻辑回归的目标函...

2020-05-07 20:04:06 616 0

原创 逻辑回归(混淆矩阵与评估指标)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 1 多变量逻辑回归 上一篇文章中笔者对于什么是逻辑回归,以及它能用来干什么做了一个详细的介绍;同时,对于如何通过开源库进行建模训练并预测也给出了详细的示例,并对训练得到的决策边界进行了可视化。因此,本篇文章将主要围绕多变量逻辑回...

2020-05-06 19:43:22 318 0

原创 逻辑回归(模型的建立与求解)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 0 前言 在上一讲中,笔者通过五篇文章来详细的介绍了线性回归模型,那么本讲开始继续介绍下一个经典的机器学习算法逻辑回归(Logistics Regression)。 如图所示为逻辑回归模型学习的大致路线,同样也分为三个阶段...

2020-05-05 19:54:15 367 0

原创 线性回归(目标函数的推导)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 1 线性回归 1.1 目标函数 经过前面多篇文章的介绍,我们知道了什么是线性回归、怎么转换求解问题、如何通过sklearn进行建模并求解以及梯度下降法的原理与推导。同时,在上一篇文章中我们还通过一个故事来交代了最小二乘法的来历,...

2020-05-01 08:44:33 230 0

转载 神说要有正态分布,于是就有了正态分布。
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差服从了正态分布。 — 创世纪—数理统计 一个问题的出现 故事发生的时间是 18 世纪中到 19 世纪初。17、18 世纪是科学发展的黄金年代,微积分的发展...

2020-05-01 08:41:20 194 0

提示
确定要删除当前文章?
取消 删除