自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (18)
  • 论坛 (4)
  • 问答 (4)
  • 收藏
  • 关注

原创 决策树的建模与剪枝
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在前面的两篇文章中,笔者首先介绍了决策树的基本思想;然后接着介绍了两种用于构建决策树的生成算法:ID3和C4.5。在这篇文章中,笔者将将通过sklearn库来实现对决策树分类算法的建模。1 Scikit-learn建模1.1 Scikit-learn接口介绍清楚决策树的生成算法后,再利用sklearn来进行建模就变得十分容易了。顺便多说两句,由于sklearn在实现各类算法模型时基本上都遵循了同一的接口风格,这使得我们在刚开始学习的

2020-05-29 15:08:42 316

原创 决策树的生成之ID3与C4.5算法
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 基本概念在正式介绍决策树的生成算法前,我们先将上一篇文章中介绍的几个概念重新梳理一下;并且同时再通过一个例子来熟悉一下计算过程,以便于后续更好的理解决策树的生成算法。1.1 信息熵设XXX是一个取值为有限个的离散型随机变量(例如前一篇引例中可能夺冠的16只球队),其概率分布为P(X=xi)=pi,  i=1,2,...,nP(X=x_i)=p_i,\;i=1,2,...,nP(X=xi​)=pi​,i=1,2,...,n(每个球

2020-05-27 18:53:34 140

原创 这就是决策树的思想
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 引例经过前面的介绍,我们已经学习过了三个分类算法模型,包括逻辑回归、K近邻和朴素贝叶斯。今天我们来开始学习下一个分类算法模型决策树(Decision Tree)。一说到决策树其实很多人或多或少都已经用过,只是自己还不知道罢了。例如最简单的决策树就是通过输入年龄,判读其是否为成年人,即if age >= 18 return True,想想自己是不是经常用到这样的语句?关于什么是决策树,我们先来看这么一个例子。假如我错过了某次世

2020-05-25 19:49:37 465

原创 TF-IDF文本表示方法与词云图
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎搜索关注!在前面的一篇文章中,我们介绍了两种基本的用于文本表示的词袋模型表示方法,两者之间的唯一区别就是一个考虑的词频而另外一个没有。下面我们再介绍另外一种应用更为常见和广泛的词袋模型表示方式——TFIDF表示方法。之所以陆续的会出现不同的向量化表示形式,其最终目的都只有一个,即尽可能准确的对原始文本进行表示。1 TF-IDFTF-IDF为**词频-逆文档频率(term frequence - inverse document frequence)

2020-05-22 16:41:55 591

原创 基于词袋模型的垃圾邮件分类
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎搜索关注!在上一篇文章中我们介绍了用于文本表示的词袋模型,并且详细阐述了如何将文本表示成向量。其主要思想是对比词表中的每个词是否出现在样本中,如果样本中包含有该词,则词表对应位置就用1来表示,没有包含则用0表示,最终得到一个仅包含0,1的向量来表示一个样本。但这是这样做的弊端之一就是:没有考虑到词的出现频率,即不管一个词出现了多少次,最后都仅仅用1来表示其出现过。因此,在这篇文章中笔者将首先介绍另外一个种考虑词频的词袋表示模型,然再用这种文本表示进行垃

2020-05-21 19:17:24 377

原创 文本特征提取之词袋模型
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 引例在前面几讲的示例介绍中,我们所用到的数据集都是别人已经处理好的数据集,换句话说这些数据集的每个特征维度都已经是数值了。但是在实际的建模任务中,我们拿到的数据集并不是这样的形式。例如接下来我们要完成的一个任务:对中文垃圾邮件进行分类。为什么两个人在一起会有爱情呢? 爱真的需要勇气 把自己的内心毫无保留的展示给对方 也勇敢的去 接受对方的点点滴滴,过去的事情虽然不能再改变什么,但是 看了你的贴子,你说你不需要建议. 我想问你个问

2020-05-20 15:23:25 948

原创 可能是最容易理解的朴素贝叶斯
原力计划

前面几讲笔者分别介绍了一种回归模型和两种分类模型以及模型的改善与泛化,今天笔者开始介绍下一个新的分类模型——朴素贝叶斯(Naive Bayes, NB)。那么什么又是朴素贝叶斯呢?从名字也可以看出,朴素贝叶斯算法与贝叶斯公式有着莫大的关联,说得简单点朴素贝叶斯就是由贝叶斯公式加“朴素”这一条件所构成的算法。1 朴素贝叶斯算法在看贝叶斯算法的相关内容时,你一定被突如其来的数学概念搞得头昏脑涨。比如极大似然估计(Maximum likelihood estimation ),极大后验概率估计(Maximum

2020-05-19 19:17:12 181

原创 这样理解的K最近邻算法
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 引例前面三讲笔者分别介绍了线性回归、逻辑回归以及模型的改善与泛化,今天笔者开始介绍下一个新的算法模型——K近邻(K-nearest neighbor, KNN)。那么什么又是K近邻呢?某一天,你和你的几位小伙伴准备去外面聚餐,但是就晚上吃什么一直各持己见。最后,无奈聪明的你提出用投票的方式来进行选择。于是你们每个人都将自己想要吃的东西写在了字条上,最后的统计情况是:三个人赞成吃火锅、两个人赞成吃炒菜、一个人赞成吃自助。当然,最后你

2020-05-18 19:18:06 200

原创 模型的改善与泛化(手写体识别)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!经过前面五篇文章的介绍,我们对模型的改善与泛化算了有了一定的认识与了解。下面笔者就通过一个实际的手写体分类任务来做一个示范,介绍一下常见的操作流程。并同时顺便介绍一下sklearn和matplotlib中常见方法的使用。1 数据集1.1 导入数据集本次我们用到的是sklearn中内置的一个数据集digits手写体,可以通过如下代码进行导入:from sklearn.datasets import load_digitsfrom

2020-05-15 19:32:16 275

原创 模型的改善与泛化(偏差方差与交叉验证)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!上一篇文章笔者介绍了什么是正则化,以及正则化为什么能够缓解过拟合的原理。从上一篇文章的内容我们可以知道,越是复杂的模型越是可能产生过拟合的现象,这也就为模型在其它未知数据集上的预测带来了误差。但是这些误差来自哪里,是怎么产生的呢?知道这些误差的来源后对改善我们的模型有什么样的帮助呢?下面这篇文章笔者就来介绍关于误差分析以及模型选择的若干方法。1 偏差与方差1.1 定义在机器学习的建模中,模型普遍的误差都是来自于偏差(bias)和方差

2020-05-14 19:18:50 201

原创 L2正则化为什么能够使得模型更简单?全是因为
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!从上一篇文章的介绍可以知道,模型产生过拟合的现象表现为:在训练集上误差较小,而在测试集上误差较大。并且笔者还说到,之所以产生过拟合现象是由于训练数据中存在一定的噪音,而我们为了尽可能的做到拟合每一个样本点(包括噪音),往往就会使用复杂的模型。最终使得训练出来的模型很大程度上受到了噪音数据的影响,例如真实的样本数据可能更符合一条直线,但是由于个别噪音的影响使得训练出来的是一条弯曲的曲线,从而使得模型在测试集上表现糟糕。因此,我们可以将这一过

2020-05-13 19:40:19 702

原创 RNN和LSTM中batchsize和timestep的区别是什么?

RNN和LSTM中batchsize和timestep的区别是什么?首先需要明确的概念是:batchsize指的是一次喂入网络的样本数,属于样本数量上的概念;而timestep指的是每个样本内包含有多少个时刻(步长),属于每个样本内部的概念。既然题主提出了这样的疑问,说明对于LSTM的细节之处尚有困惑之处,因此下面先大致说一下一个RNN和LSTM单元内部的参数情况,再以基于LSTM的MINIST手写体分类这个例子来说明。1 RNN和LSTM单元到底长啥样1.1 RNN单元以tensorflow中的实

2020-05-12 21:30:19 2277 2

原创 模型的改善与泛化(过拟合)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 拟合在上一篇文章中,我们介绍了为什么要对特征维度进行标准化,不标准化会带来什么样的后果,以及一种常见的标准化方法;同时我们还从另外一个角度(特征映射)介绍了如何将原始的低纬特征通过多项式映射到高维特征,以此来解决分线性的拟合问题。今天这篇文章笔者就接着往下继续介绍其它的模型改善的方法和策略。由于拟合(fitting) 这个概念还并没有介绍,这里稍微补充以下。所谓求解模型的过程,其实就是通过某种方式(例如梯度下降)来拟合模型参数的过

2020-05-12 21:27:10 545

原创 模型的改善与泛化(梯度与等高线)

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!在上一篇文章中,笔者介绍了什么是等高线,并且还同时直接给出了梯度的垂直于等高线的结论,但是并没有介绍为什么。因此本篇文章就来大致介绍一下梯度为什么会垂直于等高线。设f(x,y)=cf(x,y)=cf(x,y)=c为平面上任意一曲线,又由于曲线F(x,y)=0F(x,y)=0F(x,y)=0的法向量为n→={Fx,Fy}=ΔF\overrightarrow{n}=\{F_x,F_y\}=\Delta Fn={Fx​,Fy​}=ΔF。

2020-05-11 19:55:07 229 1

原创 模型改善与泛化(标准化与特征映射)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!0 前言经过前面两讲的内容,我们完成了对线性回归(Linear Regression)和逻辑回归(Logistics Regression)核心内容的学习,但是一些涉及到模型改善(Optimization)与泛化(Generalization)的方式并没有进行介绍。第三讲,笔者将以线性回归和逻辑回归为例(同样可以运通到后续介绍的其他算法模型),介绍一些机器学习中常用的模型和数据处理的技巧,以及尽可能的说清楚为什么要这么做的原因。由于这部

2020-05-11 19:50:28 259

原创 逻辑回归(目标函数推导)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!0 前言前面几篇文章笔者详细的介绍了什么是逻辑回归、如何进行多分类、以及分类任务对应的评价指标等,算是完成了前面第一个阶段的学习。但是到目前为止仍旧有一些问题没有解决,映射函数g(z)g(z)g(z)长什么样?逻辑回归的目标函数怎么来的?如何自己求解实现逻辑回归?下面我们就来一一回答这三个问题。在这三个问题解决后,整个逻辑回归...

2020-05-07 20:04:06 1152

原创 逻辑回归(混淆矩阵与评估指标)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 多变量逻辑回归上一篇文章中笔者对于什么是逻辑回归,以及它能用来干什么做了一个详细的介绍;同时,对于如何通过开源库进行建模训练并预测也给出了详细的示例,并对训练得到的决策边界进行了可视化。因此,本篇文章将主要围绕多变量逻辑回归,多分类问题和分类评价指标这三个方面进行介绍。所为多变量逻辑回归其实就是一个样本点有多个特征属性...

2020-05-06 19:43:22 772

原创 逻辑回归(模型的建立与求解)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!0 前言在上一讲中,笔者通过五篇文章来详细的介绍了线性回归模型,那么本讲开始继续介绍下一个经典的机器学习算法逻辑回归(Logistics Regression)。如图所示为逻辑回归模型学习的大致路线,同样也分为三个阶段。在第一个阶段结束后,我们也就大致掌握了逻辑回归的基本原理。下面就开始正式进入逻辑回归模型的学习。1...

2020-05-05 19:54:15 1280

原创 线性回归(目标函数的推导)
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!1 线性回归1.1 目标函数经过前面多篇文章的介绍,我们知道了什么是线性回归、怎么转换求解问题、如何通过sklearn进行建模并求解以及梯度下降法的原理与推导。同时,在上一篇文章中我们还通过一个故事来交代了最小二乘法的来历,以及误差服从高斯分布的事实。下面这篇文章就来完成两个任务:线性回归的推导以及Python代码的实现...

2020-05-01 08:44:33 339

转载 神说要有正态分布,于是就有了正态分布。
原力计划

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注!神说,要有正态分布,就有了正态分布。神看正态分布是好的,就让随机误差服从了正态分布。— 创世纪—数理统计一个问题的出现故事发生的时间是 18 世纪中到 19 世纪初。17、18 世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。这些天文学和测地学的问题,无不涉及到数...

2020-05-01 08:41:20 253

网络工程设计与系统集成(第三版)习题答案.pdf

网络工程设计与系统集成(第三版)习题答案.pdf 人民邮电出版社

2015-11-30

逻辑回归模型实例

逻辑回归模型实例

2017-07-01

gmp-4.1.4.tar.gz

gmp-4.1.4.tar.gz大数计算库

2015-12-12

test1.tar.gz

makefile Linux 下的Makefile(二)

2015-12-15

Understand-4.0.813-Linux-64bit.tar.gz

由于CSDN对上传文件大小的限制,所以放到了百度网盘里面。里面有分享链接和具体使用方法

2015-12-03

gmp用户手册

linux gmp原版英文用户手册gmp大数库

2015-12-20

binaryClassification

binaryClassification

2017-06-25

多变量的线性回归.zip

多变量的线性回归

2017-06-21

deeplearning

国外知名学者Michael Nielsen's所作笔记,Neural Network and Deep Learning;国外知名学者Michael Nielsen's所作笔记,Neural Network and Deep Learning

2017-09-10

斯坦福机器学习第一次练习

斯坦福机器学习第一次练习

2017-06-22

gmp库中文指导书

gmp库中文指导书,里面有安装方法,和基本的函数使用方法

2015-12-12

oneVariable.zip

线性回归模型实例

2017-06-21

斯坦福机器学习前三周概念总结.pdf

斯坦福机器学习前三周概念总结

2017-06-19

神经网络与深度学习

随着AlphaGo与李世石大战的落幕,人工智能成为话题焦点。AlphaGo背后的工作原理'深度学习'也跳入大众的视野。什么是深度学习,什么是神经网络,为何一段程序在精密的围棋大赛中可以大获全胜?人工智终将会取代人类智慧吗?, 本书结合日常生活中的寻常小事,生动形象地阐述了神经网络与深度学习的基本概念、原理和实践,案例丰富,深入浅出。对于正在进入人工智能时代的我们,这些内容无疑可以帮助我们更好地理解人工智能的原理,丰富我们对人类自身的认识,并启发我们对人机智能之争更深一层的思考与探索。, 《神经网络与深度学习》是一本介绍神经网络和深度学习算法基本原理及相关实例的书籍,它不是教科书,作者已尽量把公式减少到最少,以适应绝大部分人的阅读基础和知识储备。《神经网络与深度学习》涵盖了神经网络的研究历史、基础原理、深度学习中的自编码器、深度信念网络、卷积神经网络等,这些算法都已在很多行业发挥了价值。, 《神经网络与深度学习》适合有志于从事深度学习行业的,或想了解深度学习到底是什么的,或是有一定机器学习基础的朋友阅读。

2017-09-24

神经网络手写体识别

斯坦福机器学习第五章,课后练习,神经网络手写体识别,实例源码。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2017-09-24

machine learning

machine learning

2017-07-09

斯坦福机器学习前三周概念总结

斯坦福机器学习前三周概念总结

2017-06-19

makefile模版

Linux 下的Makefile(二)makefile模版

2015-12-15

空字符的留言板

发表于 2020-01-02 最后回复 2020-02-01

C++ 检查输入变量是否为数值?

发表于 2015-11-10 最后回复 2019-08-24

csdn博客里面的数学公式怎么突然部分加载不出来

发表于 2017-07-09 最后回复 2017-08-15

求推荐c++程序开发宝典之类的书,用的是visual studio 2012

发表于 2014-12-21 最后回复 2015-11-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除