June 12, 2019
pandas
numpy
关于 NaN首先,在 python 中的空值一般有这几种:
1、None2、False3、’’4、NaN
前三个很正常,当需要判断的时候,用等号=就好了。但 NaN(not a number),在数学表示上表示一个无法表示的数,而nan则一般表示一个非浮点数(比如无理数)。因此 nan != ...
Read more
May 19, 2019
pandas
在 Jupyter Notebook 里,经常会遇到数据集很大,某一步处理需要很久的情况。在这种情况下,有时很难区分 notebook 是挂了还是 hanging,或是还在正常运行。
我也被这个问题困扰了很久,最近找到了一个小工具很好的解决了这个问题,这个工具就是 tqdm。它其实是一个 p ...
Read more
March 28, 2019
nodejs
front-end
这段时间在捡起来前端,想自己写几个小应用。结果一开始就遇到非常匪夷所思的问题。Axios发的POST请求无法被Express直接解析。
首先,来说一下这个问题出现的原因,归根结底,不管php、java亦或是node。想要在后台接收到POST的数据,都需要POST在发送时使用applicati ...
Read more
January 9, 2019
machine learning
feature selection
主成分分析(PCA)是现代数据分析的主要方法之一,它被广泛使用但其内在机制仍不为太多人理解。这篇文章的主旨就是厘清并解释其原理。这篇教程不仅能帮助建立起对 PCA 原理的直觉理解,还希望能够澄清其内在的数学原理。因此,这是一篇同时用通俗语言与数学语言解释 PCA 的教程。希望不同层次的读者 ...
Read more
December 16, 2018
machine learning
feature engineering
1. 范数公式范数公式看起来很枯燥,但是对于理解机器学习的各个方面都很重要,包括模型(非常多模型的正则化都是基于范数的)和数据预处理(本文介绍的内容)。因此范数的概念真的是必需牢记。
范数的数学含义,反正我是没怎么真的搞懂。感兴趣的话,推荐这篇博文讲的挺细致的。对于机器学习来讲,通常理解下面 ...
Read more
November 28, 2018
machine learning
modeling
使用 numpy 库,只需 10 行简单的代码就能实现 k 近邻算法。
算法逻辑对要分类的点(X)进行下列运算:
计算 X 与已知分类的所有点的距离(欧氏距离);
距离按照递增排序;
选取距离最小的 k 个点;
计算这 k 个点中,每个分类出现的频率;
取频率最高的分类为预测分类。
代码 ...
Read more
November 12, 2018
machine learning
modeling
Python中的sorted函数和operator.itemgetter可以说经常一起用,主要是处理一些复杂的排序问题的时候。
operator.itemgetter函数operator模块提供的itemgetter函数主要用于获取传入对象的特定索引的值,例如:
123a = [1,2,3] ...
Read more
November 2, 2018
exploratory data analysis
Read more
October 14, 2018
machine learning
feature engineering
Intro使用鸢尾花数据集:
123456from sklearn.datasets import load_irisdata = load_iris()features = data.datalabels = data.target
其中features是特征矩阵,labels是真实分类。 ...
Read more
September 27, 2018
machine learning
modeling
Intro线性回归(Linear Regression)是机器学习的基本方式,但为了提升其性能,人们发明了无数优化方式。这个“不只是线性回归”系列就是为了记录我在日常的学习中发现的,不只是简单的线性回归的算法、优化方式、数学原理等。
2. 多重共线性(Multicollinearity)2. ...
Read more