Amateur Hour

在清洗数据时如何处理 NaN

June 12, 2019

关于 NaN首先，在 python 中的空值一般有这几种： 1、None2、False3、’’4、NaN 前三个很正常，当需要判断的时候，用等号=就好了。但 NaN（not a number），在数学表示上表示一个无法表示的数，而nan则一般表示一个非浮点数（比如无理数）。因此 nan != ...

Jupyter Notebook 的 Pandas 进度条

May 19, 2019

pandas

在 Jupyter Notebook 里，经常会遇到数据集很大，某一步处理需要很久的情况。在这种情况下，有时很难区分 notebook 是挂了还是 hanging，或是还在正常运行。我也被这个问题困扰了很久，最近找到了一个小工具很好的解决了这个问题，这个工具就是 tqdm。它其实是一个 p ...

Express无法解析Axios的POST请求问题解决

March 28, 2019

nodejs front-end

这段时间在捡起来前端，想自己写几个小应用。结果一开始就遇到非常匪夷所思的问题。Axios发的POST请求无法被Express直接解析。首先，来说一下这个问题出现的原因，归根结底，不管php、java亦或是node。想要在后台接收到POST的数据，都需要POST在发送时使用applicati ...

主成分分析（Principle Component Analysis）

January 9, 2019

machine learning feature selection

主成分分析（PCA）是现代数据分析的主要方法之一，它被广泛使用但其内在机制仍不为太多人理解。这篇文章的主旨就是厘清并解释其原理。这篇教程不仅能帮助建立起对 PCA 原理的直觉理解，还希望能够澄清其内在的数学原理。因此，这是一篇同时用通俗语言与数学语言解释 PCA 的教程。希望不同层次的读者 ...

标准化与归一化 with Scikit-learn

December 16, 2018

machine learning feature engineering

1. 范数公式范数公式看起来很枯燥，但是对于理解机器学习的各个方面都很重要，包括模型（非常多模型的正则化都是基于范数的）和数据预处理（本文介绍的内容）。因此范数的概念真的是必需牢记。范数的数学含义，反正我是没怎么真的搞懂。感兴趣的话，推荐这篇博文讲的挺细致的。对于机器学习来讲，通常理解下面 ...

10行代码实现kNN（K Nearesr Neighbor）算法

November 28, 2018

machine learning modeling

使用 numpy 库，只需 10 行简单的代码就能实现 k 近邻算法。算法逻辑对要分类的点（X）进行下列运算：计算 X 与已知分类的所有点的距离（欧氏距离）；距离按照递增排序；选取距离最小的 k 个点；计算这 k 个点中，每个分类出现的频率；取频率最高的分类为预测分类。代码 ...

Python中sorted方法与operator.itemgetter方法的共用

November 12, 2018

machine learning modeling

Python中的sorted函数和operator.itemgetter可以说经常一起用，主要是处理一些复杂的排序问题的时候。 operator.itemgetter函数operator模块提供的itemgetter函数主要用于获取传入对象的特定索引的值，例如： 123a = [1,2,3] ...

什么样的应用在Google Play Store的评分更高？

November 2, 2018

exploratory data analysis

简易数据预处理与特征工程

October 14, 2018

machine learning feature engineering

Intro使用鸢尾花数据集： 123456from sklearn.datasets import load_irisdata = load_iris()features = data.datalabels = data.target 其中features是特征矩阵，labels是真实分类。 ...

不只是线性回归（2）：多重共线性与正则化

September 27, 2018

machine learning modeling

Intro线性回归（Linear Regression）是机器学习的基本方式，但为了提升其性能，人们发明了无数优化方式。这个“不只是线性回归”系列就是为了记录我在日常的学习中发现的，不只是简单的线性回归的算法、优化方式、数学原理等。 2. 多重共线性（Multicollinearity）2. ...