Amateur Hour

在清洗数据时如何处理 NaN

pandas numpy
关于 NaN首先,在 python 中的空值一般有这几种: 1、None2、False3、’’4、NaN 前三个很正常,当需要判断的时候,用等号=就好了。但 NaN(not a number),在数学表示上表示一个无法表示的数,而nan则一般表示一个非浮点数(比如无理数)。因此 nan != ...
Read more

Jupyter Notebook 的 Pandas 进度条

pandas
在 Jupyter Notebook 里,经常会遇到数据集很大,某一步处理需要很久的情况。在这种情况下,有时很难区分 notebook 是挂了还是 hanging,或是还在正常运行。 我也被这个问题困扰了很久,最近找到了一个小工具很好的解决了这个问题,这个工具就是 tqdm。它其实是一个 p ...
Read more

Express无法解析Axios的POST请求问题解决

nodejs front-end
这段时间在捡起来前端,想自己写几个小应用。结果一开始就遇到非常匪夷所思的问题。Axios发的POST请求无法被Express直接解析。 首先,来说一下这个问题出现的原因,归根结底,不管php、java亦或是node。想要在后台接收到POST的数据,都需要POST在发送时使用applicati ...
Read more

主成分分析(Principle Component Analysis)

machine learning feature selection
主成分分析(PCA)是现代数据分析的主要方法之一,它被广泛使用但其内在机制仍不为太多人理解。这篇文章的主旨就是厘清并解释其原理。这篇教程不仅能帮助建立起对 PCA 原理的直觉理解,还希望能够澄清其内在的数学原理。因此,这是一篇同时用通俗语言与数学语言解释 PCA 的教程。希望不同层次的读者 ...
Read more

标准化与归一化 with Scikit-learn

machine learning feature engineering
1. 范数公式范数公式看起来很枯燥,但是对于理解机器学习的各个方面都很重要,包括模型(非常多模型的正则化都是基于范数的)和数据预处理(本文介绍的内容)。因此范数的概念真的是必需牢记。 范数的数学含义,反正我是没怎么真的搞懂。感兴趣的话,推荐这篇博文讲的挺细致的。对于机器学习来讲,通常理解下面 ...
Read more

10行代码实现kNN(K Nearesr Neighbor)算法

machine learning modeling
使用 numpy 库,只需 10 行简单的代码就能实现 k 近邻算法。 算法逻辑对要分类的点(X)进行下列运算: 计算 X 与已知分类的所有点的距离(欧氏距离); 距离按照递增排序; 选取距离最小的 k 个点; 计算这 k 个点中,每个分类出现的频率; 取频率最高的分类为预测分类。 代码 ...
Read more

Python中sorted方法与operator.itemgetter方法的共用

machine learning modeling
Python中的sorted函数和operator.itemgetter可以说经常一起用,主要是处理一些复杂的排序问题的时候。 operator.itemgetter函数operator模块提供的itemgetter函数主要用于获取传入对象的特定索引的值,例如: 123a = [1,2,3] ...
Read more

什么样的应用在Google Play Store的评分更高?

exploratory data analysis
Read more

简易数据预处理与特征工程

machine learning feature engineering
Intro使用鸢尾花数据集: 123456from sklearn.datasets import load_irisdata = load_iris()features = data.datalabels = data.target 其中features是特征矩阵,labels是真实分类。 ...
Read more

不只是线性回归(2):多重共线性与正则化

machine learning modeling
Intro线性回归(Linear Regression)是机器学习的基本方式,但为了提升其性能,人们发明了无数优化方式。这个“不只是线性回归”系列就是为了记录我在日常的学习中发现的,不只是简单的线性回归的算法、优化方式、数学原理等。 2. 多重共线性(Multicollinearity)2. ...
Read more
Prev Next