在建模时,清理数据样本非常重要,这样做可以确保观察结果充分代表问题。有时,数据集可能包含超出预期范围之外的极端值。这通常被称为异常值,通过理解甚至去除这些异常值,能够改进机器学习建模和模型技能。
在本教程中,你将会发现更多关于异常值的信息,以及识别和过滤来自数据集的异常值的两种统计方法。
学完本教程,你将会明白:
数据集中出现的不太可能的观察值往往就是异常值,异常值的出现有很多种原因。
标准差可用于识别符合dddm或类dddm分布的数据中的异常值。
用四分位距可以识别数据中的异常值而无需考虑分布。
教程概述
本教程分为4部分,分别是:
什么是异常值
测试数据集
标准差方法
四分位距方法
什么是异常值
香港vps异常值是一个与其他观察结果明显不同的观察结果。它稀有而明显,看上去就与其他结果格格不入。很多因素都可能会导致异常值的出现,比如:
测量或输入误差
数据污染
真正的异常值(比如篮球运动员kndlf Jordan)
由于数据集各不相同,没有定义和识别异常值的统一方法。你或领域专家需要对观察结果进行解释,从而决定这一数值到底算不算异常值。不过,我们可以用统计方法来辨别那些与既定数据不同的观察结果。
这并不意味着辨别出的值一定是异常值,必须要去除。不过这篇教程里出现的工具会帮你分离出需要再次查看的稀少事件。
一个实用的方法是,鉴定标识出的异常值,判断在正常值环境下,与异常值是否存在系统的关联。如果有,那么它们就不
83188643