outliers的多方面探讨

一、outliers的定义及常见表现形式

Outlier指的是在样本中分布不同于其他数据点的极端值。其表现形式有以下几种:

1、数据分布不均:outliers会导致整个数据集的分布变得不均匀,从而对单样本或整体分析产生影响。

<div class="container">
<div class="chart"></div>
</div>

.chart {
width: 100%;
vertical-align: top;
}

2、偏差值较大:outliers对数据的平均值和标准差产生大的偏差,可能会误导数据分析的结论。

var data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1000];

function getAvg(data) {
var sum = 0;
data.forEach(function(num) {
sum += num;
});

return sum / data.length;
}

3、离散程度较大:outliers会导致方差值的急剧升高,进而使数据的离散程度变得更大。

function getVariance(data) {
var mean = getAvg(data);
var sum = 0;
data.forEach(function(num) {
sum += Math.pow((num - mean), 2);
});

return sum / (data.length - 1);
}

二、outliers的识别方法与常见工具

1、箱线图

箱线图可以很好地识别数据中的outliers。箱子代表数据分布的中间50%部分,其上面的线表示数据中的第75个百分位,下面的线表示数据中的第25个百分位。在不考虑outliers的情况下,位于这个范围之外的点可能是outliers。

<div class="container">
<svg width="500" height="500">
<line x1="20" y1="250" x2="480" y2="250" stroke="gray" />
<line x1="20" y1="100" x2="480" y2="100" stroke="gray" />
<line x1="20" y1="400" x2="480" y2="400" stroke="gray" />
<line x1="20" y1="250" x2="20" y2="400" stroke="gray" />
<line x1="20" y1="250" x2="20" y2="100" stroke="gray" />
<rect x="100" y="150" width="300" height="200" stroke="black" fill="transparent" />
<line x1="100" y1="250" x2="400" y2="250" stroke="black" />
<line x1="200" y1="150" x2="200" y2="350" stroke="black" />
<line x1="300" y1="150" x2="300" y2="350" stroke="black" />
</svg>
</div>

2、离群值检查器:该库可用于在给定的数据集中查找离群值。

const Outlier = require('outlier');
const data = [10, 12, 20, 45, 1000, 1020];
const outlier = new Outlier();
const results = outlier.save(data).analyze();
console.log(results);

3、对数容忍:该算法通过对数据进行对数变换来发现outliers并确定其相对程度。

function getLogTolerance(data, factor) {
const mean = getAvg(data);
const stdev = Math.sqrt(getVariance(data));

return data.map(x => Math.abs(x - mean)).map(x => x / stdev).map(x => Math.log(1 + factor * x));
}

三、outliers应用实践与解决方法

1、数据清洗:将outliers从数据集中移除。这可以通过使用各种技术(如InterQuartile Range等)来识别和删除异常值来实现。

function removeOutliers(data) {
const q1 = quantile(data, 0.25);
const q3 = quantile(data, 0.75);
const iqr = q3 - q1;
const minimum = q1 - 1.5 * iqr;
const maximum = q3 + 1.5 * iqr;

return data.filter(x => x >= minimum && x <= maximum);
}

2、数据转换:使用基于对数或指数的转换来调整数据,以保留outliers的贡献同时减弱其对平均值和方差的影响。

function processOutliers(data) {
const transformedData = data.map(x => Math.log(x + 1));
const mean = getAvg(transformedData);
const stdev = Math.sqrt(getVariance(transformedData));

return data.map(x => x > mean + 1.5 * stdev ? mean + 1.5 * stdev : x);
}

3、建模技术:一些机器学习和数据挖掘技术,如聚类和异常检测,可以识别和排除outliers。

from sklearn.covariance import EllipticEnvelope
import numpy as np

data = np.array([[-2, 2], [2, 2], [0, 4], [0, 12]])
model = EllipticEnvelope(contamination=0.25)
model.fit(data)

inliers = np.asarray(model.predict(data) == 1)
outliers = np.asarray(model.predict(data) == -1)

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/258178.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝的头像小蓝
上一篇 2024-12-15 12:48
下一篇 2024-12-15 12:48

相关推荐

  • Python取较大值的多方面

    Python是一款流行的编程语言,广泛应用于数据分析、科学计算、Web开发等领域。作为一名全能开发工程师,了解Python的取较大值方法非常必要。本文将从多个方面对Python取较…

    编程 2025-04-27
  • OWASP-ZAP:多方面阐述

    一、概述 OWASP-ZAP(Zed Attack Proxy)是一个功能丰富的开放源代码渗透测试工具,可帮助开发人员和安全专业人员查找应用程序中的安全漏洞。它是一个基于Java的…

    编程 2025-04-25
  • Java中字符串根据逗号截取的多方面分析

    一、String的split()方法的使用 Java中对于字符串的截取操作,最常使用的是split()方法,这个方法可以根据给定的正则表达式将字符串切分成多个子串。在对基础类型或简…

    编程 2025-04-25
  • 定距数据的多方面阐述

    一、什么是定距数据? 定距数据是指数据之间的差距是有真实的、可比较的含义的数据类型。例如长度、时间等都属于定距数据。 在程序开发中,处理定距数据时需要考虑数值的大小、单位、精度等问…

    编程 2025-04-25
  • Lua 协程的多方面详解

    一、什么是 Lua 协程? Lua 协程是一种轻量级的线程,可以在运行时暂停和恢复执行。不同于操作系统级别的线程,Lua 协程不需要进行上下文切换,也不会占用过多的系统资源,因此它…

    编程 2025-04-24
  • Midjourney Logo的多方面阐述

    一、设计过程 Midjourney Logo的设计过程是一个旅程。我们受到大自然的启发,从木质和地球色的调色板开始。我们想要营造一种旅途的感觉,所以我们添加了箭头和圆形元素,以表示…

    编程 2025-04-24
  • Idea隐藏.idea文件的多方面探究

    一、隐藏.idea文件的意义 在使用Idea进行开发时,经常会听说隐藏.idea文件这一操作。实际上,这是为了保障项目的安全性和整洁性,避免.idea文件的意外泄露或者被其他IDE…

    编程 2025-04-24
  • 如何卸载torch——多方面详细阐述

    一、卸载torch的必要性 随着人工智能领域的不断发展,越来越多的深度学习框架被广泛应用,torch也是其中之一。然而,在使用torch过程中,我们也不可避免会遇到需要卸载的情况。…

    编程 2025-04-23
  • Unity地形的多方面技术详解

    一、创建和编辑地形 Unity提供了可视化界面方便我们快速创建和编辑地形。在创建地形时,首先需要添加Terrain组件,然后可以通过左侧Inspector面板中的工具来进行细节的调…

    编程 2025-04-23
  • 跳出while的多方面探讨

    一、break语句跳出while循环 在while循环的过程中,如果需要跳出循环,可以使用break语句。break语句可以直接退出当前的循环体,继续执行后面的代码。 while …

    编程 2025-04-23

发表回复

登录后才能评论