outliers的多方面探討

一、outliers的定義及常見表現形式

Outlier指的是在樣本中分布不同於其他數據點的極端值。其表現形式有以下幾種:

1、數據分布不均:outliers會導致整個數據集的分布變得不均勻,從而對單樣本或整體分析產生影響。

<div class="container">
<div class="chart"></div>
</div>

.chart {
width: 100%;
vertical-align: top;
}

2、偏差值較大:outliers對數據的平均值和標準差產生大的偏差,可能會誤導數據分析的結論。

var data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1000];

function getAvg(data) {
var sum = 0;
data.forEach(function(num) {
sum += num;
});

return sum / data.length;
}

3、離散程度較大:outliers會導致方差值的急劇升高,進而使數據的離散程度變得更大。

function getVariance(data) {
var mean = getAvg(data);
var sum = 0;
data.forEach(function(num) {
sum += Math.pow((num - mean), 2);
});

return sum / (data.length - 1);
}

二、outliers的識別方法與常見工具

1、箱線圖

箱線圖可以很好地識別數據中的outliers。箱子代表數據分布的中間50%部分,其上面的線表示數據中的第75個百分位,下面的線表示數據中的第25個百分位。在不考慮outliers的情況下,位於這個範圍之外的點可能是outliers。

<div class="container">
<svg width="500" height="500">
<line x1="20" y1="250" x2="480" y2="250" stroke="gray" />
<line x1="20" y1="100" x2="480" y2="100" stroke="gray" />
<line x1="20" y1="400" x2="480" y2="400" stroke="gray" />
<line x1="20" y1="250" x2="20" y2="400" stroke="gray" />
<line x1="20" y1="250" x2="20" y2="100" stroke="gray" />
<rect x="100" y="150" width="300" height="200" stroke="black" fill="transparent" />
<line x1="100" y1="250" x2="400" y2="250" stroke="black" />
<line x1="200" y1="150" x2="200" y2="350" stroke="black" />
<line x1="300" y1="150" x2="300" y2="350" stroke="black" />
</svg>
</div>

2、離群值檢查器:該庫可用於在給定的數據集中查找離群值。

const Outlier = require('outlier');
const data = [10, 12, 20, 45, 1000, 1020];
const outlier = new Outlier();
const results = outlier.save(data).analyze();
console.log(results);

3、對數容忍:該算法通過對數據進行對數變換來發現outliers並確定其相對程度。

function getLogTolerance(data, factor) {
const mean = getAvg(data);
const stdev = Math.sqrt(getVariance(data));

return data.map(x => Math.abs(x - mean)).map(x => x / stdev).map(x => Math.log(1 + factor * x));
}

三、outliers應用實踐與解決方法

1、數據清洗:將outliers從數據集中移除。這可以通過使用各種技術(如InterQuartile Range等)來識別和刪除異常值來實現。

function removeOutliers(data) {
const q1 = quantile(data, 0.25);
const q3 = quantile(data, 0.75);
const iqr = q3 - q1;
const minimum = q1 - 1.5 * iqr;
const maximum = q3 + 1.5 * iqr;

return data.filter(x => x >= minimum && x <= maximum);
}

2、數據轉換:使用基於對數或指數的轉換來調整數據,以保留outliers的貢獻同時減弱其對平均值和方差的影響。

function processOutliers(data) {
const transformedData = data.map(x => Math.log(x + 1));
const mean = getAvg(transformedData);
const stdev = Math.sqrt(getVariance(transformedData));

return data.map(x => x > mean + 1.5 * stdev ? mean + 1.5 * stdev : x);
}

3、建模技術:一些機器學習和數據挖掘技術,如聚類和異常檢測,可以識別和排除outliers。

from sklearn.covariance import EllipticEnvelope
import numpy as np

data = np.array([[-2, 2], [2, 2], [0, 4], [0, 12]])
model = EllipticEnvelope(contamination=0.25)
model.fit(data)

inliers = np.asarray(model.predict(data) == 1)
outliers = np.asarray(model.predict(data) == -1)

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/258178.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-15 12:48
下一篇 2024-12-15 12:48

相關推薦

  • Python取較大值的多方面

    Python是一款流行的編程語言,廣泛應用於數據分析、科學計算、Web開發等領域。作為一名全能開發工程師,了解Python的取較大值方法非常必要。本文將從多個方面對Python取較…

    編程 2025-04-27
  • OWASP-ZAP:多方面闡述

    一、概述 OWASP-ZAP(Zed Attack Proxy)是一個功能豐富的開放源代碼滲透測試工具,可幫助開發人員和安全專業人員查找應用程序中的安全漏洞。它是一個基於Java的…

    編程 2025-04-25
  • Java中字符串根據逗號截取的多方面分析

    一、String的split()方法的使用 Java中對於字符串的截取操作,最常使用的是split()方法,這個方法可以根據給定的正則表達式將字符串切分成多個子串。在對基礎類型或簡…

    編程 2025-04-25
  • 定距數據的多方面闡述

    一、什麼是定距數據? 定距數據是指數據之間的差距是有真實的、可比較的含義的數據類型。例如長度、時間等都屬於定距數據。 在程序開發中,處理定距數據時需要考慮數值的大小、單位、精度等問…

    編程 2025-04-25
  • Lua 協程的多方面詳解

    一、什麼是 Lua 協程? Lua 協程是一種輕量級的線程,可以在運行時暫停和恢復執行。不同於操作系統級別的線程,Lua 協程不需要進行上下文切換,也不會佔用過多的系統資源,因此它…

    編程 2025-04-24
  • Midjourney Logo的多方面闡述

    一、設計過程 Midjourney Logo的設計過程是一個旅程。我們受到大自然的啟發,從木質和地球色的調色板開始。我們想要營造一種旅途的感覺,所以我們添加了箭頭和圓形元素,以表示…

    編程 2025-04-24
  • Idea隱藏.idea文件的多方面探究

    一、隱藏.idea文件的意義 在使用Idea進行開發時,經常會聽說隱藏.idea文件這一操作。實際上,這是為了保障項目的安全性和整潔性,避免.idea文件的意外泄露或者被其他IDE…

    編程 2025-04-24
  • 如何卸載torch——多方面詳細闡述

    一、卸載torch的必要性 隨着人工智能領域的不斷發展,越來越多的深度學習框架被廣泛應用,torch也是其中之一。然而,在使用torch過程中,我們也不可避免會遇到需要卸載的情況。…

    編程 2025-04-23
  • Unity地形的多方面技術詳解

    一、創建和編輯地形 Unity提供了可視化界面方便我們快速創建和編輯地形。在創建地形時,首先需要添加Terrain組件,然後可以通過左側Inspector面板中的工具來進行細節的調…

    編程 2025-04-23
  • 跳出while的多方面探討

    一、break語句跳出while循環 在while循環的過程中,如果需要跳出循環,可以使用break語句。break語句可以直接退出當前的循環體,繼續執行後面的代碼。 while …

    編程 2025-04-23

發表回復

登錄後才能評論