如何使用Python剔除異常值

本文將詳細介紹如何使用Python剔除異常值。異常值是在一個數據集中與其他數據點明顯不同的值,會影響到數據的分析和可視化。

一、找出異常值

首先需要找出異常值。可以使用Python中的三種方法來找出異常值:基於分佈的方法、基於距離的方法和基於模型的方法。

1. 基於分佈的方法

基於分佈的方法假設數據遵循某種分佈,從而判斷哪些值可能是異常值。可以通過以下步驟實現這種方法:

import numpy as np
import matplotlib.pyplot as plt

# 生成數據
data = np.random.normal(0, 1, 1000)

# 繪製正態分佈概率密度圖
plt.hist(data, bins=50, density=True, alpha=0.6, color='g')

# 設定閾值標準
threshold = 3

# 識別異常點
outliers = np.where(abs(data - np.mean(data)) > threshold * np.std(data))[0]

# 將異常點標紅
plt.scatter(data[outliers], np.zeros_like(data[outliers]), c='r')
plt.show()

2. 基於距離的方法

基於距離的方法使用數據點之間的距離來識別異常點。可以通過以下步驟實現這種方法:

import numpy as np
from scipy.spatial.distance import cdist

# 生成數據
data = np.random.normal(0, 1, (100, 2))

# 計算所有數據點之間的距離
distances = cdist(data, data)

# 設定閾值標準
threshold = np.percentile(distances, 95)

# 識別異常點
outliers = np.where(distances > threshold)

# 繪製散點圖
plt.scatter(data[:,0], data[:,1])
plt.scatter(data[outliers[0],0], data[outliers[0],1], color='r')
plt.show()

3. 基於模型的方法

基於模型的方法使用數據建立模型,然後通過數據點與模型的差異來判斷哪些值可能是異常值。可以通過以下步驟實現這種方法:

from sklearn.covariance import EllipticEnvelope
import numpy as np

# 生成數據
data = np.random.multivariate_normal([0, 0], [[1, 0], [0, 1]], 100)

# 使用EllipticEnvelope模型識別異常點
detector = EllipticEnvelope(contamination=0.1)
detector.fit(data)

# 標記異常點
outliers = detector.predict(data)

# 繪製散點圖
plt.scatter(data[:,0], data[:,1], c=outliers)
plt.show()

二、剔除異常值

找出異常值之後,需要將其排除在數據集之外。以下是幾種剔除異常值的常用方法:

1. 刪除異常值所在的行

最簡單的方法是刪除異常值所在的行:

import pandas as pd

# 生成數據
data = {'A': [1, 2, 3, 4, 5, 6],
        'B': [4, 2, 1, 3, 6, 8]}

df = pd.DataFrame(data)

# 找出異常值
q1 = df['B'].quantile(0.25)
q3 = df['B'].quantile(0.75)
iqr = q3 - q1
upper_bound = q3 + 1.5 * iqr
lower_bound = q1 - 1.5 * iqr

outliers = df[(df['B'] < lower_bound) | (df['B'] > upper_bound)]

# 刪除異常值所在的行
clean_data = df.drop(outliers.index)

2. 替換異常值

另一種方法是將異常值替換為數據集的中位數或平均值:

import pandas as pd

# 生成數據
data = {'A': [1, 2, 3, 4, 5, 6],
        'B': [4, 2, 1, 3, 6, 8]}

df = pd.DataFrame(data)

# 找出異常值
q1 = df['B'].quantile(0.25)
q3 = df['B'].quantile(0.75)
iqr = q3 - q1
upper_bound = q3 + 1.5 * iqr
lower_bound = q1 - 1.5 * iqr

outliers = df[(df['B'] < lower_bound) | (df['B'] > upper_bound)]

# 替換異常值
median = df['B'].median()
df['B'] = df['B'].apply(lambda x: median if (x < lower_bound or x > upper_bound) else x)

3. 使用插值法填補異常值

另一種方法是使用插值法填補異常值。例如,使用數據集的前一個數據點和後一個數據點之間的平均值作為異常值的替代值:

import pandas as pd

# 生成數據
data = {'A': [1, 2, 3, 4, 5, 6],
        'B': [4, 2, 1, 3, 6, 8]}

df = pd.DataFrame(data)

# 找出異常值
q1 = df['B'].quantile(0.25)
q3 = df['B'].quantile(0.75)
iqr = q3 - q1
upper_bound = q3 + 1.5 * iqr
lower_bound = q1 - 1.5 * iqr

outliers = df[(df['B'] < lower_bound) | (df['B'] > upper_bound)]

# 使用插值法填補異常值
df['B'] = df['B'].interpolate()

三、結語

本文介紹了如何使用Python找出和剔除異常值,並通過代碼實現了三種查找異常值的方法和三種剔除異常值的方法。剔除異常值可以提高數據分析和可視化的準確性,但是需要根據實際情況酌情使用。

原創文章,作者:DJUCW,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/374062.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
DJUCW的頭像DJUCW
上一篇 2025-04-27 15:26
下一篇 2025-04-27 15:26

相關推薦

  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python編程二級證書考試相關現已可以上網購買

    計算機二級Python考試是一項重要的國家級認證考試,也是Python編程的入門考試。與其他考試一樣,Python編程二級證書的考生需要進入正式考試,而為了備考,這篇文章將詳細介紹…

    編程 2025-04-29
  • Python字符串寬度不限制怎麼打代碼

    本文將為大家詳細介紹Python字符串寬度不限制時如何打代碼的幾個方面。 一、保持代碼風格的統一 在Python字符串寬度不限制的情況下,我們可以寫出很長很長的一行代碼。但是,為了…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29

發表回復

登錄後才能評論