Python數據分析工具——pandas文件讀取及操作

一、pandas簡介

pandas是Python中最重要的數據分析庫之一。它廣泛應用於數據科學領域,可以用於數據清洗、統計分析、數據可視化等多個方面。pandas提供了高級數據結構,廣泛支持CSV、Excel、SQL、JSON、HTML、HDF5等文件格式的數據讀寫格式。同時,它還提供了數據清洗、數據重塑、數據聚合、數據切片等常用的數據操作功能。

二、pandas文件讀取

1、從CSV文件中讀取數據

讀取CSV文件的語法如下:

import pandas as pd
dataframe=pd.read_csv('file_name.csv')
print(dataframe)

其中,file_name.csv是待讀取的csv文件名,read_csv函數返回的是一個pandas.DataFrame類型的數據。通過print可以列印出該DataFrame類型的數據。

2、從Excel文件中讀取數據

要從Excel文件中讀取數據,需要安裝xlrd庫。讀取Excel文件的語法如下:

import pandas as pd
dataframe=pd.read_excel('file_name.xlsx', sheet_name='Sheet1')
print(dataframe)

其中,file_name.xlsx是待讀取的Excel文件名,sheet_name參數是可選參數,用於指定要讀取哪個工作表。

3、從SQL資料庫中讀取數據

要從SQL資料庫中讀取數據,需要安裝pymssql、mysqldb、pymysql等庫。SQLAlchemy可以適用於多個資料庫平台,並能提供ORM支持。讀取SQL數據的語法如下:

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('mysql+mysqldb://user:password@hostname/database_name')
dataframe = pd.read_sql('SELECT * FROM table_name', engine)
print(dataframe)

其中,create_engine參數需要設置用戶名、密碼、主機名、資料庫名等信息,具體信息需要根據實際情況進行設置。

三、pandas數據操作

1、數據清洗

一般來說,數據源的數據含有大量的缺失值、異常值、重複值。pandas提供了豐富的數據清洗功能,如刪除重複值、填充空缺值等。如下所示:

import pandas as pd
dataframe=pd.read_csv('file_name.csv')
new_dataframe = dataframe.drop_duplicates() #刪除重複行
new_dataframe = new_dataframe.fillna(value=0) #將缺失值替換為0
print(new_dataframe)

2、數據重塑

數據重塑是指根據數據的某些特徵進行排序、分組等操作。這些操作能夠更好地理解數據、縮小數據範圍,以便進行分析。如下所示:

import pandas as pd
import numpy as np
dataframe=pd.read_csv('file_name.csv')
grouped = dataframe.groupby(by='category')
result = grouped.aggregate(np.mean) # 對每個類別進行平均值計算
print(result)

3、數據聚合

數據聚合是指將一部分數據看成一整體,然後對整體進行操作。如下所示:

import pandas as pd
import numpy as np
dataframe=pd.read_csv('file_name.csv')
grouped = dataframe.groupby(by='category')
result = grouped.agg({'value': np.sum, 'quantity': np.mean}) # 每個類別的總和和平均值
print(result)

4、數據切片

數據切片是指從DataFrame中選取一部分數據進行分析,這可以帶來更加專業的分析結果。如下所示:

import pandas as pd
dataframe=pd.read_csv('file_name.csv')
new_dataframe = dataframe[['column1', 'column3']] # 選擇'column1'和'column3'
print(new_dataframe)

四、總結

pandas是Python數據分析中不可或缺的工具庫。從文件讀取到數據操作,它提供了廣泛支持也靈活的數據操作方式。開發者可以使用pandas輕鬆解決數據分析過程中的種種問題。

原創文章,作者:LFXPU,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/316143.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
LFXPU的頭像LFXPU
上一篇 2025-01-09 12:14
下一篇 2025-01-09 12:14

相關推薦

發表回復

登錄後才能評論