一、Python讀取表格數據
在進行數據處理時,我們常常需要從表格中獲取數據,然後進行一系列的分析和計算。Python提供了多種方法來讀取表格數據,其中最常用的是pandas庫中的read_excel和read_csv方法。
import pandas as pd # 讀取Excel文件 df_excel = pd.read_excel('data.xlsx') print(df_excel) # 讀取CSV文件 df_csv = pd.read_csv('data.csv') print(df_csv)
read_excel和read_csv方法的參數比較多,可以指定表格的sheet名、是否跳過某些行、嚮導航中添加列名等等。讀取表格數據後,可以進行數據清洗、過濾、轉換等常規操作。
二、Python讀取表格畫散點圖
除了讀取原始數據進行分析外,我們還可以用Python把表格中的數據可視化。下面是一個簡單的例子,用pandas庫讀取表格中“x”和“y”兩列數據,然後用matplotlib庫畫出散點圖。
import pandas as pd import matplotlib.pyplot as plt # 讀取表格數據 df = pd.read_excel('data.xlsx') x = df['x'] y = df['y'] # 畫散點圖 plt.scatter(x, y) plt.xlabel('x') plt.ylabel('y') plt.show()
通過畫圖可以更直觀地了解數據之間的關係和趨勢。除了散點圖,還可以畫折線圖、柱狀圖、餅圖等等。
三、Python讀取表格文件數據
除了Excel和CSV之外,Python還可以讀取多種類型的表格文件。比如,可以用xlrd庫讀取.xls文件,用openpyxl庫讀取.xlsx文件,用pyxlsb庫讀取.xlsb文件。
import xlrd # 讀取xls文件 book = xlrd.open_workbook('data.xls') sheet = book.sheet_by_index(0) print(sheet.cell(0, 0).value) # 讀取xlsx文件 from openpyxl import load_workbook book = load_workbook('data.xlsx') sheet = book.active print(sheet.cell(1, 1).value) # 讀取xlsb文件 import pyxlsb with pyxlsb.open_workbook('data.xlsb') as book: sheet = book.get_sheet(0) print(sheet.get_value(0, 0))
不同的表格文件類型需要用不同的庫進行讀取,可以根據具體需求選擇合適的庫。
四、Python讀取表格去重
有時候我們需要對表格中的數據進行去重操作。pandas庫提供了drop_duplicates方法,可以去除DataFrame對象中的重複行。
import pandas as pd # 讀取表格數據 df = pd.read_excel('data.xlsx') # 去重 df = df.drop_duplicates() print(df)
該方法默認去除所有列的重複行,也可以指定一個或多個列進行去重。去重後的結果可以用於後續的數據分析和處理。
五、Python讀取表格文件
在實際數據處理中,我們往往需要把多個表格文件合併成一個文件或者把一個文件拆分成多個文件。Pandas庫提供了多種方法來實現這些操作。
import pandas as pd # 合併多個Excel文件 files = ['data1.xlsx', 'data2.xlsx', 'data3.xlsx'] df = pd.concat([pd.read_excel(f) for f in files]) df.to_excel('merged.xlsx') # 拆分單個Excel文件 df = pd.read_excel('data.xlsx') for name, group in df.groupby('category'): group.to_excel('%s.xlsx' % name, index=None)
表格文件的合併和拆分可以幫助我們更方便地進行數據管理和分析。
六、Python讀取表格方法
除了pandas庫之外,Python還提供了其他方法來讀取表格。比如,可以用xlrd庫、openpyxl庫、pyxlsb庫等讀取Excel文件,用csv庫讀取CSV文件,用xlwt庫、openpyxl庫、xlutils庫等寫入Excel文件。
import csv # 讀取CSV文件 with open('data.csv', 'r') as f: reader = csv.reader(f) for row in reader: print(row) # 寫入Excel文件 import xlwt book = xlwt.Workbook(encoding='utf-8') sheet = book.add_sheet('Sheet1') for i in range(10): sheet.write(i, 0, 'Row %d' % i) book.save('data.xls')
每種方法都有各自的優點和不足,可以根據實際需求選擇最適合的方法。
七、Python讀取表格求和
在數據統計和分析中,求和是一個常見的操作。pandas庫提供了sum方法,可以對DataFrame對象中的一列或多列數據進行求和。
import pandas as pd # 讀取表格數據 df = pd.read_excel('data.xlsx') # 求和 total = df['sales'].sum() print(total)
可以把多個列的數據進行相加,也可以在求和前進行篩選和過濾。
八、Python讀取表格填寫到另一個表格
有時候我們需要把一個表格的數據填寫到另一個表格中,比如說把兩個表格的數據進行匹配。pandas庫提供了merge方法,可以根據指定的列將兩個DataFrame對象進行合併。
import pandas as pd # 讀取表格數據 df1 = pd.read_excel('data1.xlsx') df2 = pd.read_excel('data2.xlsx') # 合併 df = pd.merge(df1, df2, on='key') print(df)
在merge方法中,on參數指定進行合併的列名,列名必須在兩個表格中都存在。合併後的結果可以用於後續的分析和處理。
九、Python讀取表格哪個快
在讀取表格時,不同的方法和庫的速度存在差異。為了測試不同方法的讀取速度,我們可以使用Python內置的timeit庫。
import timeit # 測試read_excel方法的速度 stmt = "pd.read_excel('data.xlsx')" setup = "import pandas as pd" t = timeit.timeit(stmt, setup, number=1000) print(t) # 測試xlrd庫的速度 stmt = "xlrd.open_workbook('data.xlsx').sheet_by_index(0)" setup = "import xlrd" t = timeit.timeit(stmt, setup, number=1000) print(t) # 測試openpyxl庫的速度 stmt = "load_workbook('data.xlsx').active" setup = "from openpyxl import load_workbook" t = timeit.timeit(stmt, setup, number=1000) print(t)
通過測試可以了解不同方法和庫的讀取速度,可以根據實際需求進行選擇。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/204395.html