無論是進行數據分析,還是進行機器學習,我們都會使用Python中的pandas庫。而當我們需要將多個數據集合併時,pandas之中的pandasconcat或者pandasmerge會是不錯的選擇。但是這兩個函數有時候不能滿足我們的需求,這時候就需要pandasappend了。本文將從函數的使用,到應用場景的舉例,一步步對pandasappend進行詳細闡述。
一、pandasappend函數
pandasappend函數,就是用於將數據合併的函數。其中可以合併Series或者DataFrame的數據類型。具體來說,可以使用如下的代碼來進行執行:pd.append或者DataFrame.append
其中DataFrame.append是類似於pd.concat函數的。而pd.append是Series數據類型的append函數。
該函數的具體參數有self, other, ignore_index=False, verify_integrity=False, sort=False,其中self代表當前的
Series或者DataFrame,而other則代表待合併的Series或者DataFrame。
import pandas as pd s1 = pd.Series(['a', 'b']) s2 = pd.Series(['c', 'd']) s3 = s1.append(s2) print(s3)
運行以上代碼,結果如下所示:
0 a 1 b 0 c 1 d dtype: object
在上面的代碼中,我們定義了兩個Series類型的變量s1和s2。然後,使用s1的append函數來將兩個Series合併,並將結果賦值給了s3。最後打印出了s3的結果。
二、pandasappend出現the frame
pandasappend最常用的情況是,將DataFrame按行合併起來。具體來說,就是將兩個DataFrame的列保持一致,行進行合併。
import pandas as pd
df1 = pd.DataFrame({'name': ['Jack', 'Tom'],
'age': [20, 25]})
df2 = pd.DataFrame({'name': ['John', 'Mike'],
'age': [23, 29]})
df3 = df1.append(df2)
print(df3)
運行以上代碼,結果如下所示:
name age
0 Jack 20
1 Tom 25
0 John 23
1 Mike 29
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用df1的append函數來將兩個DataFrame按行合併,並將結果賦值給了df3。最後打印出了df3的結果。
三、pandasappendconcatmerge
1. pandasconcat
pandasconcat是用於將多個DataFrame按指定的軸(axis)方向進行合併。常用的軸有0和1,0表示按行合併,1表示按列合併。
import pandas as pd
df1 = pd.DataFrame({'name': ['Jack', 'Tom'],
'age': [20, 25]})
df2 = pd.DataFrame({'score': [90, 80]})
df3 = pd.concat([df1, df2], axis=1)
print(df3)
運行以上代碼,結果如下所示:
name age score
0 Jack 20 90
1 Tom 25 80
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用pandasconcat函數將兩個DataFrame按列合併,並將結果賦值給了df3。最後打印出了df3的結果。
2. pandasmerge
pandasmerge是用於將兩個DataFrame按照指定的列進行合併的函數。常用的參數有兩個,一個是其中一個DataFrame的列名,另一個是另一個DataFrame的列名。
import pandas as pd
df1 = pd.DataFrame({'name': ['Jack', 'Tom'],
'age': [20, 25]})
df2 = pd.DataFrame({'name': ['Jack', 'Tom'],
'score': [90, 80]})
df3 = pd.merge(df1, df2, on='name')
print(df3)
運行以上代碼,結果如下所示:
name age score
0 Jack 20 90
1 Tom 25 80
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用pandasmerge函數按照’name’進行合併,並將結果賦值給了df3。最後打印出了df3的結果。
3. pandasappend
pandasappend是用於將兩個DataFrame按行進行合併的函數。具體實現方式與前面的介紹類似。
import pandas as pd
df1 = pd.DataFrame({'name': ['Jack', 'Tom'],
'age': [20, 25]})
df2 = pd.DataFrame({'name': ['John', 'Mike'],
'age': [23, 29]})
df3 = df1.append(df2)
print(df3)
運行以上代碼,結果如下所示:
name age
0 Jack 20
1 Tom 25
0 John 23
1 Mike 29
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用df1的append函數將兩個DataFrame按行合併,並將結果賦值給了df3。最後打印出了df3的結果。
四、應用場景
在日常的數據分析和處理中,pandasappend可以廣泛應用於多個數據源的合併,特別是在以下幾個場景中更加常見:
1. 數據分頁
在進行分頁時,我們需要將多個數據源進行合併。一般來說,每次從數據庫中讀入指定數目的數據,然後將數據合併起來,以供下一步的操作。
import pandas as pd
all_data = pd.DataFrame()
for page in range(1, 5):
data = pd.read_csv(f'data_{page}.csv')
all_data = all_data.append(data)
print(all_data)
在上面的代碼中,我們讀入了四個csv文件,然後使用df1的append函數將這四個文件按行合併起來,並將結果賦值給了all_data。最後打印出了all_data的結果。
2. 時間序列分析
時間序列分析常常需要將多個時間段的數據進行合併。這時候,就可以使用pandasappend進行處理。
import pandas as pd
all_data = pd.DataFrame()
for year in range(2018, 2021):
data = pd.read_csv(f'data_{year}.csv')
all_data = all_data.append(data)
print(all_data)
在上面的代碼中,我們讀入了三個csv文件,每個文件代表的是不同年份的數據。然後使用df1的append函數將這三個文件按行合併起來,並將結果賦值給了all_data。最後打印出了all_data的結果。
3. 數據庫數據導入
在從數據庫中讀取數據時,可能會導出多個文件。這時候,我們可以使用pandasappend對這些數據進行合併。
import pandas as pd
import sqlite3
conn = sqlite3.connect('database.db')
all_data = pd.DataFrame()
for table in ['table1', 'table2', 'table3']:
data = pd.read_sql_query(f'SELECT * FROM {table}', conn)
all_data = all_data.append(data)
print(all_data)
在上面的代碼中,我們連上了SQLite數據庫,並從中讀取了三個表。然後使用df1的append函數將這三個表按行合併起來,並將結果賦值給了all_data。最後打印出了all_data的結果。
總結
本文從函數的介紹,到應用場景的實例,詳細闡述了pandasappend的使用。
參考文獻
1. Pandas官方文檔. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html
2. 利用Python進行數據分析
3. 如何將pandas dataframe數據插入sqlite數據庫 https://blog.csdn.net/y906013829/article/details/84769055
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/191038.html
微信掃一掃
支付寶掃一掃