無論是進行數據分析,還是進行機器學習,我們都會使用Python中的pandas庫。而當我們需要將多個數據集合併時,pandas之中的pandasconcat或者pandasmerge會是不錯的選擇。但是這兩個函數有時候不能滿足我們的需求,這時候就需要pandasappend了。本文將從函數的使用,到應用場景的舉例,一步步對pandasappend進行詳細闡述。
一、pandasappend函數
pandasappend函數,就是用於將數據合併的函數。其中可以合併Series或者DataFrame的數據類型。具體來說,可以使用如下的代碼來進行執行:pd.append
或者DataFrame.append
其中DataFrame.append
是類似於pd.concat
函數的。而pd.append
是Series數據類型的append函數。
該函數的具體參數有self, other, ignore_index=False, verify_integrity=False, sort=False
,其中self
代表當前的
Series或者DataFrame,而other
則代表待合併的Series或者DataFrame。
import pandas as pd s1 = pd.Series(['a', 'b']) s2 = pd.Series(['c', 'd']) s3 = s1.append(s2) print(s3)
運行以上代碼,結果如下所示:
0 a 1 b 0 c 1 d dtype: object
在上面的代碼中,我們定義了兩個Series類型的變量s1和s2。然後,使用s1的append函數來將兩個Series合併,並將結果賦值給了s3。最後打印出了s3的結果。
二、pandasappend出現the frame
pandasappend最常用的情況是,將DataFrame按行合併起來。具體來說,就是將兩個DataFrame的列保持一致,行進行合併。
import pandas as pd df1 = pd.DataFrame({'name': ['Jack', 'Tom'], 'age': [20, 25]}) df2 = pd.DataFrame({'name': ['John', 'Mike'], 'age': [23, 29]}) df3 = df1.append(df2) print(df3)
運行以上代碼,結果如下所示:
name age 0 Jack 20 1 Tom 25 0 John 23 1 Mike 29
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用df1的append函數來將兩個DataFrame按行合併,並將結果賦值給了df3。最後打印出了df3的結果。
三、pandasappendconcatmerge
1. pandasconcat
pandasconcat是用於將多個DataFrame按指定的軸(axis)方向進行合併。常用的軸有0和1,0表示按行合併,1表示按列合併。
import pandas as pd df1 = pd.DataFrame({'name': ['Jack', 'Tom'], 'age': [20, 25]}) df2 = pd.DataFrame({'score': [90, 80]}) df3 = pd.concat([df1, df2], axis=1) print(df3)
運行以上代碼,結果如下所示:
name age score 0 Jack 20 90 1 Tom 25 80
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用pandasconcat函數將兩個DataFrame按列合併,並將結果賦值給了df3。最後打印出了df3的結果。
2. pandasmerge
pandasmerge是用於將兩個DataFrame按照指定的列進行合併的函數。常用的參數有兩個,一個是其中一個DataFrame的列名,另一個是另一個DataFrame的列名。
import pandas as pd df1 = pd.DataFrame({'name': ['Jack', 'Tom'], 'age': [20, 25]}) df2 = pd.DataFrame({'name': ['Jack', 'Tom'], 'score': [90, 80]}) df3 = pd.merge(df1, df2, on='name') print(df3)
運行以上代碼,結果如下所示:
name age score 0 Jack 20 90 1 Tom 25 80
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用pandasmerge函數按照’name’進行合併,並將結果賦值給了df3。最後打印出了df3的結果。
3. pandasappend
pandasappend是用於將兩個DataFrame按行進行合併的函數。具體實現方式與前面的介紹類似。
import pandas as pd df1 = pd.DataFrame({'name': ['Jack', 'Tom'], 'age': [20, 25]}) df2 = pd.DataFrame({'name': ['John', 'Mike'], 'age': [23, 29]}) df3 = df1.append(df2) print(df3)
運行以上代碼,結果如下所示:
name age 0 Jack 20 1 Tom 25 0 John 23 1 Mike 29
在上面的代碼中,我們定義了兩個DataFrame類型的變量df1和df2。然後使用df1的append函數將兩個DataFrame按行合併,並將結果賦值給了df3。最後打印出了df3的結果。
四、應用場景
在日常的數據分析和處理中,pandasappend可以廣泛應用於多個數據源的合併,特別是在以下幾個場景中更加常見:
1. 數據分頁
在進行分頁時,我們需要將多個數據源進行合併。一般來說,每次從數據庫中讀入指定數目的數據,然後將數據合併起來,以供下一步的操作。
import pandas as pd all_data = pd.DataFrame() for page in range(1, 5): data = pd.read_csv(f'data_{page}.csv') all_data = all_data.append(data) print(all_data)
在上面的代碼中,我們讀入了四個csv文件,然後使用df1的append函數將這四個文件按行合併起來,並將結果賦值給了all_data。最後打印出了all_data的結果。
2. 時間序列分析
時間序列分析常常需要將多個時間段的數據進行合併。這時候,就可以使用pandasappend進行處理。
import pandas as pd all_data = pd.DataFrame() for year in range(2018, 2021): data = pd.read_csv(f'data_{year}.csv') all_data = all_data.append(data) print(all_data)
在上面的代碼中,我們讀入了三個csv文件,每個文件代表的是不同年份的數據。然後使用df1的append函數將這三個文件按行合併起來,並將結果賦值給了all_data。最後打印出了all_data的結果。
3. 數據庫數據導入
在從數據庫中讀取數據時,可能會導出多個文件。這時候,我們可以使用pandasappend對這些數據進行合併。
import pandas as pd import sqlite3 conn = sqlite3.connect('database.db') all_data = pd.DataFrame() for table in ['table1', 'table2', 'table3']: data = pd.read_sql_query(f'SELECT * FROM {table}', conn) all_data = all_data.append(data) print(all_data)
在上面的代碼中,我們連上了SQLite數據庫,並從中讀取了三個表。然後使用df1的append函數將這三個表按行合併起來,並將結果賦值給了all_data。最後打印出了all_data的結果。
總結
本文從函數的介紹,到應用場景的實例,詳細闡述了pandasappend的使用。
參考文獻
1. Pandas官方文檔. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html
2. 利用Python進行數據分析
3. 如何將pandas dataframe數據插入sqlite數據庫 https://blog.csdn.net/y906013829/article/details/84769055
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/191038.html