包含python3同步資料庫整張表的詞條

本文目錄一覽：

1、python中如何將表中的數據做成一張表,然後再從中取出數據？
2、後端編程Python3-資料庫編程
3、用python將幾個mysql資料庫的數據同步到一個mysql裡面
4、django python 資料庫同步的方案，請幫我想一想？

python中如何將表中的數據做成一張表,然後再從中取出數據？

第一部分是生成數據表，常見的生成方法有兩種，第一種是導入外部數據，第二種是直接寫入數據。 Excel 中的文件菜單中提供了獲取外部數據的功能，支持資料庫和文本文件和頁面的多種數據源導入。

獲取外部數據

python 支持從多種類型的數據導入。在開始使用 python 進行數據導入前需要先導入 pandas 庫，為了方便起見，我們也同時導入 numpy 庫。

1 import numpy as np

2 import pandas as pd

導入數據表

下面分別是從 excel 和 csv 格式文件導入數據並創建數據表的方法。代碼是最簡模式，裡面有很多可選參數設置，例如列名稱，索引列，數據格式等等。感興趣的朋友可以參考 pandas 的

官方文檔。

1 df=pd.DataFrame(pd.read_csv(『name.csv』,header=1))

2 df=pd.DataFrame(pd.read_excel(『name.xlsx』))

創建數據表

另一種方法是通過直接寫入數據來生成數據表，excel 中直接在單元格中輸入數據就可以，python 中通過下面的代碼來實現。生成數據表的函數是 pandas 庫中的 DateFrame 函數，數據表一共有 6 行數據，每行有 6 個欄位。在數據中我們特意設置了一些 NA 值和有問題的欄位，例如包含空格等。後面將在數據清洗步驟進行處理。後面我們將統一以 DataFrame 的簡稱 df 來命名數據表。

1 df = pd.DataFrame({『id』:[1001,1002,1003,1004,1005,1006],

2 『date』:pd.date_range(『20130102』, periods=6),

3 『city』:[‘Beijing ‘, 『SH』, 』 guangzhou ‘, 『Shenzhen』, 『shanghai』, ‘BEIJING ‘],

4 『age』:[23,44,54,32,34,32],

5 『category』:[『100-A』,『100-B』,『110-A』,『110-C』,『210-A』,『130-F』],

6 『price』:[1200,np.nan,2133,5433,np.nan,4432]},

7 columns =[『id』,『date』,『city』,『category』,『age』,『price』])

這是剛剛創建的數據表，我們沒有設置索引列，price 欄位中包含有 NA 值，city 欄位中還包含了一些臟數據。

數據表檢查

python 中處理的數據量通常會比較大，所以就需要我們對數據表進行檢查。比如我們之前的文章中介紹的紐約計程車數據和 Citibike 的騎行數據，數據量都在千萬級，我們無法一目了然的了解數據表的整體情況，必須要通過一些方法來獲得數據表的關鍵信息。數據表檢查的另一個目的是了解數據的概況，例如整個數據表的大小，所佔空間，數據格式，是否有空值和重複項和具體的數據內容。為後面的清洗和預處理做好準備。

數據維度(行列)

Excel 中可以通過 CTRL 向下的游標鍵，和 CTRL 向右的游標鍵來查看行號和列號。Python 中使用 shape 函數來查看數據表的維度，也就是行數和列數，函數返回的結果(6,6)表示數據表有 6 行，6 列。下面是具體的代碼。

1 #查看數據表的維度

2 df.shape

3 (6, 6)

數據表信息

使用 info 函數查看數據表的整體信息，這裡返回的信息比較多，包括數據維度，列名稱，數據格式和所佔空間等信息。

1 #數據表信息

2 df.info()

4 class 『pandas.core.frame.DataFrame』

5 RangeIndex: 6 entries, 0 to 5

6 Data columns (total 6 columns):

7 id 6 non-null int64

8 date 6 non-null datetime64[ns]

9 city 6 non-null object

10 category 6 non-null object

11 age 6 non-null int64

12 price 4 non-null float64

13 dtypes: datetime64ns, float64(1), int64(2), object(2)

14 memory usage: 368.0 bytes

查看數據格式

Excel 中通過選中單元格並查看開始菜單中的數值類型來判斷數據的格式。Python 中使用 dtypes 函數來返回數據格式。

Dtypes 是一個查看數據格式的函數，可以一次性查看數據表中所有數據的格式，也可以指定一列來單獨查看。

1#查看數據表各列格式

2df.dtypes

4id int64

5date datetime64[ns]

6city object

7category object

8age int64

9price float64

10dtype: object

12#查看單列格式

13df[『B』].dtype

15dtype(『int64』)

查看空值

Excel 中查看空值的方法是使用「定位條件」功能對數據表中的空值進行定位。「定位條件」在「開始」目錄下的「查找和選擇」目錄中。

Isnull 是 Python 中檢驗空值的函數，返回的結果是邏輯值，包含空值返回 True，不包含則返回 False。可以對整個數據表進行檢查，也可以單獨對某一列進行空值檢查。

df_isnull

1#檢查特定列空值

2df[『price』].isnull()

40 False

51 True

62 False

73 False

84 True

95 False

10Name: price, dtype: bool

查看唯一值

Excel 中查看唯一值的方法是使用「條件格式」對唯一值進行顏色標記。Python 中使用 unique 函數查看唯一值。

Unique 是查看唯一值的函數，只能對數據表中的特定列進行檢查。下面是代碼，返回的結果是該列中的唯一值。類似與 Excel 中刪除重複項後的結果。

1 #查看 city 列中的唯一值

2 df[『city』].unique()34array([‘Beijing ‘, 『SH』, 』 guangzhou ‘, 『Shenzhen』, 『shanghai』, ‘BEIJING ‘], dtype=object)

查看數據表數值

Python 中的 Values 函數用來查看數據表中的數值。以數組的形式返回，不包含表頭信息。

1#查看數據表的值

2df.values

4array([[1001, Timestamp(『2013-01-02 00:00:00』), ‘Beijing ‘, 『100-A』, 23,

5 1200.0],

6 [1002, Timestamp(『2013-01-03 00:00:00』), 『SH』, 『100-B』, 44, nan],

7 [1003, Timestamp(『2013-01-04 00:00:00』), 』 guangzhou ‘, 『110-A』, 54,

8 2133.0],

9 [1004, Timestamp(『2013-01-05 00:00:00』), 『Shenzhen』, 『110-C』, 32,

10 5433.0],

11 [1005, Timestamp(『2013-01-06 00:00:00』), 『shanghai』, 『210-A』, 34,

12 nan],

13 [1006, Timestamp(『2013-01-07 00:00:00』), ‘BEIJING ‘, 『130-F』, 32,

14 4432.0]], dtype=object)

查看列名稱

Colums 函數用來單獨查看數據表中的列名稱。

1 #查看列名稱

2 df.columns

4 Index([『id』, 『date』, 『city』, 『category』, 『age』, 『price』], dtype=『object』)

查看前 10 行數據

Head 函數用來查看數據表中的前 N 行數據，默認 head()顯示前 10 行數據，可以自己設置參數值來確定查看的行數。下面的代碼中設置查看前 3 行的數據。

1#查看前 3 行數據“df.head(“3“)

Tail 行數與 head 函數相反，用來查看數據表中後 N 行的數據，默認 tail()顯示後 10 行數據，可以自己設置參數值來確定查看的行數。下面的代碼中設置查看後 3 行的數據。

1#查看最後 3 行df.tail(3)

後端編程Python3-資料庫編程

對大多數軟體開發者而言，術語資料庫通常是指RDBMS（關係資料庫管理系統）, 這些系統使用表格（類似於電子表格的網格），其中行表示記錄，列表示記錄的欄位。表格及其中存放的數據是使用SQL （結構化査詢語言）編寫的語句來創建並操縱的。Python提供了用於操縱SQL資料庫的API（應用程序介面），通常與作為標準的SQLite 3資料庫一起發布。

另一種資料庫是DBM （資料庫管理器），其中存放任意數量的鍵-值項。Python 的標準庫提供了幾種DBM的介面，包括某些特定於UNIX平台的。DBM的工作方式與Python中的字典類似，區別在於DBM通常存放於磁碟上而不是內存中，並且其鍵與值總是bytes對象，並可能受到長度限制。本章第一節中講解的shelve模塊提供了方便的DBM介面，允許我們使用字元串作為鍵，使用任意（picklable）對象作為值。

如果可用的 DBM 與 SQLite 資料庫不夠充分，Python Package Index, pypi.python.org/pypi中提供了大量資料庫相關的包，包括bsddb DBM (“Berkeley DB”)，對象-關係映射器，比如SQLAlchemy （）,以及流行的客戶端/伺服器數據的介面，比如 DB2、Informix、Ingres、MySQL、ODBC 以及 PostgreSQL。

本章中，我們將實現某程序的兩個版本，該程序用於維護一個DVD列表，並追蹤每個DVD的標題、發行年份、時間長度以及發行者。該程序的第一版使用DBM （通過shelve模塊）存放其數據，第二版則使用SQLite資料庫。兩個程序都可以載入與保存簡單的XML格式，這使得從某個程序導出DVD數據並將其導入到其他程序成為可能。與DBM版相比，基於SQL的程序提供了更多一些的功能，並且其數據設計也稍乾淨一些。

12.1 DBM資料庫

shelve模塊為DBM提供了一個wrapper,藉助於此，我們在與DBM交互時，可以將其看做一個字典，這裡是假定我們只使用字元串鍵與picklable值，實際處理時， shelve模塊會將鍵與值轉換為bytes對象(或者反過來)。

由於shelve模塊使用的是底層的DBM,因此，如果其他計算機上沒有同樣的DBM,那麼在某台計算機上保存的DBM文件在其他機器上無法讀取是可能的。為解決這一問題，常見的解決方案是對那些必須在機器之間可傳輸的文件提供XML導入與導出功能，這也是我們在本節的DVD程序dvds-dbm.py中所做的。

對鍵，我們使用DVD的標題；對值，則使用元組，其中存放發行者、發行年份以及時間。藉助於shelve模塊，我們不需要進行任何數據轉換，並可以把DBM對象當做一個字典進行處理。

程序在結構上類似於我們前面看到的那種菜單驅動型的程序，因此，這裡主要展示的是與DBM程序設計相關的那部分。下面給出的是程序main()函數中的一部分，忽略了其中菜單處理的部分代碼。

db = None

try:

db = shelve.open(filename, protocol=pickle.HIGHEST_PROTOCOL)

finally:

if db is not None:

db.dose()

這裡我們已打開(如果不存在就創建)指定的DBM文件，以便於對其進行讀寫操作。每一項的值使用指定的pickle協議保存為一個pickle,現有的項可以被讀取，即便是使用更底層的協議保存的，因為Python可以計算出用於讀取pickle的正確協議。最後，DBM被關閉——其作用是清除DBM的內部緩存，並確保磁碟文件可以反映出已作的任何改變，此外，文件也需要關閉。

該程序提供了用於添加、編輯、列出、移除、導入、導出DVD數據的相應選項。除添加外，我們將忽略大部分用戶介面代碼，同樣是因為已經在其他上下文中進行了展示。

def add_dvd(db):

title = Console.get_string(“Title”, “title”)

if not title:

return

director = Console.get_string(“Director”, “director”)

if not director:

return

year = Console.get_integer(“Year”, “year”,minimum=1896,

maximum=datetime,date.today().year)

duration = Console.get_integer(“Duration (minutes)”, “minutes「, minimum=0, maximum=60*48)

db[title] = (director, year, duration)

db.sync()

像程序菜單調用的所有函數一樣，這一函數也以DBM對象(db)作為其唯一參數。該函數的大部分工作都是獲取DVD的詳細資料，在倒數第二行，我們將鍵-值項存儲在DBM文件中,DVD的標題作為鍵，發行者、年份以及時間(由shelve模塊pickled在一起)作為值。

為與Python通常的一致性同步，DBM提供了與字典一樣的API，因此，除了 shelve.open() 函數(前面已展示)與shelve.Shelf.sync()方法(該方法用於清除shelve的內部緩存，並對磁碟上文件的數據與所做的改變進行同步——這裡就是添加一個新項)，我們不需要學習任何新語法。

def edit_dvd(db):

old_title = find_dvd(db, “edit”)

if old_title is None:

return

title = Console.get.string(“Title”, “title”, old_title)

if not title:

return

director, year, duration = db[old_title]

…

db[title]= (director, year, duration)

if title != old_title:

del db[old_title]

db.sync()

為對某個DVD進行編輯，用戶必須首先選擇要操作的DVD,也就是獲取DVD 的標題，因為標題用作鍵，值則用於存放其他相關數據。由於必要的功能在其他場合 (比如移除DVD)也需要使用，因此我們將其實現在一個單獨的find_dvd()函數中，稍後將査看該函數。如果找到了該DVD,我們就獲取用戶所做的改變，並使用現有值作為默認值，以便提高交互的速度。(對於這一函數，我們忽略了大部分用戶介面代碼，因為其與添加DVD時幾乎是相同的。)最後，我們保存數據，就像添加時所做的一樣。如果標題未作改變，就重寫相關聯的值；如果標題已改變，就創建一個新的鍵-值對，並且需要刪除原始項。

def find_dvd(db, message):

message = “(Start of) title to ” + message

while True:

matches =[]

start = Console.get_string(message, “title”)

if not start:

return None

for title in db:

if title.lower().startswith(start.lower()):

matches.append(title)

if len(matches) == 0:

print(“There are no dvds starting with”, start)

continue

elif len(matches) == 1:

return matches[0]

elif len(matches) DISPLAY_LIMIT:

print(“Too many dvds start with {0}; try entering more of the title”.format(start)

continue

else:

matches = sorted(matches, key=str.lower)

for i, match in enumerate(matches):

print(“{0}: {1}”.format(i+1, match))

which = Console.get_integer(“Number (or 0 to cancel)”,

“number”, minimum=1, maximum=len(matches))

return matches[which – 1] if which != 0 else None

為儘可能快而容易地發現某個DVD,我們需要用戶只輸入其標題的一個或頭幾個字元。在具備了標題的起始字元後，我們在DBM中迭代並創建一個匹配列表。如果只有一個匹配項，就返回該項；如果有幾個匹配項(但少於DISPLAY_LIMIT, 一個在程序中其他地方設置的整數)，就以大小寫不敏感的順序展示所有這些匹配項，並為每一項設置一個編號，以便用戶可以只輸入編號就可以選擇某個標題。(Console.get_integer()函數可以接受0,即便最小值大於0,以便0可以用作一個刪除值。通過使用參數allow_zero=False, 可以禁止這種行為。我們不能使用Enter鍵，也就是說，沒有什麼意味著取消，因為什麼也不輸入意味著接受默認值。)

def list_dvds(db):

start =」”

if len(db) DISPLAY.LIMIT:

start = Console.get_string(「List those starting with [Enter=all]」， “start」)

print()

for title in sorted(db, key=str.lower):

if not start or title.Iower().startswith(start.lower()):

director, year, duration = db[title]

print(“{title} ({year}) {duration} minute{0}, by ”

“{director}”.format(Util.s(duration),**locals()))

列出所有DVD (或者那些標題以某個子字元串引導)就是對DBM的所有項進行迭代。

Util.s()函數就是簡單的s = lambda x: “” if x == 1 else “s”,因此，如果時間長度不是1分鐘，就返回”s”。

def remove_dvd(db):

title = find_dvd(db, “remove”)

if title is None:

return

ans = Console.get_bool(“Remove {0}?”.format(title), “no”)

if ans:

del db[title]

db.sync()

要移除一個DVD,首先需要找到用戶要移除的DVD,並請求確認，獲取後從DBM中刪除該項即可。

到這裡，我們展示了如何使用shelve模塊打開(或創建)一個DBM文件，以及如何向其中添加項、編輯項、對其項進行迭代以及移除某個項。

遺憾的是，在我們的數據設計中存在一個瑕疵。發行者名稱是重複的，這很容易導致不一致性，比如，發行者Danny DeVito可能被輸入為”Danny De Vito”,用於一個電影；也可以輸入為「Danny deVito”,用於另一個。為解決這一問題，可以使用兩個DBM文件，主DVD文件使用標題鍵與(年份，時間長度，發行者ID)值; 發行者文件使用發行者ID (整數)鍵與發行者名稱值。下一節展示的SQL資料庫版程序將避免這一瑕疵，這是通過使用兩個表格實現的，一個用於DVD,另一個用於發行者。

12.2 SQL資料庫

大多數流行的SQL資料庫的介面在第三方模塊中是可用的，Python帶有sqlite3 模塊(以及SQLite 3資料庫)，因此，在Python中，可以直接開始資料庫程序設計。SQLite是一個輕量級的SQL資料庫，缺少很多諸如PostgreSQL這種資料庫的功能，但非常便於構造原型系統，並且在很多情況下也是夠用的。

為使後台資料庫之間的切換儘可能容易，PEP 249 (Python Database API Specification v2.0)提供了稱為DB-API 2.0的API規範。資料庫介面應該遵循這一規範，比如sqlite3模塊就遵循這一規範，但不是所有第三方模塊都遵循。API規範中指定了兩種主要的對象，即連接對象與游標對象。表12-1與表12-2中分別列出了這兩種對象必須支持的API。在sqlite3模塊中，除DB-API 2.0規範必需的之外，其連接對象與游標對象都提供了很多附加的屬性與方法。

DVD程序的SQL版本為dvds.sql.py,該程序將發行者與DVD數據分開存儲，以避免重複，並提供一個新菜單，以供用戶列出發行者。該程序使用的兩個表格在圖12-1

def connect(filename):

create= not os.path.exists(filename)

db = sqlite3.connect(filename)

if create:

cursor = db.cursor()

cursor.execute(“CREATE TABLE directors (”

“id INTEGER PRIMARY KEY AUTOINCREMENT UNIQUE NOT NULL, ”

“name TEXT UNIQUE NOT NULL)”)

cursor.execute(“CREATE TABLE dvds (”

“id INTEGER PRIMARY KEY AUTOINCREMENT UNIQUE NOT NULL, ”

“title TEXT NOT NULL, ”

“year INTEGER NOT NULL,”

“duration INTEGER NOT NULL, ”

“director_id INTEGER NOT NULL, 」

“FOREIGN KEY (director_id) REFERENCES directors)”)

db.commit()

return db

sqlite3.connect()函數會返回一個資料庫對象，並打開其指定的資料庫文件。如果該文件不存在，就創建一個空的資料庫文件。鑒於此，在調用sqlite3.connect()之前，我們要注意資料庫是否是準備從頭開始創建，如果是，就必須創建該程序要使用的表格。所有査詢都是通過一個資料庫游標完成的，可以從資料庫對象的cursor()方法獲取。

注意，兩個表格都是使用一個ID欄位創建的，ID欄位有一個AUTOINCREMENT 約束——這意味著SQLite會自動為ID欄位賦予唯一性的數值，因此，在插入新記錄時，我們可以將這些欄位留給SQLite處理。

SQLite支持有限的數據類型——實際上就是布爾型、數值型與字元串——但使用數據’『適配器」可以對其進行擴展，或者是擴展到預定義的數據類型(比如那些用於日期與datetimes的類型)，或者是用於表示任意數據類型的自定義類型。DVD程序並不需要這一功能，如果需要，sqlite3模塊的文檔提供了很多詳細解釋。我們使用的外部鍵語法可能與用於其他資料庫的語法不同，並且在任何情況下，只是記錄我們的意圖，因為SQLite不像很多其他資料庫那樣需要強制關係完整性，sqlite3另一點與眾不同的地方在於其默認行為是支持隱式的事務處理，因此，沒有提供顯式的「開始事務」方法。

def add_dvd(db):

title = Console.get_string(“Title”, “title”)

if not title:

return

director = Console.get_string(“Director”, “director”)

if not director:

return

year = Console.get_integer(“Year”, “year」, minimum=1896,

maximum=datetime.date.today().year)

duration = Console.get_integer(“Duration (minutes)”, “minutes”,

minimum=0,maximum=60*48)

director_id = get_and_set_director(db, director)

cursor = db.cursor()

cursor.execute(“INSERT INTO dvds 」

“(title, year, duration, director_id)”

“VALUES (?, ?, ?, ?)”,

(title, year, duration, director_id))

db.commit()

這一函數的開始代碼與dvds-dbm.py程序中的對應函數一樣，但在完成數據的收集後，與原來的函數有很大的差別。用戶輸入的發行者可能在也可能不在directors表格中，因此，我們有一個get_and_set_director()函數，在資料庫中尚無某個發行者時，該函數就將其插入到其中，無論哪種情況都返回就緒的發行者ID,以便在需要的時候插入到dvds表。在所有數據都可用後，我們執行一條SQL INSERT語句。我們不需要指定記錄ID,因為SQLite會自動為我們提供。

在査詢中，我們使用問號(？)作為佔位符，每個?都由包含SQL語句的字元串後面的序列中的值替代。命名的佔位符也可以使用，後面在編輯記錄時我們將看到。儘管避免使用佔位符(而只是簡單地使用嵌入到其中的數據來格式化SQL字元串)也是可能的，我們建議總是使用佔位符，並將數據項正確編碼與轉義的工作留給資料庫模塊來完成。使用佔位符的另一個好處是可以提高安全性，因為這可以防止任意的SQL 被惡意地插入到一個査詢中。

def get_and_set_director(db, director):

director_id = get_director_id(db, director)

if directorjd is not None:

return director_id

cursor = db.cursor()

cursor.execute(“lNSERT INTO directors (name) VALUES (?)」,(director,))

db.commit()

return get_director_id(db, director)

這一函數返回給定發行者的ID,並在必要的時候插入新的發行者記錄。如果某個記錄被插入，我們首先嘗試使用get_director_id()函數取回其ID。

def get_director_id(db, director):

cursor = db.cursor()

cursor.execute(“SELECT id FROM directors WHERE name=?”,(director,))

fields = cursor.fetchone()

return fields[0] if fields is not None else None

get_director_id()函數返回給定發行者的ID,如果資料庫中沒有指定的發行者，就返回None。我們使用fetchone()方法，因為或者有一個匹配的記錄，或者沒有。(我們知道，不會有重複的發行者，因為directors表格的名稱欄位有一個UNIQUE約束，在任何情況下，在添加一個新的發行者之前，我們總是先檢査其是否存在。)這種取回方法總是返回一個欄位序列(如果沒有更多的記錄，就返回None)。即便如此，這裡我們只是請求返回一個單獨的欄位。

def edit_dvd(db):

title, identity = find_dvd(db, “edit”)

if title is None:

return

title = Console.get_string(“Title”,”title”, title)

if not title:

return

cursor = db.cursor()

cursor.execute(“SELECT dvds.year, dvds.duration, directors.name”

「FROM dvds, directors ”

“WHERE dvds.director_id = directors.id AND ”

“dvds.id=:id”, dict(id=identity))

year, duration, director = cursor.fetchone()

director = Console.get_string(“Director”, “director”, director)

if not director:

return

year = Console,get_integer(“Year”,”year”, year, 1896,datetime.date.today().year)

duration = Console.get_integer(“Duration (minutes)”, “minutes”,

duration, minimum=0, maximum=60*48)

director_id = get_and_set_director(db, director)

cursor.execute(“UPDATE dvds SET title=:title, year=:year,”

“duration=:duration, director_id=:directorjd ”

“WHERE id=:identity”, locals())

db.commit()

要編輯DVD記錄，我們必須首先找到用戶需要操縱的記錄。如果找到了某個記錄，我們就給用戶修改其標題的機會，之後取回該記錄的其他欄位，以便將現有值作為默認值，將用戶的輸入工作最小化，用戶只需要按Enter鍵就可以接受默認值。這裡，我們使用了命名的佔位符(形式為:name),並且必須使用映射來提供相應的值。對SELECT語句，我們使用一個新創建的字典；對UPDATE語句，我們使用的是由 locals()返回的字典。

我們可以同時為這兩個語句都使用新字典，這種情況下，對UPDATE語句，我們可以傳遞 dict(title=title, year=year, duration=duration, director_id=director_id, id=identity))，而非 locals()。

在具備所有欄位並且用戶已經輸入了需要做的改變之後，我們取回相應的發行者ID (如果必要就插入新的發行者記錄)，之後使用新數據對資料庫進行更新。我們採用了一種簡化的方法，對記錄的所有欄位進行更新，而不僅僅是那些做了修改的欄位。

在使用DBM文件時，DVD標題被用作鍵，因此，如果標題進行了修改，我們就需要創建一個新的鍵-值項，並刪除原始項。不過，這裡每個DVD記錄都有一個唯一性的ID,該ID是記錄初次插入時創建的，因此，我們只需要改變任何其他欄位的值，而不需要其他操作。

def find_dvd(db, message):

message = “(Start of) title to ” + message

cursor = db.cursor()

while True: .

start = Console.get_stnng(message, “title”)

if not start:

return (None, None)

cursor.execute(“SELECT title, id FROM dvds ”

“WHERE title LIKE ? ORDER BY title」，

(start +”%”,))

records = cursor.fetchall()

if len(records) == 0:

print(“There are no dvds starting with”, start)

continue

elif len(records) == 1:

return records[0]

elif len(records) DISPLAY_LIMIT:

print(“Too many dvds ({0}) start with {1}; try entering ”

“more of the title”.format(len(records),start))

continue

else:

for i, record in enumerate(records):

print(“{0}:{1}”.format(i + 1, record[0]))

which = Console.get_integer(“Number (or 0 to cancel)”,

“number”, minimum=1, maximum=len(records))

return records[which -1] if which != 0 else (None, None)

這一函數的功能與dvdsdbm.py程序中的find_dvd()函數相同，並返回一個二元組 (DVD標題，DVD ID)或(None, None),具體依賴於是否找到了某個記錄。這裡並不需要在所有數據上進行迭代，而是使用SQL通配符(%),因此只取回相關的記錄。

由於我們希望匹配的記錄數較小，因此我們一次性將其都取回到序列的序列中。如果有不止一個匹配的記錄，但數量上又少到可以顯示，我們就列印記錄，並將每條記錄附帶一個數字編號，以便用戶可以選擇需要的記錄，其方式與在dvds-dbm.py程序中所做的類似：

def list_dvds(db):

cursor = db.cursor()

sql = (“SELECT dvds.title, dvds.year, dvds.duration, ”

“directors.name FROM dvds, directors ”

“WHERE dvds.director_id = directors.id”)

start = None

if dvd_count(db) DISPLAY_LIMIT:

start = Console.get_string(“List those starting with [Enter=all]”, “start”)

sql += ” AND dvds.title LIKE ?”

sql += 」 ORDER BY dvds.title”

print()

if start is None:

cursor.execute(sql)

else:

cursor.execute(sql, (start +”%”,))

for record in cursor:

print(“{0[0]} ({0[1]}) {0[2]} minutes, by {0[3]}”.format(record))

要列出每個DVD的詳細資料，我們執行一個SELECT査詢。該査詢連接兩個表，如果記錄(由dvd_count()函數返回)數量超過了顯示限制值,就將第2個元素添加到WHERE 分支，之後執行該査詢，並在結果上進行迭代。每個記錄都是一個序列，其欄位是與 SELECT査詢相匹配的。

def dvd_count(db):

cursor = db.cursor()

cursor.execute(“SELECT COUNT(*) FROM dvds”)

return cursor.fetchone()[0]

我們將這幾行代碼放置在一個單獨的函數中，因為我們在幾個不同的函數中都需要使用這幾行代碼。

我們忽略了 list_directors()函數的代碼，因為該函數在結構上與list_dvds()函數非常類似，只不過更簡單一些，因為本函數只列出一個欄位(name)。

def remove_dvd(db):

title, identity = find_dvd(db, “remove”)

if title is None:

return

ans = Console.get_bool(“Remove {0}?”.format(title), “no”)

if ans:

cursor = db.cursor()

cursor.execute(“DELETE FROM dvds WHERE id=?”, (identity,))

db.commit()

在用戶需要刪除一個記錄時，將調用本函數，並且本函數與dvds-dbm.py程序中相應的函數是非常類似的。

到此，我們完全查閱了 dvds-sql.py程序，並且了解了如何創建資料庫表格、選取記錄、在選定的記錄上進行迭代以及插入、更新與刪除記錄。使用execute()方法，我們可以執行底層資料庫所支持的任意SQL語句。

SQLite提供了比我們這裡使用的多得多的功能，包括自動提交模式（以及任意其他類型的事務控制），以及創建可以在SQL查詢內執行的函數的能力。提供一個工廠函數並用於控制對每個取回的記錄返回什麼（比如，一個字典或自定義類型，而不是欄位序列）也是可能的。此外，通過傳遞「:memory:」作為文件名，創建內存中的SQLite 資料庫也是可能的。

以上內容部分摘自視頻課程05後端編程Python22 資料庫編程，更多實操示例請參照視頻講解。跟著張員外講編程，學習更輕鬆，不花錢還能學習真本領。

用python將幾個mysql資料庫的數據同步到一個mysql裡面

MySQL 的 Binlog 記錄著 MySQL 資料庫的所有變更信息，了解 Binlog 的結構可以幫助我們解析Binlog，甚至對 Binlog 進行一些修改，或者說是「篡改」，例如實現類似於 Oracle 的 flashback 的功能，恢復誤刪除的記錄，把 update 的記錄再還原回去等。本文將帶您探討一下這些神奇功能的實現，您會發現比您想像地要簡單得多。本文指的 Binlog 是 ROW 模式的 Binlog，這也是 MySQL 8 里的默認模式，STATEMENT 模式因為使用中有很多限制，現在用得越來越少了。

Binlog 由事件（event）組成，請注意是事件（event）不是事務（transaction），一個事務可以包含多個事件。事件描述對資料庫的修改內容。

現在我們已經了解了 Binlog 的結構，我們可以試著修改 Binlog 里的數據。例如前面舉例的 Binlog 刪除了一條記錄，我們可以試著把這條記錄恢復，Binlog 裡面有個刪除行（DELETE_ROWS_EVENT）的事件，就是這個事件刪除了記錄，這個事件和寫行（WRITE_ROWS_EVENT）的事件的數據結構是完全一樣的，只是刪除行事件的類型是 32，寫行事件的類型是 30，我們把對應的 Binlog 位置的 32 改成 30 即可把已經刪除的記錄再插入回去。從前面的「show binlog events」裡面可看到這個 DELETE_ROWS_EVENT 是從位置 378 開始的，這裡的位置就是 Binlog 文件的實際位置（以位元組為單位）。從事件（event）的結構裡面可以看到 type_code 是在 event 的第 5 個位元組，我們寫個 Python 小程序把把第383（378+5=383）位元組改成 30 即可。當然您也可以用二進位編輯工具來改。

找出 Binlog 中的大事務

由於 ROW 模式的 Binlog 是每一個變更都記錄一條日誌，因此一個簡單的 SQL，在 Binlog 里可能會產生一個巨無霸的事務，例如一個不帶 where 的 update 或 delete 語句，修改了全表裡面的所有記錄，每條記錄都在 Binlog 裡面記錄一次，結果是一個巨大的事務記錄。這樣的大事務經常是產生麻煩的根源。我的一個客戶有一次向我抱怨，一個 Binlog 前滾，滾了兩天也沒有動靜，我把那個 Binlog 解析了一下，發現裡面有個事務產生了 1.4G 的記錄，修改了 66 萬條記錄！下面是一個簡單的找出 Binlog 中大事務的 Python 小程序，我們知道用 mysqlbinlog 解析的 Binlog，每個事務都是以 BEGIN 開頭，以 COMMIT 結束。我們找出 BENGIN 前面的「# at」的位置，檢查 COMMIT 後面的「# at」位置，這兩個位置相減即可計算出這個事務的大小，下面是這個 Python 程序的例子。

切割 Binlog 中的大事務

對於大的事務，MySQL 會把它分解成多個事件（注意一個是事務 TRANSACTION，另一個是事件 EVENT），事件的大小由參數 binlog-row-event-max-size 決定，這個參數默認是 8K。因此我們可以把若干個事件切割成一個單獨的略小的事務

ROW 模式下，即使我們只更新了一條記錄的其中某個欄位，也會記錄每個欄位變更前後的值，這個行為是 binlog_row_image 參數控制的，這個參數有 3 個值，默認為 FULL，也就是記錄列的所有修改，即使欄位沒有發生變更也會記錄。這樣我們就可以實現類似 Oracle 的 flashback 的功能，我個人估計 MySQL 未來的版本從可能會基於 Binlog 推出這樣的功能。

了解了 Binlog 的結構，再加上 Python 這把瑞士軍刀，我們還可以實現很多功能，例如我們可以統計哪個表被修改地最多？我們還可以把 Binlog 切割成一段一段的，然後再重組，可以靈活地進行 MySQL 資料庫的修改和遷移等工作。

django python 資料庫同步的方案，請幫我想一想？

你都打算用django來同步了，哪來得的可否用它來同步的問題呢。

有一個功能叫probe，似乎叫這個名子，你可以用它，根據A庫，自動建立模型。順便說一下foriegnkey在django的模型庫里也是支持的。如果不支持，可能你的foreign key太複雜了。

如果可以自動建立模型，那麼其餘的都不是問題了。不過不建議你這麼繞一個大彎路，還要用django去寫同步腳本。它僅僅做管理就可以了。

如果一定要用它做同步，就可以在view里寫一個函數。把你的同步邏輯放進去。然後用crontab設置一個定時任務，去訪問這個URL就好了。

似乎它沒有tomcat里的那種定時任務功能。如果你真的要想有，也有開源的插件下載，不過，這就把事情弄得太複雜了。

django就作為一個輕量級的WEB管理軟體就可以了。如果想做複雜的資料庫功能，還是用php和java。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/308572.html

包含python3同步資料庫整張表的詞條

本文目錄一覽：

python中如何將表中的數據做成一張表,然後再從中取出數據？

後端編程Python3-資料庫編程

用python將幾個mysql資料庫的數據同步到一個mysql裡面

django python 資料庫同步的方案，請幫我想一想？

相關推薦

發表回復