本文目錄一覽:
- 1、python中如何將表中的數據做成一張表,然後再從中取出數據?
- 2、後端編程Python3-資料庫編程
- 3、用python將幾個mysql資料庫的數據同步到一個mysql裡面
- 4、django python 資料庫同步的方案,請幫我想一想?
python中如何將表中的數據做成一張表,然後再從中取出數據?
第一部分是生成數據表,常見的生成方法有兩種,第一種是導入外部數據,第二種是直接寫入數據。 Excel 中的文件菜單中提供了獲取外部數據的功能,支持資料庫和文本文件和頁面的多種數據源導入。
獲取外部數據
python 支持從多種類型的數據導入。在開始使用 python 進行數據導入前需要先導入 pandas 庫,為了方便起見,我們也同時導入 numpy 庫。
1 import numpy as np
2 import pandas as pd
導入數據表
下面分別是從 excel 和 csv 格式文件導入數據並創建數據表的方法。代碼是最簡模式,裡面有很多可選參數設置,例如列名稱,索引列,數據格式等等。感興趣的朋友可以參考 pandas 的
官方文檔。
1 df=pd.DataFrame(pd.read_csv(『name.csv』,header=1))
2 df=pd.DataFrame(pd.read_excel(『name.xlsx』))
創建數據表
另一種方法是通過直接寫入數據來生成數據表,excel 中直接在單元格中輸入數據就可以,python 中通過下面的代碼來實現。生成數據表的函數是 pandas 庫中的 DateFrame 函數,數據表一共有 6 行數據,每行有 6 個欄位。在數據中我們特意設置了一些 NA 值和有問題的欄位,例如包含空格等。後面將在數據清洗步驟進行處理。後面我們將統一以 DataFrame 的簡稱 df 來命名數據表。
1 df = pd.DataFrame({『id』:[1001,1002,1003,1004,1005,1006],
2 『date』:pd.date_range(『20130102』, periods=6),
3 『city』:[‘Beijing ‘, 『SH』, 』 guangzhou ‘, 『Shenzhen』, 『shanghai』, ‘BEIJING ‘],
4 『age』:[23,44,54,32,34,32],
5 『category』:[『100-A』,『100-B』,『110-A』,『110-C』,『210-A』,『130-F』],
6 『price』:[1200,np.nan,2133,5433,np.nan,4432]},
7 columns =[『id』,『date』,『city』,『category』,『age』,『price』])
這是剛剛創建的數據表,我們沒有設置索引列,price 欄位中包含有 NA 值,city 欄位中還包含了一些臟數據。
數據表檢查
python 中處理的數據量通常會比較大,所以就需要我們對數據表進行檢查。比如我們之前的文章中介紹的紐約計程車數據和 Citibike 的騎行數據,數據量都在千萬級,我們無法一目了然的了解數據表的整體情況,必須要通過一些方法來獲得數據表的關鍵信息。數據表檢查的另一個目的是了解數據的概況,例如整個數據表的大小,所佔空間,數據格式,是否有空值和重複項和具體的數據內容。為後面的清洗和預處理做好準備。
數據維度(行列)
Excel 中可以通過 CTRL 向下的游標鍵,和 CTRL 向右的游標鍵來查看行號和列號。Python 中使用 shape 函數來查看數據表的維度,也就是行數和列數,函數返回的結果(6,6)表示數據表有 6 行,6 列。下面是具體的代碼。
1 #查看數據表的維度
2 df.shape
3 (6, 6)
數據表信息
使用 info 函數查看數據表的整體信息,這裡返回的信息比較多,包括數據維度,列名稱,數據格式和所佔空間等信息。
1 #數據表信息
2 df.info()
4 class 『pandas.core.frame.DataFrame』
5 RangeIndex: 6 entries, 0 to 5
6 Data columns (total 6 columns):
7 id 6 non-null int64
8 date 6 non-null datetime64[ns]
9 city 6 non-null object
10 category 6 non-null object
11 age 6 non-null int64
12 price 4 non-null float64
13 dtypes: datetime64ns, float64(1), int64(2), object(2)
14 memory usage: 368.0 bytes
查看數據格式
Excel 中通過選中單元格並查看開始菜單中的數值類型來判斷數據的格式。Python 中使用 dtypes 函數來返回數據格式。
Dtypes 是一個查看數據格式的函數,可以一次性查看數據表中所有數據的格式,也可以指定一列來單獨查看。
1#查看數據表各列格式
2df.dtypes
3
4id int64
5date datetime64[ns]
6city object
7category object
8age int64
9price float64
10dtype: object
11
12#查看單列格式
13df[『B』].dtype
14
15dtype(『int64』)
查看空值
Excel 中查看空值的方法是使用「定位條件」功能對數據表中的空值進行定位。「定位條件」在「開始」目錄下的「查找和選擇」目錄中。
Isnull 是 Python 中檢驗空值的函數,返回的結果是邏輯值,包含空值返回 True,不包含則返回 False。可以對整個數據表進行檢查,也可以單獨對某一列進行空值檢查。
df_isnull
1#檢查特定列空值
2df[『price』].isnull()
3
40 False
51 True
62 False
73 False
84 True
95 False
10Name: price, dtype: bool
查看唯一值
Excel 中查看唯一值的方法是使用「條件格式」對唯一值進行顏色標記。Python 中使用 unique 函數查看唯一值。
Unique 是查看唯一值的函數,只能對數據表中的特定列進行檢查。下面是代碼,返回的結果是該列中的唯一值。類似與 Excel 中刪除重複項後的結果。
1 #查看 city 列中的唯一值
2 df[『city』].unique()34array([‘Beijing ‘, 『SH』, 』 guangzhou ‘, 『Shenzhen』, 『shanghai』, ‘BEIJING ‘], dtype=object)
查看數據表數值
Python 中的 Values 函數用來查看數據表中的數值。以數組的形式返回,不包含表頭信息。
1#查看數據表的值
2df.values
3
4array([[1001, Timestamp(『2013-01-02 00:00:00』), ‘Beijing ‘, 『100-A』, 23,
5 1200.0],
6 [1002, Timestamp(『2013-01-03 00:00:00』), 『SH』, 『100-B』, 44, nan],
7 [1003, Timestamp(『2013-01-04 00:00:00』), 』 guangzhou ‘, 『110-A』, 54,
8 2133.0],
9 [1004, Timestamp(『2013-01-05 00:00:00』), 『Shenzhen』, 『110-C』, 32,
10 5433.0],
11 [1005, Timestamp(『2013-01-06 00:00:00』), 『shanghai』, 『210-A』, 34,
12 nan],
13 [1006, Timestamp(『2013-01-07 00:00:00』), ‘BEIJING ‘, 『130-F』, 32,
14 4432.0]], dtype=object)
查看列名稱
Colums 函數用來單獨查看數據表中的列名稱。
1 #查看列名稱
2 df.columns
3
4 Index([『id』, 『date』, 『city』, 『category』, 『age』, 『price』], dtype=『object』)
查看前 10 行數據
Head 函數用來查看數據表中的前 N 行數據,默認 head()顯示前 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看前 3 行的數據。
1#查看前 3 行數據“df.head(“3“)
Tail 行數與 head 函數相反,用來查看數據表中後 N 行的數據,默認 tail()顯示後 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看後 3 行的數據。
1#查看最後 3 行df.tail(3)
後端編程Python3-資料庫編程
對大多數軟體開發者而言,術語資料庫通常是指RDBMS(關係資料庫管理系統), 這些系統使用表格(類似於電子表格的網格),其中行表示記錄,列表示記錄的欄位。表格及其中存放的數據是使用SQL (結構化査詢語言)編寫的語句來創建並操縱的。Python提供了用於操縱SQL資料庫的API(應用程序介面),通常與作為標準的SQLite 3資料庫一起發布。
另一種資料庫是DBM (資料庫管理器),其中存放任意數量的鍵-值項。Python 的標準庫提供了幾種DBM的介面,包括某些特定於UNIX平台的。DBM的工作方式 與Python中的字典類似,區別在於DBM通常存放於磁碟上而不是內存中,並且其鍵與值總是bytes對象,並可能受到長度限制。本章第一節中講解的shelve模塊提供了方便的DBM介面,允許我們使用字元串作為鍵,使用任意(picklable)對象作為值。
如果可用的 DBM 與 SQLite 資料庫不夠充分,Python Package Index, pypi.python.org/pypi中提供了大量資料庫相關的包,包括bsddb DBM (“Berkeley DB”),對象-關係映射器,比如SQLAlchemy (),以及流行的客戶端/伺服器數據的介面,比如 DB2、Informix、Ingres、MySQL、ODBC 以及 PostgreSQL。
本章中,我們將實現某程序的兩個版本,該程序用於維護一個DVD列表,並追蹤每個DVD的標題、發行年份、時間長度以及發行者。該程序的第一版使用DBM (通過shelve模塊)存放其數據,第二版則使用SQLite資料庫。兩個程序都可以載入與保存簡單的XML格式,這使得從某個程序導出DVD數據並將其導入到其他程序成為可能。與DBM版相比,基於SQL的程序提供了更多一些的功能,並且其數據設計也稍乾淨一些。
12.1 DBM資料庫
shelve模塊為DBM提供了一個wrapper,藉助於此,我們在與DBM交互時,可以將其看做一個字典,這裡是假定我們只使用字元串鍵與picklable值,實際處理時, shelve模塊會將鍵與值轉換為bytes對象(或者反過來)。
由於shelve模塊使用的是底層的DBM,因此,如果其他計算機上沒有同樣的DBM,那麼在某台計算機上保存的DBM文件在其他機器上無法讀取是可能的。為解決這一問題,常見的解決方案是對那些必須在機器之間可傳輸的文件提供XML導入與導出功能,這也是我們在本節的DVD程序dvds-dbm.py中所做的。
對鍵,我們使用DVD的標題;對值,則使用元組,其中存放發行者、發行年份以及時間。藉助於shelve模塊,我們不需要進行任何數據轉換,並可以把DBM對象當做一個字典進行處理。
程序在結構上類似於我們前面看到的那種菜單驅動型的程序,因此,這裡主要展示的是與DBM程序設計相關的那部分。下面給出的是程序main()函數中的一部分, 忽略了其中菜單處理的部分代碼。
db = None
try:
db = shelve.open(filename, protocol=pickle.HIGHEST_PROTOCOL)
finally:
if db is not None:
db.dose()
這裡我們已打開(如果不存在就創建)指定的DBM文件,以便於對其進行讀寫操作。每一項的值使用指定的pickle協議保存為一個pickle,現有的項可以被讀取, 即便是使用更底層的協議保存的,因為Python可以計算出用於讀取pickle的正確協議。最後,DBM被關閉——其作用是清除DBM的內部緩存,並確保磁碟文件可以反映出已作的任何改變,此外,文件也需要關閉。
該程序提供了用於添加、編輯、列出、移除、導入、導出DVD數據的相應選項。除添加外,我們將忽略大部分用戶介面代碼,同樣是因為已經在其他上下文中進行了展示。
def add_dvd(db):
title = Console.get_string(“Title”, “title”)
if not title:
return
director = Console.get_string(“Director”, “director”)
if not director:
return
year = Console.get_integer(“Year”, “year”,minimum=1896,
maximum=datetime,date.today().year)
duration = Console.get_integer(“Duration (minutes)”, “minutes「, minimum=0, maximum=60*48)
db[title] = (director, year, duration)
db.sync()
像程序菜單調用的所有函數一樣,這一函數也以DBM對象(db)作為其唯一參數。該函數的大部分工作都是獲取DVD的詳細資料,在倒數第二行,我們將鍵-值項存儲在DBM文件中,DVD的標題作為鍵,發行者、年份以及時間(由shelve模塊pickled在一起)作為值。
為與Python通常的一致性同步,DBM提供了與字典一樣的API,因此,除了 shelve.open() 函數(前面已展示)與shelve.Shelf.sync()方法(該方法用於清除shelve的內部緩存,並對磁碟上文件的數據與所做的改變進行同步——這裡就是添加一個新項),我們不需要學習任何新語法。
def edit_dvd(db):
old_title = find_dvd(db, “edit”)
if old_title is None:
return
title = Console.get.string(“Title”, “title”, old_title)
if not title:
return
director, year, duration = db[old_title]
…
db[title]= (director, year, duration)
if title != old_title:
del db[old_title]
db.sync()
為對某個DVD進行編輯,用戶必須首先選擇要操作的DVD,也就是獲取DVD 的標題,因為標題用作鍵,值則用於存放其他相關數據。由於必要的功能在其他場合 (比如移除DVD)也需要使用,因此我們將其實現在一個單獨的find_dvd()函數中,稍後將査看該函數。如果找到了該DVD,我們就獲取用戶所做的改變,並使用現有值作為默認值,以便提高交互的速度。(對於這一函數,我們忽略了大部分用戶介面代碼, 因為其與添加DVD時幾乎是相同的。)最後,我們保存數據,就像添加時所做的一樣。如果標題未作改變,就重寫相關聯的值;如果標題已改變,就創建一個新的鍵-值對, 並且需要刪除原始項。
def find_dvd(db, message):
message = “(Start of) title to ” + message
while True:
matches =[]
start = Console.get_string(message, “title”)
if not start:
return None
for title in db:
if title.lower().startswith(start.lower()):
matches.append(title)
if len(matches) == 0:
print(“There are no dvds starting with”, start)
continue
elif len(matches) == 1:
return matches[0]
elif len(matches) DISPLAY_LIMIT:
print(“Too many dvds start with {0}; try entering more of the title”.format(start)
continue
else:
matches = sorted(matches, key=str.lower)
for i, match in enumerate(matches):
print(“{0}: {1}”.format(i+1, match))
which = Console.get_integer(“Number (or 0 to cancel)”,
“number”, minimum=1, maximum=len(matches))
return matches[which – 1] if which != 0 else None
為儘可能快而容易地發現某個DVD,我們需要用戶只輸入其標題的一個或頭幾個字元。在具備了標題的起始字元後,我們在DBM中迭代並創建一個匹配列表。如果只有一個匹配項,就返回該項;如果有幾個匹配項(但少於DISPLAY_LIMIT, 一個在程序中其他地方設置的整數),就以大小寫不敏感的順序展示所有這些匹配項,並為每一項設置一個編號,以便用戶可以只輸入編號就可以選擇某個標題。(Console.get_integer()函數可以接受0,即便最小值大於0,以便0可以用作一個刪除值。通過使用參數allow_zero=False, 可以禁止這種行為。我們不能使用Enter鍵,也就是說,沒有什麼意味著取消,因為什麼也不輸入意味著接受默認值。)
def list_dvds(db):
start =」”
if len(db) DISPLAY.LIMIT:
start = Console.get_string(「List those starting with [Enter=all]」, “start」)
print()
for title in sorted(db, key=str.lower):
if not start or title.Iower().startswith(start.lower()):
director, year, duration = db[title]
print(“{title} ({year}) {duration} minute{0}, by ”
“{director}”.format(Util.s(duration),**locals()))
列出所有DVD (或者那些標題以某個子字元串引導)就是對DBM的所有項進行迭代。
Util.s()函數就是簡單的s = lambda x: “” if x == 1 else “s”,因此,如果時間長度不是1分鐘,就返回”s”。
def remove_dvd(db):
title = find_dvd(db, “remove”)
if title is None:
return
ans = Console.get_bool(“Remove {0}?”.format(title), “no”)
if ans:
del db[title]
db.sync()
要移除一個DVD,首先需要找到用戶要移除的DVD,並請求確認,獲取後從DBM中刪除該項即可。
到這裡,我們展示了如何使用shelve模塊打開(或創建)一個DBM文件,以及如何向其中添加項、編輯項、對其項進行迭代以及移除某個項。
遺憾的是,在我們的數據設計中存在一個瑕疵。發行者名稱是重複的,這很容易導致不一致性,比如,發行者Danny DeVito可能被輸入為”Danny De Vito”,用於 一個電影;也可以輸入為「Danny deVito”,用於另一個。為解決這一問題,可以使用兩個DBM文件,主DVD文件使用標題鍵與(年份,時間長度,發行者ID)值; 發行者文件使用發行者ID (整數)鍵與發行者名稱值。下一節展示的SQL資料庫 版程序將避免這一瑕疵,這是通過使用兩個表格實現的,一個用於DVD,另一個用於發行者。
12.2 SQL資料庫
大多數流行的SQL資料庫的介面在第三方模塊中是可用的,Python帶有sqlite3 模塊(以及SQLite 3資料庫),因此,在Python中,可以直接開始資料庫程序設計。SQLite是一個輕量級的SQL資料庫,缺少很多諸如PostgreSQL這種資料庫的功能, 但非常便於構造原型系統,並且在很多情況下也是夠用的。
為使後台資料庫之間的切換儘可能容易,PEP 249 (Python Database API Specification v2.0)提供了稱為DB-API 2.0的API規範。資料庫介面應該遵循這一規範,比如sqlite3模塊就遵循這一規範,但不是所有第三方模塊都遵循。API規範中指定了兩種主要的對象,即連接對象與游標對象。表12-1與表12-2中分別列出了這兩種對象必須支持的API。在sqlite3模塊中,除DB-API 2.0規範必需的之外,其連接對象與游標對象都提供了很多附加的屬性與方法。
DVD程序的SQL版本為dvds.sql.py,該程序將發行者與DVD數據分開存儲,以 避免重複,並提供一個新菜單,以供用戶列出發行者。該程序使用的兩個表格在圖12-1
def connect(filename):
create= not os.path.exists(filename)
db = sqlite3.connect(filename)
if create:
cursor = db.cursor()
cursor.execute(“CREATE TABLE directors (”
“id INTEGER PRIMARY KEY AUTOINCREMENT UNIQUE NOT NULL, ”
“name TEXT UNIQUE NOT NULL)”)
cursor.execute(“CREATE TABLE dvds (”
“id INTEGER PRIMARY KEY AUTOINCREMENT UNIQUE NOT NULL, ”
“title TEXT NOT NULL, ”
“year INTEGER NOT NULL,”
“duration INTEGER NOT NULL, ”
“director_id INTEGER NOT NULL, 」
“FOREIGN KEY (director_id) REFERENCES directors)”)
db.commit()
return db
sqlite3.connect()函數會返回一個資料庫對象,並打開其指定的資料庫文件。如果該文件不存在,就創建一個空的資料庫文件。鑒於此,在調用sqlite3.connect()之前,我們要注意資料庫是否是準備從頭開始創建,如果是,就必須創建該程序要使用的表格。所有査詢都是通過一個資料庫游標完成的,可以從資料庫對象的cursor()方法獲取。
注意,兩個表格都是使用一個ID欄位創建的,ID欄位有一個AUTOINCREMENT 約束——這意味著SQLite會自動為ID欄位賦予唯一性的數值,因此,在插入新記錄時,我們可以將這些欄位留給SQLite處理。
SQLite支持有限的數據類型——實際上就是布爾型、數值型與字元串——但使用數據’『適配器」可以對其進行擴展,或者是擴展到預定義的數據類型(比如那些用於日期與datetimes的類型),或者是用於表示任意數據類型的自定義類型。DVD程序並不需要這一功能,如果需要,sqlite3模塊的文檔提供了很多詳細解釋。我們使用的外部鍵語法可能與用於其他資料庫的語法不同,並且在任何情況下,只是記錄我們的意圖,因為SQLite不像很多其他資料庫那樣需要強制關係完整性,sqlite3另一點與眾不同的地方在於其默認行為是支持隱式的事務處理,因此,沒有提供顯式的「開始事務」 方法。
def add_dvd(db):
title = Console.get_string(“Title”, “title”)
if not title:
return
director = Console.get_string(“Director”, “director”)
if not director:
return
year = Console.get_integer(“Year”, “year」, minimum=1896,
maximum=datetime.date.today().year)
duration = Console.get_integer(“Duration (minutes)”, “minutes”,
minimum=0,maximum=60*48)
director_id = get_and_set_director(db, director)
cursor = db.cursor()
cursor.execute(“INSERT INTO dvds 」
“(title, year, duration, director_id)”
“VALUES (?, ?, ?, ?)”,
(title, year, duration, director_id))
db.commit()
這一函數的開始代碼與dvds-dbm.py程序中的對應函數一樣,但在完成數據的收集後,與原來的函數有很大的差別。用戶輸入的發行者可能在也可能不在directors表格中,因此,我們有一個get_and_set_director()函數,在資料庫中尚無某個發行者時, 該函數就將其插入到其中,無論哪種情況都返回就緒的發行者ID,以便在需要的時候插入到dvds表。在所有數據都可用後,我們執行一條SQL INSERT語句。我們不需要指定記錄ID,因為SQLite會自動為我們提供。
在査詢中,我們使用問號(?)作為佔位符,每個?都由包含SQL語句的字元串後面的序列中的值替代。命名的佔位符也可以使用,後面在編輯記錄時我們將看到。儘管避免使用佔位符(而只是簡單地使用嵌入到其中的數據來格式化SQL字元串)也是可能的,我們建議總是使用佔位符,並將數據項正確編碼與轉義的工作留給資料庫模塊來完成。使用佔位符的另一個好處是可以提高安全性,因為這可以防止任意的SQL 被惡意地插入到一個査詢中。
def get_and_set_director(db, director):
director_id = get_director_id(db, director)
if directorjd is not None:
return director_id
cursor = db.cursor()
cursor.execute(“lNSERT INTO directors (name) VALUES (?)」,(director,))
db.commit()
return get_director_id(db, director)
這一函數返回給定發行者的ID,並在必要的時候插入新的發行者記錄。如果某個記錄被插入,我們首先嘗試使用get_director_id()函數取回其ID。
def get_director_id(db, director):
cursor = db.cursor()
cursor.execute(“SELECT id FROM directors WHERE name=?”,(director,))
fields = cursor.fetchone()
return fields[0] if fields is not None else None
get_director_id()函數返回給定發行者的ID,如果資料庫中沒有指定的發行者,就返回None。我們使用fetchone()方法,因為或者有一個匹配的記錄,或者沒有。(我們知道,不會有重複的發行者,因為directors表格的名稱欄位有一個UNIQUE約束,在任何情況下,在添加一個新的發行者之前,我們總是先檢査其是否存在。)這種取回方法總是返回一個欄位序列(如果沒有更多的記錄,就返回None)。即便如此,這裡我們只是請求返回一個單獨的欄位。
def edit_dvd(db):
title, identity = find_dvd(db, “edit”)
if title is None:
return
title = Console.get_string(“Title”,”title”, title)
if not title:
return
cursor = db.cursor()
cursor.execute(“SELECT dvds.year, dvds.duration, directors.name”
「FROM dvds, directors ”
“WHERE dvds.director_id = directors.id AND ”
“dvds.id=:id”, dict(id=identity))
year, duration, director = cursor.fetchone()
director = Console.get_string(“Director”, “director”, director)
if not director:
return
year = Console,get_integer(“Year”,”year”, year, 1896,datetime.date.today().year)
duration = Console.get_integer(“Duration (minutes)”, “minutes”,
duration, minimum=0, maximum=60*48)
director_id = get_and_set_director(db, director)
cursor.execute(“UPDATE dvds SET title=:title, year=:year,”
“duration=:duration, director_id=:directorjd ”
“WHERE id=:identity”, locals())
db.commit()
要編輯DVD記錄,我們必須首先找到用戶需要操縱的記錄。如果找到了某個記錄,我們就給用戶修改其標題的機會,之後取回該記錄的其他欄位,以便將現有值作為默認值,將用戶的輸入工作最小化,用戶只需要按Enter鍵就可以接受默認值。這裡,我們使用了命名的佔位符(形式為:name),並且必須使用映射來提供相應的值。對SELECT語句,我們使用一個新創建的字典;對UPDATE語句,我們使用的是由 locals()返回的字典。
我們可以同時為這兩個語句都使用新字典,這種情況下,對UPDATE語句,我們可以傳遞 dict(title=title, year=year, duration=duration, director_id=director_id, id=identity)),而非 locals()。
在具備所有欄位並且用戶已經輸入了需要做的改變之後,我們取回相應的發行者ID (如果必要就插入新的發行者記錄),之後使用新數據對資料庫進行更新。我們採用了一種簡化的方法,對記錄的所有欄位進行更新,而不僅僅是那些做了修改的欄位。
在使用DBM文件時,DVD標題被用作鍵,因此,如果標題進行了修改,我們就需要創建一個新的鍵-值項,並刪除原始項。不過,這裡每個DVD記錄都有一個唯一性的ID,該ID是記錄初次插入時創建的,因此,我們只需要改變任何其他欄位的值, 而不需要其他操作。
def find_dvd(db, message):
message = “(Start of) title to ” + message
cursor = db.cursor()
while True: .
start = Console.get_stnng(message, “title”)
if not start:
return (None, None)
cursor.execute(“SELECT title, id FROM dvds ”
“WHERE title LIKE ? ORDER BY title」,
(start +”%”,))
records = cursor.fetchall()
if len(records) == 0:
print(“There are no dvds starting with”, start)
continue
elif len(records) == 1:
return records[0]
elif len(records) DISPLAY_LIMIT:
print(“Too many dvds ({0}) start with {1}; try entering ”
“more of the title”.format(len(records),start))
continue
else:
for i, record in enumerate(records):
print(“{0}:{1}”.format(i + 1, record[0]))
which = Console.get_integer(“Number (or 0 to cancel)”,
“number”, minimum=1, maximum=len(records))
return records[which -1] if which != 0 else (None, None)
這一函數的功能與dvdsdbm.py程序中的find_dvd()函數相同,並返回一個二元組 (DVD標題,DVD ID)或(None, None),具體依賴於是否找到了某個記錄。這裡並不需要在所有數據上進行迭代,而是使用SQL通配符(%),因此只取回相關的記錄。
由於我們希望匹配的記錄數較小,因此我們一次性將其都取回到序列的序列中。如果有不止一個匹配的記錄,但數量上又少到可以顯示,我們就列印記錄,並將每條記錄附帶一個數字編號,以便用戶可以選擇需要的記錄,其方式與在dvds-dbm.py程序中所做的類似:
def list_dvds(db):
cursor = db.cursor()
sql = (“SELECT dvds.title, dvds.year, dvds.duration, ”
“directors.name FROM dvds, directors ”
“WHERE dvds.director_id = directors.id”)
start = None
if dvd_count(db) DISPLAY_LIMIT:
start = Console.get_string(“List those starting with [Enter=all]”, “start”)
sql += ” AND dvds.title LIKE ?”
sql += 」 ORDER BY dvds.title”
print()
if start is None:
cursor.execute(sql)
else:
cursor.execute(sql, (start +”%”,))
for record in cursor:
print(“{0[0]} ({0[1]}) {0[2]} minutes, by {0[3]}”.format(record))
要列出每個DVD的詳細資料,我們執行一個SELECT査詢。該査詢連接兩個表,如果記錄(由dvd_count()函數返回)數量超過了顯示限制值,就將第2個元素添加到WHERE 分支,之後執行該査詢,並在結果上進行迭代。每個記錄都是一個序列,其欄位是與 SELECT査詢相匹配的。
def dvd_count(db):
cursor = db.cursor()
cursor.execute(“SELECT COUNT(*) FROM dvds”)
return cursor.fetchone()[0]
我們將這幾行代碼放置在一個單獨的函數中,因為我們在幾個不同的函數中都需要使用這幾行代碼。
我們忽略了 list_directors()函數的代碼,因為該函數在結構上與list_dvds()函數非常類似,只不過更簡單一些,因為本函數只列出一個欄位(name)。
def remove_dvd(db):
title, identity = find_dvd(db, “remove”)
if title is None:
return
ans = Console.get_bool(“Remove {0}?”.format(title), “no”)
if ans:
cursor = db.cursor()
cursor.execute(“DELETE FROM dvds WHERE id=?”, (identity,))
db.commit()
在用戶需要刪除一個記錄時,將調用本函數,並且本函數與dvds-dbm.py程序中 相應的函數是非常類似的。
到此,我們完全查閱了 dvds-sql.py程序,並且了解了如何創建資料庫表格、選取 記錄、在選定的記錄上進行迭代以及插入、更新與刪除記錄。使用execute()方法,我們可以執行底層資料庫所支持的任意SQL語句。
SQLite提供了比我們這裡使用的多得多的功能,包括自動提交模式(以及任意其他類型的事務控制),以及創建可以在SQL查詢內執行的函數的能力。提供一個工廠函數並用於控制對每個取回的記錄返回什麼(比如,一個字典或自定義類型,而不是欄位序列)也是可能的。此外,通過傳遞「:memory:」作為文件名,創建內存中的SQLite 資料庫也是可能的。
以上內容部分摘自視頻課程05後端編程Python22 資料庫編程,更多實操示例請參照視頻講解。跟著張員外講編程,學習更輕鬆,不花錢還能學習真本領。
用python將幾個mysql資料庫的數據同步到一個mysql裡面
MySQL 的 Binlog 記錄著 MySQL 資料庫的所有變更信息,了解 Binlog 的結構可以幫助我們解析Binlog,甚至對 Binlog 進行一些修改,或者說是「篡改」,例如實現類似於 Oracle 的 flashback 的功能,恢復誤刪除的記錄,把 update 的記錄再還原回去等。本文將帶您探討一下這些神奇功能的實現,您會發現比您想像地要簡單得多。本文指的 Binlog 是 ROW 模式的 Binlog,這也是 MySQL 8 里的默認模式,STATEMENT 模式因為使用中有很多限制,現在用得越來越少了。
Binlog 由事件(event)組成,請注意是事件(event)不是事務(transaction),一個事務可以包含多個事件。事件描述對資料庫的修改內容。
現在我們已經了解了 Binlog 的結構,我們可以試著修改 Binlog 里的數據。例如前面舉例的 Binlog 刪除了一條記錄,我們可以試著把這條記錄恢復,Binlog 裡面有個刪除行(DELETE_ROWS_EVENT)的事件,就是這個事件刪除了記錄,這個事件和寫行(WRITE_ROWS_EVENT)的事件的數據結構是完全一樣的,只是刪除行事件的類型是 32,寫行事件的類型是 30,我們把對應的 Binlog 位置的 32 改成 30 即可把已經刪除的記錄再插入回去。從前面的 「show binlog events」 裡面可看到這個 DELETE_ROWS_EVENT 是從位置 378 開始的,這裡的位置就是 Binlog 文件的實際位置(以位元組為單位)。從事件(event)的結構裡面可以看到 type_code 是在 event 的第 5 個位元組,我們寫個 Python 小程序把把第383(378+5=383)位元組改成 30 即可。當然您也可以用二進位編輯工具來改。
找出 Binlog 中的大事務
由於 ROW 模式的 Binlog 是每一個變更都記錄一條日誌,因此一個簡單的 SQL,在 Binlog 里可能會產生一個巨無霸的事務,例如一個不帶 where 的 update 或 delete 語句,修改了全表裡面的所有記錄,每條記錄都在 Binlog 裡面記錄一次,結果是一個巨大的事務記錄。這樣的大事務經常是產生麻煩的根源。我的一個客戶有一次向我抱怨,一個 Binlog 前滾,滾了兩天也沒有動靜,我把那個 Binlog 解析了一下,發現裡面有個事務產生了 1.4G 的記錄,修改了 66 萬條記錄!下面是一個簡單的找出 Binlog 中大事務的 Python 小程序,我們知道用 mysqlbinlog 解析的 Binlog,每個事務都是以 BEGIN 開頭,以 COMMIT 結束。我們找出 BENGIN 前面的 「# at」 的位置,檢查 COMMIT 後面的 「# at」 位置,這兩個位置相減即可計算出這個事務的大小,下面是這個 Python 程序的例子。
切割 Binlog 中的大事務
對於大的事務,MySQL 會把它分解成多個事件(注意一個是事務 TRANSACTION,另一個是事件 EVENT),事件的大小由參數 binlog-row-event-max-size 決定,這個參數默認是 8K。因此我們可以把若干個事件切割成一個單獨的略小的事務
ROW 模式下,即使我們只更新了一條記錄的其中某個欄位,也會記錄每個欄位變更前後的值,這個行為是 binlog_row_image 參數控制的,這個參數有 3 個值,默認為 FULL,也就是記錄列的所有修改,即使欄位沒有發生變更也會記錄。這樣我們就可以實現類似 Oracle 的 flashback 的功能,我個人估計 MySQL 未來的版本從可能會基於 Binlog 推出這樣的功能。
了解了 Binlog 的結構,再加上 Python 這把瑞士軍刀,我們還可以實現很多功能,例如我們可以統計哪個表被修改地最多?我們還可以把 Binlog 切割成一段一段的,然後再重組,可以靈活地進行 MySQL 資料庫的修改和遷移等工作。
django python 資料庫同步的方案,請幫我想一想?
你都打算用django來同步了,哪來得的可否用它來同步的問題呢。
有一個功能叫probe,似乎叫這個名子,你可以用它,根據A庫,自動建立模型。 順便說一下foriegnkey在django的模型庫里也是支持的。 如果不支持,可能你的foreign key太複雜了。
如果可以自動建立模型,那麼其餘的都不是問題了。 不過不建議你這麼繞一個大彎路,還要用django去寫同步腳本。 它僅僅做管理就可以了。
如果一定要用它做同步,就可以在view里寫一個函數。把你的同步邏輯放進去。 然後用crontab設置一個定時任務,去訪問這個URL就好了。
似乎它沒有tomcat里的那種定時任務功能。 如果你真的要想有,也有開源的插件下載,不過,這就把事情 弄得太複雜 了。
django就作為一個輕量級的WEB管理軟體就可以了。 如果想做複雜的資料庫功能,還是用php和java。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/308572.html