包含python3同步數據庫整張表的詞條

本文目錄一覽:

python中如何將表中的數據做成一張表,然後再從中取出數據?

第一部分是生成數據表,常見的生成方法有兩種,第一種是導入外部數據,第二種是直接寫入數據。 Excel 中的文件菜單中提供了獲取外部數據的功能,支持數據庫和文本文件和頁面的多種數據源導入。

獲取外部數據

python 支持從多種類型的數據導入。在開始使用 python 進行數據導入前需要先導入 pandas 庫,為了方便起見,我們也同時導入 numpy 庫。

1 import numpy as np

2 import pandas as pd

導入數據表

下面分別是從 excel 和 csv 格式文件導入數據並創建數據表的方法。代碼是最簡模式,裡面有很多可選參數設置,例如列名稱,索引列,數據格式等等。感興趣的朋友可以參考 pandas 的

官方文檔。

1 df=pd.DataFrame(pd.read_csv(‘name.csv’,header=1))

2 df=pd.DataFrame(pd.read_excel(‘name.xlsx’))

創建數據表

另一種方法是通過直接寫入數據來生成數據表,excel 中直接在單元格中輸入數據就可以,python 中通過下面的代碼來實現。生成數據表的函數是 pandas 庫中的 DateFrame 函數,數據表一共有 6 行數據,每行有 6 個字段。在數據中我們特意設置了一些 NA 值和有問題的字段,例如包含空格等。後面將在數據清洗步驟進行處理。後面我們將統一以 DataFrame 的簡稱 df 來命名數據表。

1 df = pd.DataFrame({‘id’:[1001,1002,1003,1004,1005,1006],

2 ‘date’:pd.date_range(‘20130102’, periods=6),

3 ‘city’:[‘Beijing ‘, ‘SH’, ’ guangzhou ‘, ‘Shenzhen’, ‘shanghai’, ‘BEIJING ‘],

4 ‘age’:[23,44,54,32,34,32],

5 ‘category’:[‘100-A’,‘100-B’,‘110-A’,‘110-C’,‘210-A’,‘130-F’],

6 ‘price’:[1200,np.nan,2133,5433,np.nan,4432]},

7 columns =[‘id’,‘date’,‘city’,‘category’,‘age’,‘price’])

這是剛剛創建的數據表,我們沒有設置索引列,price 字段中包含有 NA 值,city 字段中還包含了一些臟數據。

數據表檢查

python 中處理的數據量通常會比較大,所以就需要我們對數據表進行檢查。比如我們之前的文章中介紹的紐約出租車數據和 Citibike 的騎行數據,數據量都在千萬級,我們無法一目了然的了解數據表的整體情況,必須要通過一些方法來獲得數據表的關鍵信息。數據表檢查的另一個目的是了解數據的概況,例如整個數據表的大小,所佔空間,數據格式,是否有空值和重複項和具體的數據內容。為後面的清洗和預處理做好準備。

數據維度(行列)

Excel 中可以通過 CTRL 向下的光標鍵,和 CTRL 向右的光標鍵來查看行號和列號。Python 中使用 shape 函數來查看數據表的維度,也就是行數和列數,函數返回的結果(6,6)表示數據表有 6 行,6 列。下面是具體的代碼。

1 #查看數據表的維度

2 df.shape

3 (6, 6)

數據表信息

使用 info 函數查看數據表的整體信息,這裡返回的信息比較多,包括數據維度,列名稱,數據格式和所佔空間等信息。

1 #數據表信息

2 df.info()

4 class ‘pandas.core.frame.DataFrame’

5 RangeIndex: 6 entries, 0 to 5

6 Data columns (total 6 columns):

7 id 6 non-null int64

8 date 6 non-null datetime64[ns]

9 city 6 non-null object

10 category 6 non-null object

11 age 6 non-null int64

12 price 4 non-null float64

13 dtypes: datetime64ns, float64(1), int64(2), object(2)

14 memory usage: 368.0 bytes

查看數據格式

Excel 中通過選中單元格並查看開始菜單中的數值類型來判斷數據的格式。Python 中使用 dtypes 函數來返回數據格式。

Dtypes 是一個查看數據格式的函數,可以一次性查看數據表中所有數據的格式,也可以指定一列來單獨查看。

1#查看數據表各列格式

2df.dtypes

3

4id int64

5date datetime64[ns]

6city object

7category object

8age int64

9price float64

10dtype: object

11

12#查看單列格式

13df[‘B’].dtype

14

15dtype(‘int64’)

查看空值

Excel 中查看空值的方法是使用“定位條件”功能對數據表中的空值進行定位。“定位條件”在“開始”目錄下的“查找和選擇”目錄中。

Isnull 是 Python 中檢驗空值的函數,返回的結果是邏輯值,包含空值返回 True,不包含則返回 False。可以對整個數據表進行檢查,也可以單獨對某一列進行空值檢查。

df_isnull

1#檢查特定列空值

2df[‘price’].isnull()

3

40 False

51 True

62 False

73 False

84 True

95 False

10Name: price, dtype: bool

查看唯一值

Excel 中查看唯一值的方法是使用“條件格式”對唯一值進行顏色標記。Python 中使用 unique 函數查看唯一值。

Unique 是查看唯一值的函數,只能對數據表中的特定列進行檢查。下面是代碼,返回的結果是該列中的唯一值。類似與 Excel 中刪除重複項後的結果。

1 #查看 city 列中的唯一值

2 df[‘city’].unique()34array([‘Beijing ‘, ‘SH’, ’ guangzhou ‘, ‘Shenzhen’, ‘shanghai’, ‘BEIJING ‘], dtype=object)

查看數據表數值

Python 中的 Values 函數用來查看數據表中的數值。以數組的形式返回,不包含表頭信息。

1#查看數據表的值

2df.values

3

4array([[1001, Timestamp(‘2013-01-02 00:00:00’), ‘Beijing ‘, ‘100-A’, 23,

5 1200.0],

6 [1002, Timestamp(‘2013-01-03 00:00:00’), ‘SH’, ‘100-B’, 44, nan],

7 [1003, Timestamp(‘2013-01-04 00:00:00’), ’ guangzhou ‘, ‘110-A’, 54,

8 2133.0],

9 [1004, Timestamp(‘2013-01-05 00:00:00’), ‘Shenzhen’, ‘110-C’, 32,

10 5433.0],

11 [1005, Timestamp(‘2013-01-06 00:00:00’), ‘shanghai’, ‘210-A’, 34,

12 nan],

13 [1006, Timestamp(‘2013-01-07 00:00:00’), ‘BEIJING ‘, ‘130-F’, 32,

14 4432.0]], dtype=object)

查看列名稱

Colums 函數用來單獨查看數據表中的列名稱。

1 #查看列名稱

2 df.columns

3

4 Index([‘id’, ‘date’, ‘city’, ‘category’, ‘age’, ‘price’], dtype=‘object’)

查看前 10 行數據

Head 函數用來查看數據表中的前 N 行數據,默認 head()顯示前 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看前 3 行的數據。

1#查看前 3 行數據“df.head(“3“)

Tail 行數與 head 函數相反,用來查看數據表中後 N 行的數據,默認 tail()顯示後 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看後 3 行的數據。

1#查看最後 3 行df.tail(3)

後端編程Python3-數據庫編程

對大多數軟件開發者而言,術語數據庫通常是指RDBMS(關係數據庫管理系統), 這些系統使用表格(類似於電子表格的網格),其中行表示記錄,列表示記錄的字段。表格及其中存放的數據是使用SQL (結構化査詢語言)編寫的語句來創建並操縱的。Python提供了用於操縱SQL數據庫的API(應用程序接口),通常與作為標準的SQLite 3數據庫一起發布。

另一種數據庫是DBM (數據庫管理器),其中存放任意數量的鍵-值項。Python 的標準庫提供了幾種DBM的接口,包括某些特定於UNIX平台的。DBM的工作方式 與Python中的字典類似,區別在於DBM通常存放於磁盤上而不是內存中,並且其鍵與值總是bytes對象,並可能受到長度限制。本章第一節中講解的shelve模塊提供了方便的DBM接口,允許我們使用字符串作為鍵,使用任意(picklable)對象作為值。

如果可用的 DBM 與 SQLite 數據庫不夠充分,Python Package Index, pypi.python.org/pypi中提供了大量數據庫相關的包,包括bsddb DBM (“Berkeley DB”),對象-關係映射器,比如SQLAlchemy (),以及流行的客戶端/服務器數據的接口,比如 DB2、Informix、Ingres、MySQL、ODBC 以及 PostgreSQL。

本章中,我們將實現某程序的兩個版本,該程序用於維護一個DVD列表,並追蹤每個DVD的標題、發行年份、時間長度以及發行者。該程序的第一版使用DBM (通過shelve模塊)存放其數據,第二版則使用SQLite數據庫。兩個程序都可以加載與保存簡單的XML格式,這使得從某個程序導出DVD數據並將其導入到其他程序成為可能。與DBM版相比,基於SQL的程序提供了更多一些的功能,並且其數據設計也稍乾淨一些。

12.1 DBM數據庫

shelve模塊為DBM提供了一個wrapper,藉助於此,我們在與DBM交互時,可以將其看做一個字典,這裡是假定我們只使用字符串鍵與picklable值,實際處理時, shelve模塊會將鍵與值轉換為bytes對象(或者反過來)。

由於shelve模塊使用的是底層的DBM,因此,如果其他計算機上沒有同樣的DBM,那麼在某台計算機上保存的DBM文件在其他機器上無法讀取是可能的。為解決這一問題,常見的解決方案是對那些必須在機器之間可傳輸的文件提供XML導入與導出功能,這也是我們在本節的DVD程序dvds-dbm.py中所做的。

對鍵,我們使用DVD的標題;對值,則使用元組,其中存放發行者、發行年份以及時間。藉助於shelve模塊,我們不需要進行任何數據轉換,並可以把DBM對象當做一個字典進行處理。

程序在結構上類似於我們前面看到的那種菜單驅動型的程序,因此,這裡主要展示的是與DBM程序設計相關的那部分。下面給出的是程序main()函數中的一部分, 忽略了其中菜單處理的部分代碼。

db = None

try:

db = shelve.open(filename, protocol=pickle.HIGHEST_PROTOCOL)

finally:

if db is not None:

db.dose()

這裡我們已打開(如果不存在就創建)指定的DBM文件,以便於對其進行讀寫操作。每一項的值使用指定的pickle協議保存為一個pickle,現有的項可以被讀取, 即便是使用更底層的協議保存的,因為Python可以計算出用於讀取pickle的正確協議。最後,DBM被關閉——其作用是清除DBM的內部緩存,並確保磁盤文件可以反映出已作的任何改變,此外,文件也需要關閉。

該程序提供了用於添加、編輯、列出、移除、導入、導出DVD數據的相應選項。除添加外,我們將忽略大部分用戶接口代碼,同樣是因為已經在其他上下文中進行了展示。

def add_dvd(db):

title = Console.get_string(“Title”, “title”)

if not title:

return

director = Console.get_string(“Director”, “director”)

if not director:

return

year = Console.get_integer(“Year”, “year”,minimum=1896,

maximum=datetime,date.today().year)

duration = Console.get_integer(“Duration (minutes)”, “minutes“, minimum=0, maximum=60*48)

db[title] = (director, year, duration)

db.sync()

像程序菜單調用的所有函數一樣,這一函數也以DBM對象(db)作為其唯一參數。該函數的大部分工作都是獲取DVD的詳細資料,在倒數第二行,我們將鍵-值項存儲在DBM文件中,DVD的標題作為鍵,發行者、年份以及時間(由shelve模塊pickled在一起)作為值。

為與Python通常的一致性同步,DBM提供了與字典一樣的API,因此,除了 shelve.open() 函數(前面已展示)與shelve.Shelf.sync()方法(該方法用於清除shelve的內部緩存,並對磁盤上文件的數據與所做的改變進行同步——這裡就是添加一個新項),我們不需要學習任何新語法。

def edit_dvd(db):

old_title = find_dvd(db, “edit”)

if old_title is None:

return

title = Console.get.string(“Title”, “title”, old_title)

if not title:

return

director, year, duration = db[old_title]

db[title]= (director, year, duration)

if title != old_title:

del db[old_title]

db.sync()

為對某個DVD進行編輯,用戶必須首先選擇要操作的DVD,也就是獲取DVD 的標題,因為標題用作鍵,值則用於存放其他相關數據。由於必要的功能在其他場合 (比如移除DVD)也需要使用,因此我們將其實現在一個單獨的find_dvd()函數中,稍後將査看該函數。如果找到了該DVD,我們就獲取用戶所做的改變,並使用現有值作為默認值,以便提高交互的速度。(對於這一函數,我們忽略了大部分用戶接口代碼, 因為其與添加DVD時幾乎是相同的。)最後,我們保存數據,就像添加時所做的一樣。如果標題未作改變,就重寫相關聯的值;如果標題已改變,就創建一個新的鍵-值對, 並且需要刪除原始項。

def find_dvd(db, message):

message = “(Start of) title to ” + message

while True:

matches =[]

start = Console.get_string(message, “title”)

if not start:

return None

for title in db:

if title.lower().startswith(start.lower()):

matches.append(title)

if len(matches) == 0:

print(“There are no dvds starting with”, start)

continue

elif len(matches) == 1:

return matches[0]

elif len(matches) DISPLAY_LIMIT:

print(“Too many dvds start with {0}; try entering more of the title”.format(start)

continue

else:

matches = sorted(matches, key=str.lower)

for i, match in enumerate(matches):

print(“{0}: {1}”.format(i+1, match))

which = Console.get_integer(“Number (or 0 to cancel)”,

“number”, minimum=1, maximum=len(matches))

return matches[which – 1] if which != 0 else None

為儘可能快而容易地發現某個DVD,我們需要用戶只輸入其標題的一個或頭幾個字符。在具備了標題的起始字符後,我們在DBM中迭代並創建一個匹配列表。如果只有一個匹配項,就返回該項;如果有幾個匹配項(但少於DISPLAY_LIMIT, 一個在程序中其他地方設置的整數),就以大小寫不敏感的順序展示所有這些匹配項,並為每一項設置一個編號,以便用戶可以只輸入編號就可以選擇某個標題。(Console.get_integer()函數可以接受0,即便最小值大於0,以便0可以用作一個刪除值。通過使用參數allow_zero=False, 可以禁止這種行為。我們不能使用Enter鍵,也就是說,沒有什麼意味着取消,因為什麼也不輸入意味着接受默認值。)

def list_dvds(db):

start =””

if len(db) DISPLAY.LIMIT:

start = Console.get_string(“List those starting with [Enter=all]”, “start”)

print()

for title in sorted(db, key=str.lower):

if not start or title.Iower().startswith(start.lower()):

director, year, duration = db[title]

print(“{title} ({year}) {duration} minute{0}, by ”

“{director}”.format(Util.s(duration),**locals()))

列出所有DVD (或者那些標題以某個子字符串引導)就是對DBM的所有項進行迭代。

Util.s()函數就是簡單的s = lambda x: “” if x == 1 else “s”,因此,如果時間長度不是1分鐘,就返回”s”。

def remove_dvd(db):

title = find_dvd(db, “remove”)

if title is None:

return

ans = Console.get_bool(“Remove {0}?”.format(title), “no”)

if ans:

del db[title]

db.sync()

要移除一個DVD,首先需要找到用戶要移除的DVD,並請求確認,獲取後從DBM中刪除該項即可。

到這裡,我們展示了如何使用shelve模塊打開(或創建)一個DBM文件,以及如何向其中添加項、編輯項、對其項進行迭代以及移除某個項。

遺憾的是,在我們的數據設計中存在一個瑕疵。發行者名稱是重複的,這很容易導致不一致性,比如,發行者Danny DeVito可能被輸入為”Danny De Vito”,用於 一個電影;也可以輸入為“Danny deVito”,用於另一個。為解決這一問題,可以使用兩個DBM文件,主DVD文件使用標題鍵與(年份,時間長度,發行者ID)值; 發行者文件使用發行者ID (整數)鍵與發行者名稱值。下一節展示的SQL數據庫 版程序將避免這一瑕疵,這是通過使用兩個表格實現的,一個用於DVD,另一個用於發行者。

12.2 SQL數據庫

大多數流行的SQL數據庫的接口在第三方模塊中是可用的,Python帶有sqlite3 模塊(以及SQLite 3數據庫),因此,在Python中,可以直接開始數據庫程序設計。SQLite是一個輕量級的SQL數據庫,缺少很多諸如PostgreSQL這種數據庫的功能, 但非常便於構造原型系統,並且在很多情況下也是夠用的。

為使後台數據庫之間的切換儘可能容易,PEP 249 (Python Database API Specification v2.0)提供了稱為DB-API 2.0的API規範。數據庫接口應該遵循這一規範,比如sqlite3模塊就遵循這一規範,但不是所有第三方模塊都遵循。API規範中指定了兩種主要的對象,即連接對象與游標對象。表12-1與表12-2中分別列出了這兩種對象必須支持的API。在sqlite3模塊中,除DB-API 2.0規範必需的之外,其連接對象與游標對象都提供了很多附加的屬性與方法。

DVD程序的SQL版本為dvds.sql.py,該程序將發行者與DVD數據分開存儲,以 避免重複,並提供一個新菜單,以供用戶列出發行者。該程序使用的兩個表格在圖12-1

def connect(filename):

create= not os.path.exists(filename)

db = sqlite3.connect(filename)

if create:

cursor = db.cursor()

cursor.execute(“CREATE TABLE directors (”

“id INTEGER PRIMARY KEY AUTOINCREMENT UNIQUE NOT NULL, ”

“name TEXT UNIQUE NOT NULL)”)

cursor.execute(“CREATE TABLE dvds (”

“id INTEGER PRIMARY KEY AUTOINCREMENT UNIQUE NOT NULL, ”

“title TEXT NOT NULL, ”

“year INTEGER NOT NULL,”

“duration INTEGER NOT NULL, ”

“director_id INTEGER NOT NULL, ”

“FOREIGN KEY (director_id) REFERENCES directors)”)

db.commit()

return db

sqlite3.connect()函數會返回一個數據庫對象,並打開其指定的數據庫文件。如果該文件不存在,就創建一個空的數據庫文件。鑒於此,在調用sqlite3.connect()之前,我們要注意數據庫是否是準備從頭開始創建,如果是,就必須創建該程序要使用的表格。所有査詢都是通過一個數據庫游標完成的,可以從數據庫對象的cursor()方法獲取。

注意,兩個表格都是使用一個ID字段創建的,ID字段有一個AUTOINCREMENT 約束——這意味着SQLite會自動為ID字段賦予唯一性的數值,因此,在插入新記錄時,我們可以將這些字段留給SQLite處理。

SQLite支持有限的數據類型——實際上就是布爾型、數值型與字符串——但使用數據’‘適配器”可以對其進行擴展,或者是擴展到預定義的數據類型(比如那些用於日期與datetimes的類型),或者是用於表示任意數據類型的自定義類型。DVD程序並不需要這一功能,如果需要,sqlite3模塊的文檔提供了很多詳細解釋。我們使用的外部鍵語法可能與用於其他數據庫的語法不同,並且在任何情況下,只是記錄我們的意圖,因為SQLite不像很多其他數據庫那樣需要強制關係完整性,sqlite3另一點與眾不同的地方在於其默認行為是支持隱式的事務處理,因此,沒有提供顯式的“開始事務” 方法。

def add_dvd(db):

title = Console.get_string(“Title”, “title”)

if not title:

return

director = Console.get_string(“Director”, “director”)

if not director:

return

year = Console.get_integer(“Year”, “year”, minimum=1896,

maximum=datetime.date.today().year)

duration = Console.get_integer(“Duration (minutes)”, “minutes”,

minimum=0,maximum=60*48)

director_id = get_and_set_director(db, director)

cursor = db.cursor()

cursor.execute(“INSERT INTO dvds ”

“(title, year, duration, director_id)”

“VALUES (?, ?, ?, ?)”,

(title, year, duration, director_id))

db.commit()

這一函數的開始代碼與dvds-dbm.py程序中的對應函數一樣,但在完成數據的收集後,與原來的函數有很大的差別。用戶輸入的發行者可能在也可能不在directors表格中,因此,我們有一個get_and_set_director()函數,在數據庫中尚無某個發行者時, 該函數就將其插入到其中,無論哪種情況都返回就緒的發行者ID,以便在需要的時候插入到dvds表。在所有數據都可用後,我們執行一條SQL INSERT語句。我們不需要指定記錄ID,因為SQLite會自動為我們提供。

在査詢中,我們使用問號(?)作為佔位符,每個?都由包含SQL語句的字符串後面的序列中的值替代。命名的佔位符也可以使用,後面在編輯記錄時我們將看到。儘管避免使用佔位符(而只是簡單地使用嵌入到其中的數據來格式化SQL字符串)也是可能的,我們建議總是使用佔位符,並將數據項正確編碼與轉義的工作留給數據庫模塊來完成。使用佔位符的另一個好處是可以提高安全性,因為這可以防止任意的SQL 被惡意地插入到一個査詢中。

def get_and_set_director(db, director):

director_id = get_director_id(db, director)

if directorjd is not None:

return director_id

cursor = db.cursor()

cursor.execute(“lNSERT INTO directors (name) VALUES (?)”,(director,))

db.commit()

return get_director_id(db, director)

這一函數返回給定發行者的ID,並在必要的時候插入新的發行者記錄。如果某個記錄被插入,我們首先嘗試使用get_director_id()函數取回其ID。

def get_director_id(db, director):

cursor = db.cursor()

cursor.execute(“SELECT id FROM directors WHERE name=?”,(director,))

fields = cursor.fetchone()

return fields[0] if fields is not None else None

get_director_id()函數返回給定發行者的ID,如果數據庫中沒有指定的發行者,就返回None。我們使用fetchone()方法,因為或者有一個匹配的記錄,或者沒有。(我們知道,不會有重複的發行者,因為directors表格的名稱字段有一個UNIQUE約束,在任何情況下,在添加一個新的發行者之前,我們總是先檢査其是否存在。)這種取回方法總是返回一個字段序列(如果沒有更多的記錄,就返回None)。即便如此,這裡我們只是請求返回一個單獨的字段。

def edit_dvd(db):

title, identity = find_dvd(db, “edit”)

if title is None:

return

title = Console.get_string(“Title”,”title”, title)

if not title:

return

cursor = db.cursor()

cursor.execute(“SELECT dvds.year, dvds.duration, directors.name”

“FROM dvds, directors ”

“WHERE dvds.director_id = directors.id AND ”

“dvds.id=:id”, dict(id=identity))

year, duration, director = cursor.fetchone()

director = Console.get_string(“Director”, “director”, director)

if not director:

return

year = Console,get_integer(“Year”,”year”, year, 1896,datetime.date.today().year)

duration = Console.get_integer(“Duration (minutes)”, “minutes”,

duration, minimum=0, maximum=60*48)

director_id = get_and_set_director(db, director)

cursor.execute(“UPDATE dvds SET title=:title, year=:year,”

“duration=:duration, director_id=:directorjd ”

“WHERE id=:identity”, locals())

db.commit()

要編輯DVD記錄,我們必須首先找到用戶需要操縱的記錄。如果找到了某個記錄,我們就給用戶修改其標題的機會,之後取回該記錄的其他字段,以便將現有值作為默認值,將用戶的輸入工作最小化,用戶只需要按Enter鍵就可以接受默認值。這裡,我們使用了命名的佔位符(形式為:name),並且必須使用映射來提供相應的值。對SELECT語句,我們使用一個新創建的字典;對UPDATE語句,我們使用的是由 locals()返回的字典。

我們可以同時為這兩個語句都使用新字典,這種情況下,對UPDATE語句,我們可以傳遞 dict(title=title, year=year, duration=duration, director_id=director_id, id=identity)),而非 locals()。

在具備所有字段並且用戶已經輸入了需要做的改變之後,我們取回相應的發行者ID (如果必要就插入新的發行者記錄),之後使用新數據對數據庫進行更新。我們採用了一種簡化的方法,對記錄的所有字段進行更新,而不僅僅是那些做了修改的字段。

在使用DBM文件時,DVD標題被用作鍵,因此,如果標題進行了修改,我們就需要創建一個新的鍵-值項,並刪除原始項。不過,這裡每個DVD記錄都有一個唯一性的ID,該ID是記錄初次插入時創建的,因此,我們只需要改變任何其他字段的值, 而不需要其他操作。

def find_dvd(db, message):

message = “(Start of) title to ” + message

cursor = db.cursor()

while True: .

start = Console.get_stnng(message, “title”)

if not start:

return (None, None)

cursor.execute(“SELECT title, id FROM dvds ”

“WHERE title LIKE ? ORDER BY title”,

(start +”%”,))

records = cursor.fetchall()

if len(records) == 0:

print(“There are no dvds starting with”, start)

continue

elif len(records) == 1:

return records[0]

elif len(records) DISPLAY_LIMIT:

print(“Too many dvds ({0}) start with {1}; try entering ”

“more of the title”.format(len(records),start))

continue

else:

for i, record in enumerate(records):

print(“{0}:{1}”.format(i + 1, record[0]))

which = Console.get_integer(“Number (or 0 to cancel)”,

“number”, minimum=1, maximum=len(records))

return records[which -1] if which != 0 else (None, None)

這一函數的功能與dvdsdbm.py程序中的find_dvd()函數相同,並返回一個二元組 (DVD標題,DVD ID)或(None, None),具體依賴於是否找到了某個記錄。這裡並不需要在所有數據上進行迭代,而是使用SQL通配符(%),因此只取回相關的記錄。

由於我們希望匹配的記錄數較小,因此我們一次性將其都取回到序列的序列中。如果有不止一個匹配的記錄,但數量上又少到可以顯示,我們就打印記錄,並將每條記錄附帶一個數字編號,以便用戶可以選擇需要的記錄,其方式與在dvds-dbm.py程序中所做的類似:

def list_dvds(db):

cursor = db.cursor()

sql = (“SELECT dvds.title, dvds.year, dvds.duration, ”

“directors.name FROM dvds, directors ”

“WHERE dvds.director_id = directors.id”)

start = None

if dvd_count(db) DISPLAY_LIMIT:

start = Console.get_string(“List those starting with [Enter=all]”, “start”)

sql += ” AND dvds.title LIKE ?”

sql += ” ORDER BY dvds.title”

print()

if start is None:

cursor.execute(sql)

else:

cursor.execute(sql, (start +”%”,))

for record in cursor:

print(“{0[0]} ({0[1]}) {0[2]} minutes, by {0[3]}”.format(record))

要列出每個DVD的詳細資料,我們執行一個SELECT査詢。該査詢連接兩個表,如果記錄(由dvd_count()函數返回)數量超過了顯示限制值,就將第2個元素添加到WHERE 分支,之後執行該査詢,並在結果上進行迭代。每個記錄都是一個序列,其字段是與 SELECT査詢相匹配的。

def dvd_count(db):

cursor = db.cursor()

cursor.execute(“SELECT COUNT(*) FROM dvds”)

return cursor.fetchone()[0]

我們將這幾行代碼放置在一個單獨的函數中,因為我們在幾個不同的函數中都需要使用這幾行代碼。

我們忽略了 list_directors()函數的代碼,因為該函數在結構上與list_dvds()函數非常類似,只不過更簡單一些,因為本函數只列出一個字段(name)。

def remove_dvd(db):

title, identity = find_dvd(db, “remove”)

if title is None:

return

ans = Console.get_bool(“Remove {0}?”.format(title), “no”)

if ans:

cursor = db.cursor()

cursor.execute(“DELETE FROM dvds WHERE id=?”, (identity,))

db.commit()

在用戶需要刪除一個記錄時,將調用本函數,並且本函數與dvds-dbm.py程序中 相應的函數是非常類似的。

到此,我們完全查閱了 dvds-sql.py程序,並且了解了如何創建數據庫表格、選取 記錄、在選定的記錄上進行迭代以及插入、更新與刪除記錄。使用execute()方法,我們可以執行底層數據庫所支持的任意SQL語句。

SQLite提供了比我們這裡使用的多得多的功能,包括自動提交模式(以及任意其他類型的事務控制),以及創建可以在SQL查詢內執行的函數的能力。提供一個工廠函數並用於控制對每個取回的記錄返回什麼(比如,一個字典或自定義類型,而不是字段序列)也是可能的。此外,通過傳遞“:memory:”作為文件名,創建內存中的SQLite 數據庫也是可能的。

以上內容部分摘自視頻課程05後端編程Python22 數據庫編程,更多實操示例請參照視頻講解。跟着張員外講編程,學習更輕鬆,不花錢還能學習真本領。

用python將幾個mysql數據庫的數據同步到一個mysql裡面

MySQL 的 Binlog 記錄著 MySQL 數據庫的所有變更信息,了解 Binlog 的結構可以幫助我們解析Binlog,甚至對 Binlog 進行一些修改,或者說是“篡改”,例如實現類似於 Oracle 的 flashback 的功能,恢復誤刪除的記錄,把 update 的記錄再還原回去等。本文將帶您探討一下這些神奇功能的實現,您會發現比您想象地要簡單得多。本文指的 Binlog 是 ROW 模式的 Binlog,這也是 MySQL 8 里的默認模式,STATEMENT 模式因為使用中有很多限制,現在用得越來越少了。

Binlog 由事件(event)組成,請注意是事件(event)不是事務(transaction),一個事務可以包含多個事件。事件描述對數據庫的修改內容。

現在我們已經了解了 Binlog 的結構,我們可以試着修改 Binlog 里的數據。例如前面舉例的 Binlog 刪除了一條記錄,我們可以試着把這條記錄恢復,Binlog 裡面有個刪除行(DELETE_ROWS_EVENT)的事件,就是這個事件刪除了記錄,這個事件和寫行(WRITE_ROWS_EVENT)的事件的數據結構是完全一樣的,只是刪除行事件的類型是 32,寫行事件的類型是 30,我們把對應的 Binlog 位置的 32 改成 30 即可把已經刪除的記錄再插入回去。從前面的 “show binlog events” 裡面可看到這個 DELETE_ROWS_EVENT 是從位置 378 開始的,這裡的位置就是 Binlog 文件的實際位置(以字節為單位)。從事件(event)的結構裡面可以看到 type_code 是在 event 的第 5 個字節,我們寫個 Python 小程序把把第383(378+5=383)字節改成 30 即可。當然您也可以用二進制編輯工具來改。

找出 Binlog 中的大事務

由於 ROW 模式的 Binlog 是每一個變更都記錄一條日誌,因此一個簡單的 SQL,在 Binlog 里可能會產生一個巨無霸的事務,例如一個不帶 where 的 update 或 delete 語句,修改了全表裡面的所有記錄,每條記錄都在 Binlog 裡面記錄一次,結果是一個巨大的事務記錄。這樣的大事務經常是產生麻煩的根源。我的一個客戶有一次向我抱怨,一個 Binlog 前滾,滾了兩天也沒有動靜,我把那個 Binlog 解析了一下,發現裡面有個事務產生了 1.4G 的記錄,修改了 66 萬條記錄!下面是一個簡單的找出 Binlog 中大事務的 Python 小程序,我們知道用 mysqlbinlog 解析的 Binlog,每個事務都是以 BEGIN 開頭,以 COMMIT 結束。我們找出 BENGIN 前面的 “# at” 的位置,檢查 COMMIT 後面的 “# at” 位置,這兩個位置相減即可計算出這個事務的大小,下面是這個 Python 程序的例子。

切割 Binlog 中的大事務

對於大的事務,MySQL 會把它分解成多個事件(注意一個是事務 TRANSACTION,另一個是事件 EVENT),事件的大小由參數 binlog-row-event-max-size 決定,這個參數默認是 8K。因此我們可以把若干個事件切割成一個單獨的略小的事務

ROW 模式下,即使我們只更新了一條記錄的其中某個字段,也會記錄每個字段變更前後的值,這個行為是 binlog_row_image 參數控制的,這個參數有 3 個值,默認為 FULL,也就是記錄列的所有修改,即使字段沒有發生變更也會記錄。這樣我們就可以實現類似 Oracle 的 flashback 的功能,我個人估計 MySQL 未來的版本從可能會基於 Binlog 推出這樣的功能。

了解了 Binlog 的結構,再加上 Python 這把瑞士軍刀,我們還可以實現很多功能,例如我們可以統計哪個表被修改地最多?我們還可以把 Binlog 切割成一段一段的,然後再重組,可以靈活地進行 MySQL 數據庫的修改和遷移等工作。

django python 數據庫同步的方案,請幫我想一想?

你都打算用django來同步了,哪來得的可否用它來同步的問題呢。

有一個功能叫probe,似乎叫這個名子,你可以用它,根據A庫,自動建立模型。 順便說一下foriegnkey在django的模型庫里也是支持的。 如果不支持,可能你的foreign key太複雜了。

如果可以自動建立模型,那麼其餘的都不是問題了。 不過不建議你這麼繞一個大彎路,還要用django去寫同步腳本。 它僅僅做管理就可以了。

如果一定要用它做同步,就可以在view里寫一個函數。把你的同步邏輯放進去。 然後用crontab設置一個定時任務,去訪問這個URL就好了。

似乎它沒有tomcat里的那種定時任務功能。 如果你真的要想有,也有開源的插件下載,不過,這就把事情 弄得太複雜 了。

django就作為一個輕量級的WEB管理軟件就可以了。 如果想做複雜的數據庫功能,還是用php和java。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/308572.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2025-01-03 14:49
下一篇 2025-01-03 14:49

相關推薦

  • Python 常用數據庫有哪些?

    在Python編程中,數據庫是不可或缺的一部分。隨着互聯網應用的不斷擴大,處理海量數據已成為一種趨勢。Python有許多成熟的數據庫管理系統,接下來我們將從多個方面介紹Python…

    編程 2025-04-29
  • openeuler安裝數據庫方案

    本文將介紹在openeuler操作系統中安裝數據庫的方案,並提供代碼示例。 一、安裝MariaDB 下面介紹如何在openeuler中安裝MariaDB。 1、更新軟件源 sudo…

    編程 2025-04-29
  • 數據庫第三範式會有刪除插入異常

    如果沒有正確設計數據庫,第三範式可能導致刪除和插入異常。以下是詳細解釋: 一、什麼是第三範式和範式理論? 範式理論是關係數據庫中的一個規範化過程。第三範式是範式理論中的一種常見形式…

    編程 2025-04-29
  • leveldb和unqlite:兩個高性能的數據庫存儲引擎

    本文將介紹兩款高性能的數據庫存儲引擎:leveldb和unqlite,並從多個方面對它們進行詳細的闡述。 一、leveldb:輕量級的鍵值存儲引擎 1、leveldb概述: lev…

    編程 2025-04-28
  • Python怎麼導入數據庫

    Python是一種高級編程語言。它具有簡單、易讀的語法和廣泛的庫,讓它成為一個靈活和強大的工具。Python的數據庫連接類型可以多種多樣,其中包括MySQL、Oracle、Post…

    編程 2025-04-28
  • Think-ORM數據模型及數據庫核心操作

    本文主要介紹Think-ORM數據模型建立和數據庫核心操作。 一、模型定義 Think-ORM是一個開源的ORM框架,用於簡化在PHP應用中(特別是ThinkPHP)與關係數據庫之…

    編程 2025-04-27
  • 如何使用Python將CSV文件導入到數據庫

    CSV(Comma Separated Values)是一種可讀性高、易於編輯與導入導出的文件格式,常用於存儲表格數據。在數據處理過程中,我們有時需要將CSV文件導入到數據庫中進行…

    編程 2025-04-27
  • Python批量導入數據庫

    本文將介紹Python中如何批量導入數據庫。首先,對於數據分析和挖掘領域,數據庫中批量導入數據是一個必不可少的過程。這種高效的導入方式可以極大地提高數據挖掘、機器學習等任務的效率。…

    編程 2025-04-27
  • Activiti 6自動部署後不生成數據庫act_hi_*的解決方法

    本文將從多個方面詳細闡述Activiti 6自動部署後不生成數據庫act_hi_*的問題,並提供對應的代碼示例。 一、問題分析 在使用Activiti 6部署流程後,我們發現act…

    編程 2025-04-27
  • Python更新數據庫數據

    Python更新數據庫數據是一個非常實用的功能。在工作中,我們經常需要從外部獲取數據,然後將這些數據保存到數據庫中,或者對現有數據庫中的數據進行更新。Python提供了許多庫和框架…

    編程 2025-04-27

發表回復

登錄後才能評論