本文目錄一覽:
- 1、Python爬蟲數據應該怎麼處理
- 2、Python 運行報錯NameError出現原因,怎麼解決
- 3、Python應該怎麼學?
- 4、如何用python處理數據
- 5、python運行錯誤怎麼辦?
- 6、python處理圖片數據?
Python爬蟲數據應該怎麼處理
一、首先理解下面幾個函數
設置變數 length()函數 char_length() replace() 函數 max() 函數
1.1、設置變數 set @變數名=值
set @address=’中國-山東省-聊城市-莘縣’;select @address
1.2 、length()函數 char_length()函數區別
select length(‘a’)
,char_length(‘a’)
,length(‘中’)
,char_length(‘中’)
1.3、 replace() 函數 和length()函數組合
set @address=’中國-山東省-聊城市-莘縣’;select @address
,replace(@address,’-‘,”) as address_1
,length(@address) as len_add1
,length(replace(@address,’-‘,”)) as len_add2
,length(@address)-length(replace(@address,’-‘,”)) as _count
etl清洗欄位時候有明顯分割符的如何確定新的數據表增加幾個分割出的欄位
計算出com_industry中最多有幾個 – 符 以便確定增加幾個欄位 最大值+1 為可以拆分成的欄位數 此表為3 因此可以拆分出4個行業欄位 也就是4個行業等級
select max(length(com_industry)-length(replace(com_industry,’-‘,”))) as _max_count
from etl1_socom_data
1.4、設置變數 substring_index()字元串截取函數用法
set @address=’中國-山東省-聊城市-莘縣’;
select
substring_index(@address,’-‘,1) as china,
substring_index(substring_index(@address,’-‘,2),’-‘,-1) as province,
substring_index(substring_index(@address,’-‘,3),’-‘,-1) as city,
substring_index(@address,’-‘,-1) as district
1.5、條件判斷函數 case when
case when then when then else 值 end as 欄位名
select case when 89101 then ‘大於’ else ‘小於’ end as betl1_socom_data
二、kettle轉換etl1清洗
首先建表 步驟在視頻里
欄位索引 沒有提 索引演算法建議用BTREE演算法增強查詢效率
2.1.kettle文件名:trans_etl1_socom_data
2.2.包括控制項:表輸入表輸出
2.3.數據流方向:s_socom_dataetl1_socom_data
kettle轉換1截圖
2.4、表輸入2.4、SQL腳本 初步清洗com_district和com_industry欄位
select a.*,case when com_district like ‘%業’ or com_district like ‘%織’ or com_district like ‘%育’ then null else com_district end as com_district1
,case when com_district like ‘%業’ or com_district like ‘%織’ or com_district like ‘%育’ then concat(com_district,’-‘,com_industry) else com_industry end as com_industry_total
,replace(com_addr,’地 址:’,”) as com_addr1
,replace(com_phone,’電 話:’,”) as com_phone1
,replace(com_fax,’傳 真:’,”) as com_fax1
,replace(com_mobile,’手機:’,”) as com_mobile1
,replace(com_url,’網址:’,”) as com_url1
,replace(com_email,’郵箱:’,”) as com_email1
,replace(com_contactor,’聯繫人:’,”) as com_contactor1
,replace(com_emploies_nums,’公司人數:’,”) as com_emploies_nums1
,replace(com_reg_capital,’註冊資金:萬’,”) as com_reg_capital1
,replace(com_type,’經濟類型:’,”) as com_type1
,replace(com_product,’公司產品:’,”) as com_product1
,replace(com_desc,’公司簡介:’,”) as com_desc1from s_socom_data as a
2.5、表輸出
表輸出設置注意事項
注意事項:
① 涉及爬蟲增量操作 不要勾選裁剪表選項
②數據連接問題 選擇表輸出中表所在的資料庫
③欄位映射問題 確保數據流中的欄位和物理表的欄位數量一致 對應一致
三、kettle轉換etl2清洗
首先建表增加了4個欄位 演示步驟在視頻里
欄位索引 沒有提 索引演算法建議用BTREE演算法增強查詢效率
主要針對etl1 生成的新的com_industry進行欄位拆分 清洗
3.1.kettle文件名:trans_etl2_socom_data
3.2.包括控制項:表輸入表輸出
3.3.數據流方向:etl1_socom_dataetl2_socom_data
注意事項:
① 涉及爬蟲增量操作 不要勾選裁剪表選項
②數據連接問題 選擇表輸出中表所在的資料庫
③欄位映射問題 確保數據流中的欄位和物理表的欄位數量一致 對應一致
kettle轉換2截圖
3.4、SQL腳本 對com_industry進行拆分 完成所有欄位清洗 註冊資金欄位時間關係沒有進行細緻拆解 調整代碼即可
select a.*,case
#行業為”的值 置為空when length(com_industry)=0 then null
#其他的取第一個-分隔符之前else substring_index(com_industry,’-‘,1) end as com_industry1,case
when length(com_industry)-length(replace(com_industry,’-‘,”))=0 then null
#’交通運輸、倉儲和郵政業-‘ 這種值 行業2 也置為nullwhen length(com_industry)-length(replace(com_industry,’-‘,”))=1 and length(substring_index(com_industry,’-‘,-1))=0 then nullwhen length(com_industry)-length(replace(com_industry,’-‘,”))=1 then substring_index(com_industry,’-‘,-1)else substring_index(substring_index(com_industry,’-‘,2),’-‘,-1)end as com_industry2,case
when length(com_industry)-length(replace(com_industry,’-‘,”))=1 then nullwhen length(com_industry)-length(replace(com_industry,’-‘,”))=2 then substring_index(com_industry,’-‘,-1)else substring_index(substring_index(com_industry,’-‘,3),’-‘,-1)end as com_industry3,case
when length(com_industry)-length(replace(com_industry,’-‘,”))=2 then nullelse substring_index(com_industry,’-‘,-1)end as com_industry4from etl1_socom_data as a
四、清洗效果質量檢查
4.1爬蟲數據源數據和網站數據是否相符
如果本身工作是爬蟲和數據處理在一起處理,抓取的時候其實已經判斷,此步驟可以省略,如果對接上游爬蟲同事,這一步首先判斷,不然清洗也是無用功,一般都要求爬蟲同事存儲請求的url便於後面數據處理查看數據質量
4.2計算爬蟲數據源和各etl清洗數據表數據量
註:SQL腳本中沒有經過聚合過濾 3個表數據量應相等
4.2.1、sql查詢 下面表我是在同一資料庫中 如果不在同一資料庫 from 後面應加上表所在的資料庫名稱
不推薦數據量大的時候使用
select count(1) from s_socom_dataunion all
select count(1) from etl1_socom_dataunion all
select count(1) from etl2_socom_data
4.2.2 根據 kettle轉換執行完畢以後 表輸出總量對比
kettle表輸出總數據量
4.3查看etl清洗質量
確保前兩個步驟已經無誤,數據處理負責的etl清洗工作自查開始 針對數據源清洗的欄位 寫腳本檢查 socom網站主要是對地區 和行業進行了清洗 對其他欄位做了替換多餘欄位處理 ,因此採取腳本檢查,
找到page_url和網站數據進行核查
where裡面這樣寫便於查看某個欄位的清洗情況
select *
from etl2_socom_data
where com_district is null and length(com_industry)-length(replace(com_industry,’-‘,”))=3
此頁面數據和etl2_socom_data表最終清洗數據對比
網站頁面數據
etl2_socom_data表數據
清洗工作完成。
Python 運行報錯NameError出現原因,怎麼解決
python程序,報錯NameError: name XX is not defined 是沒有聲明造成的,需要在文件的前兩行進行聲明編碼,聲明方法為:
1、寫一個python文件,文件中有中文字元,且未聲明編碼。
2、當程序文件中,存在中文字元時候,文件未聲明編碼格式就會出現報錯信息: File “encode.py”, line 1SyntaxError:
Non-ASCII character ‘\xe7’ in file encode.py on line 1, but no encoding
declared; see //..python…/dev/peps/pep-0263/ for details for details。
3、根據錯誤提示,在python官網得到如下幫助信息。
4、所以,按照幫助文檔的提示以及例子,在Python文件中加入一個編碼聲明。
5、保存之後,再次運行,運行成功。
Python應該怎麼學?
學習python主要有自學和報班學習兩種方式。
具體學的順序如下:
①Python軟體開發基礎
掌握計算機的構成和工作原理
會使用Linux常用工具
熟練使用Docker的基本命令
建立Python開發環境,並使用print輸出
使用Python完成字元串的各種操作
使用Python re模塊進行程序設計
使用Python創建文件、訪問、刪除文件
掌握import 語句、From…import 語句、From…import* 語句、方法的引用、Python中的包
②Python軟體開發進階
能夠使用Python面向對象方法開發軟體
能夠自己建立資料庫,表,並進行基本資料庫操作
掌握非關係資料庫MongoDB的使用,掌握Redis開發
能夠獨立完成TCP/UDP服務端客戶端軟體開發,能夠實現ftp、http伺服器,開發郵件軟體
能開發多進程、多線程軟體
③Python全棧式WEB工程師
能夠獨立完成後端軟體開發,深入理解Python開發後端的精髓
能夠獨立完成前端軟體開發,並和後端結合,熟練掌握使用Python進行全站Web開發的技巧
④Python多領域開發
能夠使用Python熟練編寫爬蟲軟體
能夠熟練使用Python庫進行數據分析
招聘網站Python招聘職位數據爬取分析
掌握使用Python開源人工智慧框架進行人工智慧軟體開發、語音識別、人臉識別
掌握基本設計模式、常用演算法
掌握軟體工程、項目管理、項目文檔、軟體測試調優的基本方法
Python目前是比較火,學習之後可以從事軟體開發、數據挖掘等工作,發展前景非常好,普通人也可以學習。
想要系統學習,你可以考察對比一下開設有IT專業的熱門學校,好的學校擁有根據當下企業需求自主研發課程的能力,建議實地考察對比一下。
祝你學有所成,望採納。
請點擊輸入圖片描述
如何用python處理數據
在python項目中,新建python文件,並依次導入xlrd和xlwt接著調用open_workbook()方法,打開一個excel文件
python運行錯誤怎麼辦?
一、python的錯誤處理:
在程序運行的過程中,如果發生了錯誤,可以事先約定返回一個錯誤代碼,這樣,就可以知道是否有錯以及出錯的原因。
在操作系統提供的調用中,返回錯誤碼非常常見。比如打開文件的函數open(),成功時返迴文件的描述符(就是一個整數),出錯時返回-1用錯誤碼來表示是否出錯十分不便,因為函數本身應該返回的正常結果和錯誤碼混在一起,造成調用者必須大量的代碼來判斷是否出錯:def foo():
r = somefunction() if r == (-1): return (-1) return rdef bar():
r = foo() if r == (-1): print(“Error”) else: pass一旦出錯,還要一級一級上報,直到某個函數可以處理該錯誤(比如,給用戶輸出一個錯誤信息)
所以,高級語言通常都內置了一套try…except…finally…的錯誤處理機制,python也不例外。try
讓我們用一個例子來看看try的機制try: print(“try….”)
r = 10 / 0 print(“result”, r)except ZeroDivisionError as e: print(“except:”, e)finally: print(“finally…”)print(“END….”)
當我們認為某些代碼可能會出錯時,就可以用try來運行這段代碼,如果執行出錯,則後續代碼不會繼續執行
而是直接跳轉至錯誤處理代碼,即except語句塊
執行完except後,如果有finally語句塊,則執行finally語句塊,至此,執行完畢。
上面的代碼在計算10 / 0時 會產生一個除法運算錯誤:try….except: division by zerofinally…
END….從輸出可以看到,當錯誤發生時,後續語句print(“result:”, r)不會被執行,except由於捕獲到ZeroDivisionError因此被執行。
最後,finally語句被執行。然後,程序繼續按照流程往下走。
如果把除數0 變成2,則執行結果如下try….
result 5.0finally…
END….由於沒有錯誤發生,所以except語句塊不會被執行,但是finally如果有則一定會被執行,當然finally也可以沒有
你還可以猜測,錯誤應該有很多種類,日過發生了不同類型的錯誤,應該由不同的except語句塊處理。
沒錯,可以有多個except來捕獲不同類型的錯誤:try: print(“try…..”)
r = 10 / int(“a”) print(“result:”, r)except ValueError as e: print(“ValueError:”, e)except ZeroDivisionError as e: print(“ZeroDivisionError:”, e)finally: print(“finally…”)print(“END…”)
int()函數可能會拋出ValueError,所以我們用一個except捕獲ValueError,用另一個except捕獲ZeroDivisionError
此外,如果沒有錯誤發生,可以再except語句塊後面加一個else,當沒有錯誤發生時,會自動執行else語句。try: print(“try…”)
r = 10 / int(“2”) print(“result:”, r)except ValueError as e: print(“ValueError:”, e)except ZeroDivisionError as e: print(“ZeroDivisionError:”, e)else: print(“No error!”)finally: print(“finally…”)print(“END”)
python的錯誤其實也是class,所有的錯誤類型都繼承自BaseException,
所以在使用except時需要注意的是,它不但捕獲該類型的錯誤,還把其子類也「一網打盡」。
比如:try:
foo()except ValueError as e: print(“ValueError”)except UnicodeError as e: print(“UnicodeError”)
第二個except永遠也捕獲不到UnicodeError, 因為UnicodeError是ValueError的子類
如果有,也是被第一個except給捕獲了。
python所有的錯誤都是BaseException類派生的。
所有常見的錯誤類型和繼承關係看這裡:
使用try…exccept捕獲錯誤還有一個巨大的好處,就是可以跨越多層調用,比如函數main()調用foo()
foo()調用bar(),結果bar()出錯了,這時,只要main()捕獲到了,就可以處理:def foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main(): try:
bar(“0”) except Exception as e: print(“Error:”, e) finally: print(“finally…”)
也就是說,不需要在每個可能出錯的地方去捕獲異常,只要在合適的層次去捕獲就可以了。
這樣一來,就大大減少了寫 try…except…finally的麻煩。
二、調用堆棧
如果錯誤沒有被捕獲,他就會一直往上拋,最後被python解釋器捕獲,列印一個錯誤信息,然後程序退出。def foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main():
bar(“0”)
main()
執行結果為:
Traceback (most recent call last):
File “C:/Python36/test.py”, line 10, in module
main()
File “C:/Python36/test.py”, line 8, in main
bar(“0”)
File “C:/Python36/test.py”, line 5, in bar return foo(s) * 2
File “C:/Python36/test.py”, line 2, in foo return 10 / int(s)
ZeroDivisionError: division by zero
出錯並不可怕,可怕的時不知道哪裡出錯了。解讀錯誤信息時定位錯誤的關鍵。
我們從上往下可以看到整個錯誤的調用函數鏈。
錯誤第一行:
Traceback (most recent call last):
這告訴我們的是錯誤的跟蹤信息。
File “C:/Python36/test.py”, line 10, in module main()
說明調用main()出錯了,在代碼文件test.py中第10行,但是原因是第8行:
File”C:/Python36/test.py”, line8, in main
bar(“0”)
調用bar(“0”)出錯了,在代碼文件test.py中第8行,但原因是第5行:
File”C:/Python36/test.py”, line5, in barreturn foo(s) * 2調用return foo(s) * 2時出錯了,在test.py中第5行,但原因是第2行
File “C:/Python36/test.py”, line 2, in foo return 10 / int(s)
ZeroDivisionError: division by zero
這時我們找到了源頭,原來在第2行調用return 10 / int(s)出錯了,錯誤為ZeroDivisionError
三、記錄錯誤
如果不捕獲錯誤,自然可以讓python解釋器來列印出錯誤堆棧,但是程序也被結束了。
既然我們能捕獲錯誤,就可以把錯誤堆棧列印出來,然後分析錯誤原因,同時,讓程序繼續執行下去。
python內置的logging模塊可以非常容易地記錄錯誤信息:import loggingdef foo(s): return 10 / int(s)def bar(s): return foo(s) * 2def main(): try:
bar(“0”) except Exception as e:
logging.exception(e)
main()print(“END”)
輸出結果為:
ERROR:root:division by zero
Traceback (most recent call last):
File “C:/Python36/test.py”, line 12, in main
bar(“0”)
File “C:/Python36/test.py”, line 8, in bar return foo(s) * 2
File “C:/Python36/test.py”, line 5, in foo return 10 / int(s)
ZeroDivisionError: division by zero
END
同樣是出錯,但程序列印完錯誤信息後會繼續執行,並正常退出。
通過配置,logging還可以把錯誤記錄到日誌文件里,方便事後排查。
四、拋出錯誤
因為錯誤是class,捕獲一個錯誤就是捕獲到該class的一個實例。
因此,錯誤並不是憑空產生的,而是有意創建並拋出的。
python的內置函數會拋出很多類型的錯誤,我們自己編寫的函數也可以拋出錯誤。
如果要拋出錯誤,首先根據需要,可以定義一個錯誤的class,選擇好繼承關係,然後用raise語句拋出一個錯誤的實例:class FooError(ValueError): passdef foo(s):
n = int(s) if n == 0: raise FooError(“invalid value: %s” % s) return 10 / n
foo(“0”)
輸出結果:
Traceback (most recent call last):
File “C:/Python36/test.py”, line 10, in module
foo(“0”)
File “C:/Python36/test.py”, line 7, in foo raise FooError(“invalid value: %s” % s)
FooError: invalid value: 0
只有在必要的時候才定義我們自己的錯誤類型。
如果可以選擇python已有的內置錯誤類型(比如ValueError, TypeError),盡量使用python內置的錯誤類型。
最後,我們來看另一種錯誤處理方式:def foo(s):
n = int(s) if n == 0: raise ValueError(“invalid value: %s” % s) return 10 / ndef bar(): try:
foo(“0”) except ValueError as e: print(“ValieError”) raisebar()
在bar()函數中,我們明明已經捕獲了錯誤,但是,列印一個ValueError之後
又通過raise語句拋出去了。這不是有病嗎
其實,這種錯誤處理方式不但沒病,而且相當常見。
捕獲錯誤目的只是記錄一下,便於或許追蹤。
但是,由於當前函數不知道應該怎麼處理該錯誤,所以,最恰當的方式是繼續往上拋,讓頂層調用者去處理。
好比一個員工處理不了一個問題時,就把問題一直往上拋,最終會拋給CEO去解決。
注意:raise語句如果不帶參數,就會把當前錯誤原樣拋出。
此外,在except中raise一個Error,還可以改寫錯誤類型try: 10 / 0except ZeroDivisionError: raise ValueError(“do not input zero!”)
輸出結果:
Traceback (most recent call last):
File “C:/Python36/test.py”, line 4, in module raise ValueError(“do not input zero!”)
ValueError: do not input zero!只要是合理的轉換邏輯就可以,但是,絕不應該把一個IOError轉成毫不相干的valueError.
總結:
python內置的 try…except…finally 用來處理錯誤十分方便。
出錯時,會分析錯誤信息並定位錯誤發生的代碼位置才是關鍵的。
程序也可以主動拋出錯誤,讓調用者來處理相應的錯誤。
但是應該在文檔中寫清楚可能會拋出哪些錯誤,以及錯誤產生的原因。
python處理圖片數據?
生成一張純色的圖片
先設置圖片的顏色,接著利用Image模塊的new方法新生成一張圖片,png格式的圖片需要設置成rgba,類似的還有rgb,L(灰度圖等),尺寸設定為640,480,這個可以根據自己的情況設定,顏色同樣如此。
批量生成圖片
上面生成了一張圖片,那要生成十張圖片呢,這種步驟一樣,只是顏色改變的,利用循環就可以解決。首先創建一個顏色列表,把要生成的圖片顏色放進去。接著循環獲取不同的顏色,保存的時候利用字元串拼接的方法改變圖片的名字。
本地生成的圖片
封裝成函數
前面的方法已經可以批量生成圖片了,為了通用性強一點,我們可以封裝成函數,把哪些可以改變的參數單獨抽離出來。尺寸也同樣,使用的時候,可以根據自己的需要定義顏色列表和尺寸。當然還有加一些提示用語和報錯兼容性,這裡就不講了。
本地生成的圖片
原創文章,作者:CNNFJ,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/331410.html