python該怎麼處理,python該怎麼處理數據

本文目錄一覽:

Python爬蟲數據應該怎麼處理

一、首先理解下面幾個函數

設置變量 length()函數 char_length() replace() 函數 max() 函數

1.1、設置變量 set @變量名=值

set @address=’中國-山東省-聊城市-莘縣’;select @address

1.2 、length()函數 char_length()函數區別

select length(‘a’)

,char_length(‘a’)

,length(‘中’)

,char_length(‘中’)

1.3、 replace() 函數 和length()函數組合

set @address=’中國-山東省-聊城市-莘縣’;select @address

,replace(@address,’-‘,”) as address_1

,length(@address) as len_add1

,length(replace(@address,’-‘,”)) as len_add2

,length(@address)-length(replace(@address,’-‘,”)) as _count

etl清洗字段時候有明顯分割符的如何確定新的數據表增加幾個分割出的字段

計算出com_industry中最多有幾個 – 符 以便確定增加幾個字段 最大值+1 為可以拆分成的字段數 此表為3 因此可以拆分出4個行業字段 也就是4個行業等級

select max(length(com_industry)-length(replace(com_industry,’-‘,”))) as _max_count

from etl1_socom_data

1.4、設置變量 substring_index()字符串截取函數用法

set @address=’中國-山東省-聊城市-莘縣’;

select

substring_index(@address,’-‘,1) as china,

substring_index(substring_index(@address,’-‘,2),’-‘,-1) as province,

substring_index(substring_index(@address,’-‘,3),’-‘,-1) as city,

substring_index(@address,’-‘,-1) as district

1.5、條件判斷函數 case when

case when then when then else 值 end as 字段名

select case when 89101 then ‘大於’ else ‘小於’ end as betl1_socom_data

二、kettle轉換etl1清洗

首先建表 步驟在視頻里

字段索引 沒有提 索引算法建議用BTREE算法增強查詢效率

2.1.kettle文件名:trans_etl1_socom_data

2.2.包括控件:表輸入表輸出

2.3.數據流方向:s_socom_dataetl1_socom_data

kettle轉換1截圖

2.4、表輸入2.4、SQL腳本 初步清洗com_district和com_industry字段

select a.*,case when com_district like ‘%業’ or com_district like ‘%織’ or com_district like ‘%育’ then null else com_district end as com_district1

,case when com_district like ‘%業’ or com_district like ‘%織’ or com_district like ‘%育’ then concat(com_district,’-‘,com_industry) else com_industry end as com_industry_total

,replace(com_addr,’地 址:’,”) as com_addr1

,replace(com_phone,’電 話:’,”) as com_phone1

,replace(com_fax,’傳 真:’,”) as com_fax1

,replace(com_mobile,’手機:’,”) as com_mobile1

,replace(com_url,’網址:’,”) as com_url1

,replace(com_email,’郵箱:’,”) as com_email1

,replace(com_contactor,’聯繫人:’,”) as com_contactor1

,replace(com_emploies_nums,’公司人數:’,”) as com_emploies_nums1

,replace(com_reg_capital,’註冊資金:萬’,”) as com_reg_capital1

,replace(com_type,’經濟類型:’,”) as com_type1

,replace(com_product,’公司產品:’,”) as com_product1

,replace(com_desc,’公司簡介:’,”) as com_desc1from s_socom_data as a

2.5、表輸出

表輸出設置注意事項

注意事項:

① 涉及爬蟲增量操作 不要勾選裁剪表選項

②數據連接問題 選擇表輸出中表所在的數據庫

③字段映射問題 確保數據流中的字段和物理表的字段數量一致 對應一致

三、kettle轉換etl2清洗

首先建表增加了4個字段 演示步驟在視頻里

字段索引 沒有提 索引算法建議用BTREE算法增強查詢效率

主要針對etl1 生成的新的com_industry進行字段拆分 清洗

3.1.kettle文件名:trans_etl2_socom_data

3.2.包括控件:表輸入表輸出

3.3.數據流方向:etl1_socom_dataetl2_socom_data

注意事項:

① 涉及爬蟲增量操作 不要勾選裁剪表選項

②數據連接問題 選擇表輸出中表所在的數據庫

③字段映射問題 確保數據流中的字段和物理表的字段數量一致 對應一致

kettle轉換2截圖

3.4、SQL腳本 對com_industry進行拆分 完成所有字段清洗 註冊資金字段時間關係沒有進行細緻拆解 調整代碼即可

select a.*,case

#行業為”的值 置為空when length(com_industry)=0 then null

#其他的取第一個-分隔符之前else substring_index(com_industry,’-‘,1)  end as com_industry1,case

when length(com_industry)-length(replace(com_industry,’-‘,”))=0 then null

#’交通運輸、倉儲和郵政業-‘ 這種值 行業2 也置為nullwhen length(com_industry)-length(replace(com_industry,’-‘,”))=1 and length(substring_index(com_industry,’-‘,-1))=0 then nullwhen length(com_industry)-length(replace(com_industry,’-‘,”))=1  then substring_index(com_industry,’-‘,-1)else substring_index(substring_index(com_industry,’-‘,2),’-‘,-1)end as com_industry2,case

when length(com_industry)-length(replace(com_industry,’-‘,”))=1 then nullwhen length(com_industry)-length(replace(com_industry,’-‘,”))=2 then  substring_index(com_industry,’-‘,-1)else substring_index(substring_index(com_industry,’-‘,3),’-‘,-1)end as com_industry3,case

when length(com_industry)-length(replace(com_industry,’-‘,”))=2 then nullelse substring_index(com_industry,’-‘,-1)end as com_industry4from etl1_socom_data as a

四、清洗效果質量檢查

4.1爬蟲數據源數據和網站數據是否相符

如果本身工作是爬蟲和數據處理在一起處理,抓取的時候其實已經判斷,此步驟可以省略,如果對接上游爬蟲同事,這一步首先判斷,不然清洗也是無用功,一般都要求爬蟲同事存儲請求的url便於後面數據處理查看數據質量

4.2計算爬蟲數據源和各etl清洗數據表數據量

註:SQL腳本中沒有經過聚合過濾 3個表數據量應相等

4.2.1、sql查詢 下面表我是在同一數據庫中 如果不在同一數據庫 from 後面應加上表所在的數據庫名稱

不推薦數據量大的時候使用

select count(1) from s_socom_dataunion all

select count(1) from etl1_socom_dataunion all

select count(1) from etl2_socom_data

4.2.2 根據 kettle轉換執行完畢以後 表輸出總量對比

kettle表輸出總數據量

4.3查看etl清洗質量

確保前兩個步驟已經無誤,數據處理負責的etl清洗工作自查開始 針對數據源清洗的字段 寫腳本檢查 socom網站主要是對地區 和行業進行了清洗 對其他字段做了替換多餘字段處理 ,因此採取腳本檢查,

找到page_url和網站數據進行核查

where裏面這樣寫便於查看某個字段的清洗情況

select *

from etl2_socom_data

where com_district is null and length(com_industry)-length(replace(com_industry,’-‘,”))=3

此頁面數據和etl2_socom_data表最終清洗數據對比

網站頁面數據

etl2_socom_data表數據

清洗工作完成。

Python 運行報錯NameError出現原因,怎麼解決

python程序,報錯NameError: name XX is not defined 是沒有聲明造成的,需要在文件的前兩行進行聲明編碼,聲明方法為:

1、寫一個python文件,文件中有中文字符,且未聲明編碼。

2、當程序文件中,存在中文字符時候,文件未聲明編碼格式就會出現報錯信息:  File “encode.py”, line 1SyntaxError:

Non-ASCII character ‘\xe7’ in file encode.py on line 1, but no encoding

declared; see //..python…/dev/peps/pep-0263/ for details for details。

3、根據錯誤提示,在python官網得到如下幫助信息。

4、所以,按照幫助文檔的提示以及例子,在Python文件中加入一個編碼聲明。

5、保存之後,再次運行,運行成功。

Python應該怎麼學?

學習python主要有自學和報班學習兩種方式。

具體學的順序如下:

①Python軟件開發基礎

掌握計算機的構成和工作原理

會使用Linux常用工具

熟練使用Docker的基本命令

建立Python開發環境,並使用print輸出

使用Python完成字符串的各種操作

使用Python re模塊進行程序設計

使用Python創建文件、訪問、刪除文件

掌握import 語句、From…import 語句、From…import* 語句、方法的引用、Python中的包

②Python軟件開發進階

能夠使用Python面向對象方法開發軟件

能夠自己建立數據庫,表,並進行基本數據庫操作

掌握非關係數據庫MongoDB的使用,掌握Redis開發

能夠獨立完成TCP/UDP服務端客戶端軟件開發,能夠實現ftp、http服務器,開發郵件軟件

能開發多進程、多線程軟件

③Python全棧式WEB工程師

能夠獨立完成後端軟件開發,深入理解Python開發後端的精髓

能夠獨立完成前端軟件開發,並和後端結合,熟練掌握使用Python進行全站Web開發的技巧

④Python多領域開發

能夠使用Python熟練編寫爬蟲軟件

能夠熟練使用Python庫進行數據分析

招聘網站Python招聘職位數據爬取分析

掌握使用Python開源人工智能框架進行人工智能軟件開發、語音識別、人臉識別

掌握基本設計模式、常用算法

掌握軟件工程、項目管理、項目文檔、軟件測試調優的基本方法

Python目前是比較火,學習之後可以從事軟件開發、數據挖掘等工作,發展前景非常好,普通人也可以學習。

想要系統學習,你可以考察對比一下開設有IT專業的熱門學校,好的學校擁有根據當下企業需求自主研發課程的能力,建議實地考察對比一下。

祝你學有所成,望採納。

請點擊輸入圖片描述

如何用python處理數據

在python項目中,新建python文件,並依次導入xlrd和xlwt接着調用open_workbook()方法,打開一個excel文件

python運行錯誤怎麼辦?

一、python的錯誤處理:

在程序運行的過程中,如果發生了錯誤,可以事先約定返回一個錯誤代碼,這樣,就可以知道是否有錯以及出錯的原因。

在操作系統提供的調用中,返回錯誤碼非常常見。比如打開文件的函數open(),成功時返迴文件的描述符(就是一個整數),出錯時返回-1用錯誤碼來表示是否出錯十分不便,因為函數本身應該返回的正常結果和錯誤碼混在一起,造成調用者必須大量的代碼來判斷是否出錯:def foo():

r = somefunction()    if r == (-1):        return (-1)    return rdef bar():

r = foo()    if r == (-1):        print(“Error”)    else:        pass一旦出錯,還要一級一級上報,直到某個函數可以處理該錯誤(比如,給用戶輸出一個錯誤信息)

所以,高級語言通常都內置了一套try…except…finally…的錯誤處理機制,python也不例外。try

讓我們用一個例子來看看try的機制try:    print(“try….”)

r = 10 / 0    print(“result”, r)except ZeroDivisionError as e:    print(“except:”, e)finally:    print(“finally…”)print(“END….”)

當我們認為某些代碼可能會出錯時,就可以用try來運行這段代碼,如果執行出錯,則後續代碼不會繼續執行

而是直接跳轉至錯誤處理代碼,即except語句塊

執行完except後,如果有finally語句塊,則執行finally語句塊,至此,執行完畢。

上面的代碼在計算10 / 0時 會產生一個除法運算錯誤:try….except: division by zerofinally…

END….從輸出可以看到,當錯誤發生時,後續語句print(“result:”, r)不會被執行,except由於捕獲到ZeroDivisionError因此被執行。

最後,finally語句被執行。然後,程序繼續按照流程往下走。

如果把除數0 變成2,則執行結果如下try….

result 5.0finally…

END….由於沒有錯誤發生,所以except語句塊不會被執行,但是finally如果有則一定會被執行,當然finally也可以沒有

你還可以猜測,錯誤應該有很多種類,日過發生了不同類型的錯誤,應該由不同的except語句塊處理。

沒錯,可以有多個except來捕獲不同類型的錯誤:try:    print(“try…..”)

r = 10 / int(“a”)    print(“result:”, r)except ValueError as e:    print(“ValueError:”, e)except ZeroDivisionError as e:    print(“ZeroDivisionError:”, e)finally:    print(“finally…”)print(“END…”)

int()函數可能會拋出ValueError,所以我們用一個except捕獲ValueError,用另一個except捕獲ZeroDivisionError

此外,如果沒有錯誤發生,可以再except語句塊後面加一個else,當沒有錯誤發生時,會自動執行else語句。try:    print(“try…”)

r = 10 / int(“2”)    print(“result:”, r)except ValueError as e:    print(“ValueError:”, e)except ZeroDivisionError as e:    print(“ZeroDivisionError:”, e)else:    print(“No error!”)finally:    print(“finally…”)print(“END”)

python的錯誤其實也是class,所有的錯誤類型都繼承自BaseException,

所以在使用except時需要注意的是,它不但捕獲該類型的錯誤,還把其子類也「一網打盡」。

比如:try:

foo()except ValueError as e:    print(“ValueError”)except UnicodeError as e:    print(“UnicodeError”)

第二個except永遠也捕獲不到UnicodeError, 因為UnicodeError是ValueError的子類

如果有,也是被第一個except給捕獲了。

python所有的錯誤都是BaseException類派生的。

所有常見的錯誤類型和繼承關係看這裡:

使用try…exccept捕獲錯誤還有一個巨大的好處,就是可以跨越多層調用,比如函數main()調用foo()

foo()調用bar(),結果bar()出錯了,這時,只要main()捕獲到了,就可以處理:def foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():    try:

bar(“0”)    except Exception as e:        print(“Error:”, e)    finally:        print(“finally…”)

也就是說,不需要在每個可能出錯的地方去捕獲異常,只要在合適的層次去捕獲就可以了。

這樣一來,就大大減少了寫 try…except…finally的麻煩。

二、調用堆棧

如果錯誤沒有被捕獲,他就會一直往上拋,最後被python解釋器捕獲,打印一個錯誤信息,然後程序退出。def foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():

bar(“0”)

main()

執行結果為:

Traceback (most recent call last):

File “C:/Python36/test.py”, line 10, in module

main()

File “C:/Python36/test.py”, line 8, in main

bar(“0”)

File “C:/Python36/test.py”, line 5, in bar    return foo(s) * 2

File “C:/Python36/test.py”, line 2, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

出錯並不可怕,可怕的時不知道哪裡出錯了。解讀錯誤信息時定位錯誤的關鍵。

我們從上往下可以看到整個錯誤的調用函數鏈。

錯誤第一行:

Traceback (most recent call last):

這告訴我們的是錯誤的跟蹤信息。

File “C:/Python36/test.py”, line 10, in module main()

說明調用main()出錯了,在代碼文件test.py中第10行,但是原因是第8行:

File”C:/Python36/test.py”, line8, in main

bar(“0”)

調用bar(“0”)出錯了,在代碼文件test.py中第8行,但原因是第5行:

File”C:/Python36/test.py”, line5, in barreturn foo(s) * 2調用return foo(s) * 2時出錯了,在test.py中第5行,但原因是第2行

File “C:/Python36/test.py”, line 2, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

這時我們找到了源頭,原來在第2行調用return 10 / int(s)出錯了,錯誤為ZeroDivisionError

三、記錄錯誤

如果不捕獲錯誤,自然可以讓python解釋器來打印出錯誤堆棧,但是程序也被結束了。

既然我們能捕獲錯誤,就可以把錯誤堆棧打印出來,然後分析錯誤原因,同時,讓程序繼續執行下去。

python內置的logging模塊可以非常容易地記錄錯誤信息:import loggingdef foo(s):    return 10 / int(s)def bar(s):    return foo(s) * 2def main():    try:

bar(“0”)    except Exception as e:

logging.exception(e)

main()print(“END”)

輸出結果為:

ERROR:root:division by zero

Traceback (most recent call last):

File “C:/Python36/test.py”, line 12, in main

bar(“0”)

File “C:/Python36/test.py”, line 8, in bar    return foo(s) * 2

File “C:/Python36/test.py”, line 5, in foo    return 10 / int(s)

ZeroDivisionError: division by zero

END

同樣是出錯,但程序打印完錯誤信息後會繼續執行,並正常退出。

通過配置,logging還可以把錯誤記錄到日誌文件里,方便事後排查。

四、拋出錯誤

因為錯誤是class,捕獲一個錯誤就是捕獲到該class的一個實例。

因此,錯誤並不是憑空產生的,而是有意創建並拋出的。

python的內置函數會拋出很多類型的錯誤,我們自己編寫的函數也可以拋出錯誤。

如果要拋出錯誤,首先根據需要,可以定義一個錯誤的class,選擇好繼承關係,然後用raise語句拋出一個錯誤的實例:class FooError(ValueError):    passdef foo(s):

n =  int(s)    if n == 0:        raise FooError(“invalid value: %s” % s)    return 10 / n

foo(“0”)

輸出結果:

Traceback (most recent call last):

File “C:/Python36/test.py”, line 10, in module

foo(“0”)

File “C:/Python36/test.py”, line 7, in foo    raise FooError(“invalid value: %s” % s)

FooError: invalid value: 0

只有在必要的時候才定義我們自己的錯誤類型。

如果可以選擇python已有的內置錯誤類型(比如ValueError, TypeError),盡量使用python內置的錯誤類型。

最後,我們來看另一種錯誤處理方式:def foo(s):

n = int(s)    if n == 0:        raise ValueError(“invalid value: %s” % s)    return 10 / ndef bar():    try:

foo(“0”)    except ValueError as e:        print(“ValieError”)        raisebar()

在bar()函數中,我們明明已經捕獲了錯誤,但是,打印一個ValueError之後

又通過raise語句拋出去了。這不是有病嗎

其實,這種錯誤處理方式不但沒病,而且相當常見。

捕獲錯誤目的只是記錄一下,便於或許追蹤。

但是,由於當前函數不知道應該怎麼處理該錯誤,所以,最恰當的方式是繼續往上拋,讓頂層調用者去處理。

好比一個員工處理不了一個問題時,就把問題一直往上拋,最終會拋給CEO去解決。

注意:raise語句如果不帶參數,就會把當前錯誤原樣拋出。

此外,在except中raise一個Error,還可以改寫錯誤類型try:    10 / 0except ZeroDivisionError:    raise ValueError(“do not input zero!”)

輸出結果:

Traceback (most recent call last):

File “C:/Python36/test.py”, line 4, in module    raise ValueError(“do not input zero!”)

ValueError: do not input zero!只要是合理的轉換邏輯就可以,但是,絕不應該把一個IOError轉成毫不相干的valueError.

總結:

python內置的 try…except…finally 用來處理錯誤十分方便。

出錯時,會分析錯誤信息並定位錯誤發生的代碼位置才是關鍵的。

程序也可以主動拋出錯誤,讓調用者來處理相應的錯誤。

但是應該在文檔中寫清楚可能會拋出哪些錯誤,以及錯誤產生的原因。

python處理圖片數據?

生成一張純色的圖片

先設置圖片的顏色,接着利用Image模塊的new方法新生成一張圖片,png格式的圖片需要設置成rgba,類似的還有rgb,L(灰度圖等),尺寸設定為640,480,這個可以根據自己的情況設定,顏色同樣如此。

批量生成圖片

上面生成了一張圖片,那要生成十張圖片呢,這種步驟一樣,只是顏色改變的,利用循環就可以解決。首先創建一個顏色列表,把要生成的圖片顏色放進去。接着循環獲取不同的顏色,保存的時候利用字符串拼接的方法改變圖片的名字。

本地生成的圖片

封裝成函數

前面的方法已經可以批量生成圖片了,為了通用性強一點,我們可以封裝成函數,把哪些可以改變的參數單獨抽離出來。尺寸也同樣,使用的時候,可以根據自己的需要定義顏色列表和尺寸。當然還有加一些提示用語和報錯兼容性,這裡就不講了。

本地生成的圖片

原創文章,作者:CNNFJ,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/331410.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
CNNFJ的頭像CNNFJ
上一篇 2025-01-16 15:46
下一篇 2025-01-16 15:46

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29

發表回復

登錄後才能評論