用python分析csv數據集,python csv數據分析

本文目錄一覽：

1、Python之csv模塊
2、可以讓你快速用Python進行數據分析的10個小技巧
3、python 讀取CSV 文件
4、python分析csv文件
5、開啟數據分析的大門-數據收集：Python對文件的操作
6、怎麼用python 解析csv很json文件

Python之csv模塊

csv文件具有格式簡單，快速存取，兼容性好等特點，工程、金融、商業等很多數據文件都是採用csv文件保存和處理。工作中數據處理也用到了csv，簡要總結下使用經驗，特別是那些由於本地兼容性導致的與官方文檔的差異使用。

csv（comma Seperated Values）文件的格式非常簡單，類似一個文本文檔，每一行保存一條數據，同一行中的各個數據通常採用逗號（或tab）分隔。

python自帶了csv模塊，專門用於處理csv文件的讀取和存檔。

csv模塊中，主要由兩種方式存取csv文件：函數方法；類方法。

csv.reader(csvfile，dialect =’excel’，** fmtparams)

返回一個reader對象，它將迭代給定csvfile中的行。

csvfile可以是任何支持迭代器協議的對象，並在每次next()調用其方法時返回一個字元串- 文件對象和列表對象都是合適的。如果csvfile是一個文件對象，那麼它必須在平台上以「b」標誌打開，這會產生影響。可以給出可選的 dialect 參數，該參數用於定義特定於CSV方言的一組參數。它可以是類的子類的實例，也可以是函數Dialect返回的字元串之一 list_dialects()。其他可選的fmtparams可以給出關鍵字參數來覆蓋當前方言中的各個格式參數。

csv.writer(csvfile，dialect =’excel’，** fmtparams)

返回一個編寫器對象，負責將用戶的數據轉換為給定的類文件對象上的分隔字元串。

csvfile可以是帶有write()方法的任何對象。如果csvfile是一個文件對象，那麼它必須在平台上以「b」標誌打開，這會產生影響。可以給出可選的dialect參數，該參數用於定義特定於CSV方言的一組參數。它可以是類的子類的實例，也可以是函數Dialect返回的字元串之一 list_dialects()。可以給出其他可選的fmtparams關鍵字參數來覆蓋當前dialect中的各個格式參數。

class csv.DictReader(f，fieldnames = None，restkey = None，restval = None，dialect =’excel’，* args，** kwds)

創建一個像常規閱讀器一樣操作的對象，但將讀取的信息映射到一個dict，其鍵由可選的 fieldnames 參數給出。欄位名的參數是一個序列，其元素與輸入數據的順序中的欄位相關聯。這些元素成為結果字典的關鍵。如果省略 fieldnames 參數，則文件 f 的第一行中的值將用作欄位名。如果讀取的行包含的欄位多於欄位名序列，則將剩餘數據添加為由restkey 值鍵入的序列。如果讀取的行的欄位數少於欄位名序列，則其餘的鍵將採用可選的 restval 參數的值。任何其他可選或關鍵字參數都將傳遞給基礎 reader 實例。

class csv.DictWriter(f，fieldnames，restval =”，extrasaction =’raise’，dialect =’excel’，* args，** kwds)

創建一個像常規編寫器一樣操作的對象，但將字典映射到輸出行。的欄位名的參數是一個序列識別在哪些值在傳遞給字典中的順序按鍵的writerow()方法被寫入到文件˚F。如果字典缺少欄位名中的鍵，則可選的restval參數指定要寫入的值。如果傳遞給方法的字典包含在欄位名中找不到的鍵，則可選的extrasaction參數指示要採取的操作。如果設置為a 則被提升。如果設置為writerow()’raise’ValueError’ignore’，字典中的額外值將被忽略。任何其他可選或關鍵字參數都將傳遞給基礎 writer實例。

請注意，與DictReader類不同，它的fieldnames參數DictWriter不是可選的。由於Python的dict 對象沒有排序，因此沒有足夠的信息來推斷應該將行寫入文件f的順序。

可以讓你快速用Python進行數據分析的10個小技巧

一些小提示和小技巧可能是非常有用的，特別是在編程領域。有時候使用一點點黑客技術，既可以節省時間，還可能挽救「生命」。

一個小小的快捷方式或附加組件有時真是天賜之物，並且可以成為真正的生產力助推器。所以，這裡有一些小提示和小技巧，有些可能是新的，但我相信在下一個數據分析項目中會讓你非常方便。

Pandas中數據框數據的Profiling過程

Profiling（分析器）是一個幫助我們理解數據的過程，而Pandas Profiling是一個Python包，它可以簡單快速地對Pandas 的數據框數據進行探索性數據分析。

Pandas中df.describe()和df.info()函數可以實現EDA過程第一步。但是，它們只提供了對數據非常基本的概述，對於大型數據集沒有太大幫助。而Pandas中的Profiling功能簡單通過一行代碼就能顯示大量信息，且在互動式HTML報告中也是如此。

對於給定的數據集，Pandas中的profiling包計算了以下統計信息：

由Pandas Profiling包計算出的統計信息包括直方圖、眾數、相關係數、分位數、描述統計量、其他信息——類型、單一變數值、缺失值等。

安裝

用pip安裝或者用conda安裝

pip install pandas-profiling

conda install -c anaconda pandas-profiling

用法

下面代碼是用很久以前的泰坦尼克數據集來演示多功能Python分析器的結果。

#importing the necessary packages

import pandas as pd

import pandas_profiling

df = pd.read_csv(‘titanic/train.csv’)

pandas_profiling.ProfileReport(df)

一行代碼就能實現在Jupyter Notebook中顯示完整的數據分析報告，該報告非常詳細，且包含了必要的圖表信息。

還可以使用以下代碼將報告導出到互動式HTML文件中。

profile = pandas_profiling.ProfileReport(df)

profile.to_file(outputfile=”Titanic data profiling.html”)

Pandas實現互動式作圖

Pandas有一個內置的.plot（）函數作為DataFrame類的一部分。但是，使用此功能呈現的可視化不是互動式的，這使得它沒那麼吸引人。同樣，使用pandas.DataFrame.plot（）函數繪製圖表也不能實現交互。如果我們需要在不對代碼進行重大修改的情況下用Pandas繪製互動式圖表怎麼辦呢？這個時候就可以用Cufflinks庫來實現。

Cufflinks庫可以將有強大功能的plotly和擁有靈活性的pandas結合在一起，非常便於繪圖。下面就來看在pandas中如何安裝和使用Cufflinks庫。

安裝

pip install plotly

# Plotly is a pre-requisite before installing cufflinks

pip install cufflinks

用法

#importing Pandas

import pandas as pd

#importing plotly and cufflinks in offline mode

import cufflinks as cf

import plotly.offline

cf.go_offline()

cf.set_config_file(offline=False, world_readable=True)

是時候展示泰坦尼克號數據集的魔力了。

df.iplot()

df.iplot() vs df.plot()

右側的可視化顯示了靜態圖表，而左側圖表是互動式的，更詳細，並且所有這些在語法上都沒有任何重大更改。

Magic命令

Magic命令是Jupyter notebook中的一組便捷功能，旨在解決標準數據分析中的一些常見問題。使用命令％lsmagic可以看到所有的可用命令。

所有可用的Magic命令列表

Magic命令有兩種：行magic命令（line magics），以單個％字元為前綴，在單行輸入操作；單元magic命令（cell magics），以雙%%字元為前綴，可以在多行輸入操作。如果設置為1，則不用鍵入%即可調用Magic函數。

接下來看一些在常見數據分析任務中可能用到的命令：

% pastebin

％pastebin將代碼上傳到Pastebin並返回url。Pastebin是一個在線內容託管服務，可以存儲純文本，如源代碼片段，然後通過url可以與其他人共享。事實上，Github gist也類似於pastebin，只是有版本控制。

在file.py文件中寫一個包含以下內容的python腳本，並試著運行看看結果。

#file.py

def foo(x):

return x

在Jupyter Notebook中使用％pastebin生成一個pastebin url。

%matplotlib notebook

函數用於在Jupyter notebook中呈現靜態matplotlib圖。用notebook替換inline，可以輕鬆獲得可縮放和可調整大小的繪圖。但記得這個函數要在導入matplotlib庫之前調用。

%run

用％run函數在notebook中運行一個python腳本試試。

%run file.py

%%writefile

%% writefile是將單元格內容寫入文件中。以下代碼將腳本寫入名為foo.py的文件並保存在當前目錄中。

%%latex

%%latex函數將單元格內容以LaTeX形式呈現。此函數對於在單元格中編寫數學公式和方程很有用。

查找並解決錯誤

互動式調試器也是一個神奇的功能，我把它單獨定義了一類。如果在運行代碼單元時出現異常，請在新行中鍵入％debug並運行它。這將打開一個互動式調試環境，它能直接定位到發生異常的位置。還可以檢查程序中分配的變數值，並在此處執行操作。退出調試器單擊q即可。

Printing也有小技巧

如果您想生成美觀的數據結構，pprint是首選。它在列印字典數據或JSON數據時特別有用。接下來看一個使用print和pprint來顯示輸出的示例。

讓你的筆記脫穎而出

我們可以在您的Jupyter notebook中使用警示框/注釋框來突出顯示重要內容或其他需要突出的內容。注釋的顏色取決於指定的警報類型。只需在需要突出顯示的單元格中添加以下任一代碼或所有代碼即可。

藍色警示框：信息提示

p class=”alert alert-block alert-info”

bTip:/b Use blue boxes (alert-info) for tips and notes.

If it』s a note, you don』t have to include the word 「Note」.

黃色警示框：警告

p class=”alert alert-block alert-warning”

bExample:/b Yellow Boxes are generally used to include additional examples or mathematical formulas.

綠色警示框：成功

p class=”alert alert-block alert-success”

Use green box only when necessary like to display links to related content.

紅色警示框：高危

p class=”alert alert-block alert-danger”

It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.

列印單元格所有代碼的輸出結果

假如有一個Jupyter Notebook的單元格，其中包含以下代碼行：

In [1]: 10+5

11+6

Out [1]: 17

單元格的正常屬性是只列印最後一個輸出，而對於其他輸出，我們需要添加print()函數。然而通過在notebook頂部添加以下代碼段可以一次列印所有輸出。

添加代碼後所有的輸出結果就會一個接一個地列印出來。

In [1]: 10+5

11+6

12+7

Out [1]: 15

Out [1]: 17

Out [1]: 19

恢復原始設置：

InteractiveShell.ast_node_interactivity = “last_expr”

使用’i’選項運行python腳本

從命令行運行python腳本的典型方法是：python hello.py。但是，如果在運行相同的腳本時添加-i，例如python -i hello.py，就能提供更多優勢。接下來看看結果如何。

首先，即使程序結束，python也不會退出解釋器。因此，我們可以檢查變數的值和程序中定義的函數的正確性。

其次，我們可以輕鬆地調用python調試器，因為我們仍然在解釋器中：

import pdb

pdb.pm()

這能定位異常發生的位置，然後我們可以處理異常代碼。

自動評論代碼

Ctrl / Cmd + /自動注釋單元格中的選定行，再次命中組合將取消注釋相同的代碼行。

刪除容易恢復難

你有沒有意外刪除過Jupyter notebook中的單元格？如果答案是肯定的，那麼可以掌握這個撤消刪除操作的快捷方式。

如果您刪除了單元格的內容，可以通過按CTRL / CMD + Z輕鬆恢復它。

如果需要恢復整個已刪除的單元格，請按ESC + Z或EDIT撤消刪除單元格。

結論

在本文中，我列出了使用Python和Jupyter notebook時收集的一些小提示。我相信它們會對你有用，能讓你有所收穫，從而實現輕鬆編碼！

python 讀取CSV 文件

讀取一個CSV 文件

最全的

一個簡化版本

filepath_or_buffer : str，pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a file handle or StringIO)

可以是URL，可用URL類型包括：http, ftp, s3和文件。對於多文件正在準備中

本地文件讀取實例：://localhost/path/to/table.csv

**sep **: str, default 『,』

指定分隔符。如果不指定參數，則會嘗試使用逗號分隔。分隔符長於一個字元並且不是『\s+』,將使用python的語法分析器。並且忽略數據中的逗號。正則表達式例子：’\r\t’

**delimiter **: str, default None

定界符，備選分隔符（如果指定該參數，則sep參數失效）

delim_whitespace : boolean, default False.

指定空格(例如』『或者』『)是否作為分隔符使用，等效於設定sep=’\s+’。如果這個參數設定為Ture那麼delimiter 參數失效。

在新版本0.18.1支持

header : int or list of ints, default 『infer』

指定行數用來作為列名，數據開始行數。如果文件中沒有列名，則默認為0，否則設置為None。如果明確設定header=0 就會替換掉原來存在列名。header參數可以是一個list例如：[0,1,3]，這個list表示將文件中的這些行作為列標題（意味著每一列有多個標題），介於中間的行將被忽略掉。

注意：如果skip_blank_lines=True 那麼header參數忽略注釋行和空行，所以header=0表示第一行數據而不是文件的第一行。

**names **: array-like, default None

用於結果的列名列表，如果數據文件中沒有列標題行，就需要執行header=None。默認列表中不能出現重複，除非設定參數mangle_dupe_cols=True。

index_col : int or sequence or False, default None

用作行索引的列編號或者列名，如果給定一個序列則有多個行索引。

如果文件不規則，行尾有分隔符，則可以設定index_col=False 來是的pandas不適用第一列作為行索引。

usecols : array-like, default None

返回一個數據子集，該列表中的值必須可以對應到文件中的位置（數字可以對應到指定的列）或者是字元傳為文件中的列名。例如：usecols有效參數可能是 [0,1,2]或者是 [『foo』, 『bar』, 『baz』]。使用這個參數可以加快載入速度並降低內存消耗。

as_recarray : boolean, default False

不贊成使用：該參數會在未來版本移除。請使用pd.read_csv(…).to_records()替代。

返回一個Numpy的recarray來替代DataFrame。如果該參數設定為True。將會優先squeeze參數使用。並且行索引將不再可用，索引列也將被忽略。

**squeeze **: boolean, default False

如果文件值包含一列，則返回一個Series

**prefix **: str, default None

在沒有列標題時，給列添加前綴。例如：添加『X』成為 X0, X1, …

**mangle_dupe_cols **: boolean, default True

重複的列，將『X』…』X』表示為『X.0』…』X.N』。如果設定為false則會將所有重名列覆蓋。

dtype : Type name or dict of column – type, default None

每列數據的數據類型。例如 {『a』: np.float64, 『b』: np.int32}

**engine **: {『c』, 『python』}, optional

Parser engine to use. The C engine is faster while the python engine is currently more feature-complete.

使用的分析引擎。可以選擇C或者是python。C引擎快但是Python引擎功能更加完備。

converters : dict, default None

列轉換函數的字典。key可以是列名或者列的序號。

true_values : list, default None

Values to consider as True

false_values : list, default None

Values to consider as False

**skipinitialspace **: boolean, default False

忽略分隔符後的空白（默認為False，即不忽略）.

skiprows : list-like or integer, default None

需要忽略的行數（從文件開始處算起），或需要跳過的行號列表（從0開始）。

skipfooter : int, default 0

從文件尾部開始忽略。 (c引擎不支持)

skip_footer : int, default 0

不推薦使用：建議使用skipfooter ，功能一樣。

nrows : int, default None

需要讀取的行數（從文件頭開始算起）。

na_values : scalar, str, list-like, or dict, default None

一組用於替換NA/NaN的值。如果傳參，需要制定特定列的空值。默認為『1.#IND』, 『1.#QNAN』, 『N/A』, 『NA』, 『NULL』, 『NaN』, 『nan』`.

**keep_default_na **: bool, default True

如果指定na_values參數，並且keep_default_na=False，那麼默認的NaN將被覆蓋，否則添加。

**na_filter **: boolean, default True

是否檢查丟失值（空字元串或者是空值）。對於大文件來說數據集中沒有空值，設定na_filter=False可以提升讀取速度。

verbose : boolean, default False

是否列印各種解析器的輸出信息，例如：「非數值列中缺失值的數量」等。

skip_blank_lines : boolean, default True

如果為True，則跳過空行；否則記為NaN。

**parse_dates **: boolean or list of ints or names or list of lists or dict, default False

infer_datetime_format : boolean, default False

如果設定為True並且parse_dates 可用，那麼pandas將嘗試轉換為日期類型，如果可以轉換，轉換方法並解析。在某些情況下會快5~10倍。

**keep_date_col **: boolean, default False

如果連接多列解析日期，則保持參與連接的列。默認為False。

date_parser : function, default None

用於解析日期的函數，默認使用dateutil.parser.parser來做轉換。Pandas嘗試使用三種不同的方式解析，如果遇到問題則使用下一種方式。

1.使用一個或者多個arrays（由parse_dates指定）作為參數；

2.連接指定多列字元串作為一個列作為參數；

3.每行調用一次date_parser函數來解析一個或者多個字元串（由parse_dates指定）作為參數。

**dayfirst **: boolean, default False

DD/MM格式的日期類型

**iterator **: boolean, default False

返回一個TextFileReader 對象，以便逐塊處理文件。

chunksize : int, default None

文件塊的大小， See IO Tools docs for more information on iterator and chunksize.

compression : {『infer』, 『gzip』, 『bz2』, 『zip』, 『xz』, None}, default 『infer』

直接使用磁碟上的壓縮文件。如果使用infer參數，則使用 gzip, bz2, zip或者解壓文件名中以『.gz』, 『.bz2』, 『.zip』, or 『xz』這些為後綴的文件，否則不解壓。如果使用zip，那麼ZIP包中國必須只包含一個文件。設置為None則不解壓。

新版本0.18.1版本支持zip和xz解壓

thousands : str, default None

千分位分割符，如「，」或者「.”

decimal : str, default 『.』

字元中的小數點 (例如：歐洲數據使用』，『).

float_precision : string, default None

Specifies which converter the C engine should use for floating-point values. The options are None for the ordinary converter, high for the high-precision converter, and round_trip for the round-trip converter.

指定

**lineterminator **: str (length 1), default None

行分割符，只在C解析器下使用。

**quotechar **: str (length 1), optional

引號，用作標識開始和解釋的字元，引號內的分割符將被忽略。

quoting : int or csv.QUOTE_* instance, default 0

控制csv中的引號常量。可選 QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3)

doublequote : boolean, default True

雙引號，當單引號已經被定義，並且quoting 參數不是QUOTE_NONE的時候，使用雙引號表示引號內的元素作為一個元素使用。

escapechar : str (length 1), default None

當quoting 為QUOTE_NONE時，指定一個字元使的不受分隔符限值。

comment : str, default None

標識著多餘的行不被解析。如果該字元出現在行首，這一行將被全部忽略。這個參數只能是一個字元，空行（就像skip_blank_lines=True）注釋行被header和skiprows忽略一樣。例如如果指定comment=’#’ 解析『#empty\na,b,c\n1,2,3』以header=0 那麼返回結果將是以』a,b,c’作為header。

encoding : str, default None

指定字符集類型，通常指定為’utf-8′. List of Python standard encodings

dialect : str or csv.Dialect instance, default None

如果沒有指定特定的語言，如果sep大於一個字元則忽略。具體查看csv.Dialect 文檔

tupleize_cols : boolean, default False

Leave a list of tuples on columns as is (default is to convert to a Multi Index on the columns)

error_bad_lines : boolean, default True

如果一行包含太多的列，那麼默認不會返回DataFrame ，如果設置成false，那麼會將改行剔除（只能在C解析器下使用）。

warn_bad_lines : boolean, default True

如果error_bad_lines =False，並且warn_bad_lines =True 那麼所有的「bad lines」將會被輸出（只能在C解析器下使用）。

**low_memory **: boolean, default True

分塊載入到內存，再低內存消耗中解析。但是可能出現類型混淆。確保類型不被混淆需要設置為False。或者使用dtype 參數指定類型。注意使用chunksize 或者iterator 參數分塊讀入會將整個文件讀入到一個Dataframe，而忽略類型（只能在C解析器中有效）

**buffer_lines **: int, default None

不推薦使用，這個參數將會在未來版本移除，因為他的值在解析器中不推薦使用

compact_ints : boolean, default False

不推薦使用，這個參數將會在未來版本移除

如果設置compact_ints=True ，那麼任何有整數類型構成的列將被按照最小的整數類型存儲，是否有符號將取決於use_unsigned 參數

use_unsigned : boolean, default False

不推薦使用：這個參數將會在未來版本移除

如果整數列被壓縮(i.e. compact_ints=True)，指定被壓縮的列是有符號還是無符號的。

memory_map : boolean, default False

如果使用的文件在內存內，那麼直接map文件使用。使用這種方式可以避免文件再次進行IO操作。

ref：

python分析csv文件

import csv

suburbs_average = {}

suburbs_count = {}

group_suburb = {}

csvfile = open(“ps1_3_data.csv”)

csv_reader = csv.reader(csvfile, delimiter=’,’)

for row in csv_reader:

suburbs=row[0]

travel_time=row[1]

if suburbs in group_suburb.keys():

suburbs_count[suburbs] += 1

group_suburb[suburbs] += int(travel_time)

else:

suburbs_count[suburbs] = 1

group_suburb[suburbs] = int(travel_time)

for key in group_suburb.keys():

suburbs_average[key]=group_suburb[key]/suburbs_count[key]

print (suburbs_average)

開啟數據分析的大門-數據收集：Python對文件的操作

簡介

我是一名應屆經濟學畢業生，在學習Python語言的過程中，接觸到了數據分析，機器學習和人工智慧，並對此特別感興趣，現在我把整個學習過程記錄下來，希望和我有相同興趣和愛好的朋友們一同成長，期盼著各位專家的指導。

環境介紹

在整個過程當中，將採用Python和Excel，採用Python,是因為Python提供了豐富的開發框架和工具庫，使用Excel是因為Excel是使用非常廣泛的辦公軟體，我在Excel里將複雜的演算法簡單化，使大家快速理解各種難以理解的演算法。

在開始之前，我們已經準備好了Anaconda和Excel環境。在這裡省略了這個過程。

數據獲取將通過tushare開放平台，後面我會介紹和演示如何應用tushare平台。

數據分析流程簡介

數據分析是由數據收集開始，收集的數據經過標準化處理和整理後，通過各種演算法，進行數據分析，目的是為了總結過去的歷史數據，在數據趨勢上預測未來的走勢，同時對現存的環境進行優化。

我們今天先從數據收集開始。

數據收集需要應用到Python對文件的讀寫操作。

下面這段代碼以只讀方式採用』UTF-8』編碼方式打開當前目錄下的text1.txt文件，並輸出到屏幕上。操作完畢後，關閉文件。

小貼士：在從tushare平台獲取數據時，每個用戶會分配到一個key，我們可以把這個key封裝到這個文件里。為的是數據安全和便利性。

Python對數據的處理主要是csv文件格式，Excel和資料庫。今天我們主要針對csv文件進行操作。為的是儘快開始我們的數據分析之旅。後面在適當的時候，我來完成對Excel和資料庫的操作。

Python 讀取csv文件有很多種方法，我們這裡採用PANDAS庫，下面是讀取csv文件代碼：

下面這段代碼先生成數據列表，然後寫入csv文件。

好了，到現在為止，Python對數據收集的基礎工作就算完成了，Python對文件操作有很多技巧，不是我們這一系列的重點，就不一一介紹了，有興趣的夥伴可以查閱相關文檔。

怎麼用python 解析csv很json文件

import csv

reader = csv.reader(file(‘your.csv’, ‘rb’))

for line in reader:

print line

你可能裝 python 3.x版本，如果是3.x版本，print的語法變了，可以試一試

import csv

reader = csv.reader(file(‘your.csv’, ‘rb’))

for line in reader:

print (line)

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/152599.html

用python分析csv數據集,python csv數據分析

本文目錄一覽：

Python之csv模塊

可以讓你快速用Python進行數據分析的10個小技巧

python 讀取CSV 文件

python分析csv文件

開啟數據分析的大門-數據收集：Python對文件的操作

怎麼用python 解析csv很json文件

相關推薦

發表回復