本文目錄一覽:
- 1、如何提取Python數據
- 2、Python爬蟲常用的幾種數據提取方式
- 3、python怎麼提取一組數據中差值為10以內的數
- 4、python中如何提取一組數據中的第一列數據
- 5、如何用Python爬取數據?
如何提取Python數據
首先是準備工作,導入需要使用的庫,讀取並創建數據表取名為loandata。
?
1
2
3
import numpy as np
import pandas as pd
loandata=pd.DataFrame(pd.read_excel(‘loan_data.xlsx’))
設置索引字段
在開始提取數據前,先將member_id列設置為索引字段。然後開始提取數據。
?
1
Loandata = loandata.set_index(‘member_id’)
按行提取信息
第一步是按行提取數據,例如提取某個用戶的信息。下面使用ix函數對member_id為1303503的用戶信息進行了提取。
?
1
loandata.ix[1303503]
按列提取信息
第二步是按列提取數據,例如提取用戶工作年限列的所有信息,下面是具體的代碼和提取結果,顯示了所有用戶的工作年齡信息。
?
1
loandata.ix[:,’emp_length’]
按行與列提取信息
第三步是按行和列提取信息,把前面兩部的查詢條件放在一起,查詢特定用戶的特定信息,下面是查詢member_id為1303503的用戶的emp_length信息。
?
1
loandata.ix[1303503,’emp_length’]
在前面的基礎上繼續增加條件,增加一行同時查詢兩個特定用戶的貸款金額信息。具體代碼和查詢結果如下。結果中分別列出了兩個用戶的代碼金額。
?
1
loandata.ix[[1303503,1298717],’loan_amnt’]
在前面的代碼後增加sum函數,對結果進行求和,同樣是查詢兩個特定用戶的貸款進行,下面的結果中直接給出了貸款金額的匯總值。
?
1
loandata.ix[[1303503,1298717],’loan_amnt’].sum()
除了增加行的查詢條件以外,還可以增加列的查詢條件,下面的代碼中查詢了一個特定用戶的貸款金額和年收入情況,結果中分別顯示了這兩個字段的結果。
?
1
loandata.ix[1303503,[‘loan_amnt’,’annual_inc’]]
多個列的查詢也可以進行求和計算,在前面的代碼後增加sum函數,對這個用戶的貸款金額和年收入兩個字段求和,並顯示出結果。
?
1
loandata.ix[1303503,[‘loan_amnt’,’annual_inc’]].sum()
Python爬蟲常用的幾種數據提取方式
數據解析方式
– 正則
– xpath
– bs4
數據解析的原理:
標籤的定位
提取標籤中存儲的文本數據或者標籤屬性中存儲的數據
python怎麼提取一組數據中差值為10以內的數
python提取一組數據中差值為10以內的數:潘森提取速度入賬數據,可以將數組讀取出來,然後一個一個的進行提取,按照數組的幾維來進行讀取。
a=[10, 8, 2, 45, 69, 38, 11, 15] #假設該列表為需要輸入的一組數,a.sort(reverse = True) #首先對這組數進行從大到小的排序。
print a #輸出排序結果。
min = a[0] #令min變量記錄該列表中最大的值。
for i in range( len(a) -1 ): #i用來控制列表下標, 元素個數-1為了防止下面的相減越界。
if a[i] – a[i+1] min: #當前一個數減後一個小於當前min里的值時, 更新最小值。
可移植性:
由於它的開源本質,Python已經被移植在許多平台上(經過改動使它能夠工作在不同平台上)。這些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/39。
、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基於linux開發的android平台。
一個用編譯性語言比如C或C++寫的程序可以從源文件(即C或C++語言)轉換到一個你的計算機使用的語言(二進制代碼,即0和1)。這個過程通過編譯器和不同的標記、選項完成。
python中如何提取一組數據中的第一列數據
概述
直接提取會報錯,把array數組轉換成list,即可提取,使用numpy轉換
步驟詳解
1、直接提取嘗試:
group=[[1,2],[2,3],[3,4]]
#提取第一列元素
print(group[:,1])
#Out:TypeError: list indices must be integers or slices, not tuple
2、使用numpy轉換:
import numpy as np
group=[[1,2],[2,3],[3,4]]
#numpy轉化
ar=np.array(group)
print(ar[:,1])
#Out:[2 3 4]
拓展內容
numpy詳解
Numpy對象是數組,稱為ndarray
維度(dimensions)稱作軸(axes),軸的個數叫做秩(rank)。註:有幾級中括號就有幾個維度
一、ndarray.attrs:
ndarray.ndim 秩
ndarray.shape 例如一個2排3列的矩陣,它的shape屬性是(2,3)
ndarray.size 數組元素的總個數
ndarray.dtype 元素類型,NumPy提供自己的數據類型
ndarray.itemsize 數組中每個元素的位元組大小
二、數組創建函數:
array
asarray將輸入轉換成ndarray
arange
ones
zeros
empty 只分配內存空間不填充任何值
eye 創建N*N單位矩陣(對角線為1)
三、數組和標量之間的運算
numpy數組的一個特點,不用編寫循環就可對數據執行批量運算,這通常稱作矢量化(vectorization)。
四、基本的索引和切片
numpy數組的索引是一個內容豐富的主題,因為選取數據子集或單個元素的方式有很多。這裡我僅詳細介紹常用的方法,對於高級功能的方式我列舉名稱,讀者可以等到要用的時候自行查閱資料。
如何用Python爬取數據?
方法/步驟
在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx。
請點擊輸入圖片描述
然後在python的編輯器中輸入import選項,提供這兩個庫的服務
請點擊輸入圖片描述
urllib主要負責抓取網頁的數據,單純的抓取網頁數據其實很簡單,輸入如圖所示的命令,後面帶鏈接即可。
請點擊輸入圖片描述
抓取下來了,還不算,必須要進行讀取,否則無效。
請點擊輸入圖片描述
5
接下來就是抓碼了,不轉碼是完成不了保存的,將讀取的函數read轉碼。再隨便標記一個比如XA。
請點擊輸入圖片描述
6
最後再輸入三句,第一句的意思是新建一個空白的word文檔。
第二句的意思是在文檔中添加正文段落,將變量XA抓取下來的東西導進去。
第三句的意思是保存文檔docx,名字在括號裏面。
請點擊輸入圖片描述
7
這個爬下來的是源代碼,如果還需要篩選的話需要自己去添加各種正則表達式。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/298206.html