python數據提取記錄一（python 獲取數據）

本文目錄一覽：

1、如何提取Python數據
2、Python爬蟲常用的幾種數據提取方式
3、python怎麼提取一組數據中差值為10以內的數
4、python中如何提取一組數據中的第一列數據
5、如何用Python爬取數據？

如何提取Python數據

首先是準備工作，導入需要使用的庫，讀取並創建數據表取名為loandata。

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel(‘loan_data.xlsx’))

設置索引字段

在開始提取數據前，先將member_id列設置為索引字段。然後開始提取數據。

Loandata = loandata.set_index(‘member_id’)

按行提取信息

第一步是按行提取數據，例如提取某個用戶的信息。下面使用ix函數對member_id為1303503的用戶信息進行了提取。

loandata.ix[1303503]

按列提取信息

第二步是按列提取數據，例如提取用戶工作年限列的所有信息，下面是具體的代碼和提取結果，顯示了所有用戶的工作年齡信息。

loandata.ix[:,’emp_length’]

按行與列提取信息

第三步是按行和列提取信息，把前面兩部的查詢條件放在一起，查詢特定用戶的特定信息，下面是查詢member_id為1303503的用戶的emp_length信息。

loandata.ix[1303503,’emp_length’]

在前面的基礎上繼續增加條件，增加一行同時查詢兩個特定用戶的貸款金額信息。具體代碼和查詢結果如下。結果中分別列出了兩個用戶的代碼金額。

loandata.ix[[1303503,1298717],’loan_amnt’]

在前面的代碼後增加sum函數，對結果進行求和，同樣是查詢兩個特定用戶的貸款進行，下面的結果中直接給出了貸款金額的匯總值。

loandata.ix[[1303503,1298717],’loan_amnt’].sum()

除了增加行的查詢條件以外，還可以增加列的查詢條件，下面的代碼中查詢了一個特定用戶的貸款金額和年收入情況，結果中分別顯示了這兩個字段的結果。

loandata.ix[1303503,[‘loan_amnt’,’annual_inc’]]

多個列的查詢也可以進行求和計算，在前面的代碼後增加sum函數，對這個用戶的貸款金額和年收入兩個字段求和，並顯示出結果。

loandata.ix[1303503,[‘loan_amnt’,’annual_inc’]].sum()

Python爬蟲常用的幾種數據提取方式

數據解析方式

– 正則

– xpath

– bs4

數據解析的原理：

標籤的定位

提取標籤中存儲的文本數據或者標籤屬性中存儲的數據

python怎麼提取一組數據中差值為10以內的數

python提取一組數據中差值為10以內的數：潘森提取速度入賬數據，可以將數組讀取出來，然後一個一個的進行提取，按照數組的幾維來進行讀取。

a=[10, 8, 2, 45, 69, 38, 11, 15] #假設該列表為需要輸入的一組數，a.sort(reverse = True) #首先對這組數進行從大到小的排序。

print a #輸出排序結果。

min = a[0] #令min變量記錄該列表中最大的值。

for i in range( len(a) -1 ): #i用來控制列表下標, 元素個數-1為了防止下面的相減越界。

if a[i] – a[i+1] min: #當前一個數減後一個小於當前min里的值時, 更新最小值。

可移植性：

由於它的開源本質，Python已經被移植在許多平台上（經過改動使它能夠工作在不同平台上）。這些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/39。

、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基於linux開發的android平台。

一個用編譯性語言比如C或C++寫的程序可以從源文件（即C或C++語言）轉換到一個你的計算機使用的語言（二進制代碼，即0和1）。這個過程通過編譯器和不同的標記、選項完成。

python中如何提取一組數據中的第一列數據

概述

直接提取會報錯，把array數組轉換成list，即可提取，使用numpy轉換

步驟詳解

1、直接提取嘗試：

group=[[1,2],[2,3],[3,4]]

#提取第一列元素

print(group[:,1])

#Out:TypeError: list indices must be integers or slices, not tuple

2、使用numpy轉換：

import numpy as np

group=[[1,2],[2,3],[3,4]]

#numpy轉化

ar=np.array(group)

print(ar[:,1])

#Out:[2 3 4]

拓展內容

numpy詳解

Numpy對象是數組，稱為ndarray

維度(dimensions)稱作軸(axes),軸的個數叫做秩(rank)。註：有幾級中括號就有幾個維度

一、ndarray.attrs:

ndarray.ndim 秩

ndarray.shape 例如一個2排3列的矩陣，它的shape屬性是(2,3)

ndarray.size 數組元素的總個數

ndarray.dtype 元素類型，NumPy提供自己的數據類型

ndarray.itemsize 數組中每個元素的位元組大小

二、數組創建函數：

array

asarray將輸入轉換成ndarray

arange

ones

zeros

empty 只分配內存空間不填充任何值

eye 創建N*N單位矩陣(對角線為1)

三、數組和標量之間的運算

numpy數組的一個特點，不用編寫循環就可對數據執行批量運算，這通常稱作矢量化(vectorization)。

四、基本的索引和切片

numpy數組的索引是一個內容豐富的主題，因為選取數據子集或單個元素的方式有很多。這裡我僅詳細介紹常用的方法，對於高級功能的方式我列舉名稱，讀者可以等到要用的時候自行查閱資料。

如何用Python爬取數據？

方法/步驟

在做爬取數據之前，你需要下載安裝兩個東西，一個是urllib,另外一個是python-docx。

請點擊輸入圖片描述

然後在python的編輯器中輸入import選項，提供這兩個庫的服務

請點擊輸入圖片描述

urllib主要負責抓取網頁的數據，單純的抓取網頁數據其實很簡單，輸入如圖所示的命令，後面帶鏈接即可。

請點擊輸入圖片描述

抓取下來了，還不算，必須要進行讀取，否則無效。

請點擊輸入圖片描述

接下來就是抓碼了，不轉碼是完成不了保存的，將讀取的函數read轉碼。再隨便標記一個比如XA。

請點擊輸入圖片描述

最後再輸入三句，第一句的意思是新建一個空白的word文檔。

第二句的意思是在文檔中添加正文段落，將變量XA抓取下來的東西導進去。

第三句的意思是保存文檔docx，名字在括號裏面。

請點擊輸入圖片描述

這個爬下來的是源代碼，如果還需要篩選的話需要自己去添加各種正則表達式。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/298206.html

python數據提取記錄一（python 獲取數據）

本文目錄一覽：

如何提取Python數據

Python爬蟲常用的幾種數據提取方式

python怎麼提取一組數據中差值為10以內的數

python中如何提取一組數據中的第一列數據

如何用Python爬取數據？

相關推薦

發表回復