python數據提取記錄一(python 獲取數據)

本文目錄一覽:

如何提取Python數據

首先是準備工作,導入需要使用的庫,讀取並創建數據表取名為loandata。

?

1

2

3

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel(‘loan_data.xlsx’))

設置索引字段

在開始提取數據前,先將member_id列設置為索引字段。然後開始提取數據。

?

1

Loandata = loandata.set_index(‘member_id’)

按行提取信息

第一步是按行提取數據,例如提取某個用戶的信息。下面使用ix函數對member_id為1303503的用戶信息進行了提取。

?

1

loandata.ix[1303503]

按列提取信息

第二步是按列提取數據,例如提取用戶工作年限列的所有信息,下面是具體的代碼和提取結果,顯示了所有用戶的工作年齡信息。

?

1

loandata.ix[:,’emp_length’]

按行與列提取信息

第三步是按行和列提取信息,把前面兩部的查詢條件放在一起,查詢特定用戶的特定信息,下面是查詢member_id為1303503的用戶的emp_length信息。

?

1

loandata.ix[1303503,’emp_length’]

在前面的基礎上繼續增加條件,增加一行同時查詢兩個特定用戶的貸款金額信息。具體代碼和查詢結果如下。結果中分別列出了兩個用戶的代碼金額。

?

1

loandata.ix[[1303503,1298717],’loan_amnt’]

在前面的代碼後增加sum函數,對結果進行求和,同樣是查詢兩個特定用戶的貸款進行,下面的結果中直接給出了貸款金額的匯總值。

?

1

loandata.ix[[1303503,1298717],’loan_amnt’].sum()

除了增加行的查詢條件以外,還可以增加列的查詢條件,下面的代碼中查詢了一個特定用戶的貸款金額和年收入情況,結果中分別顯示了這兩個字段的結果。

?

1

loandata.ix[1303503,[‘loan_amnt’,’annual_inc’]]

多個列的查詢也可以進行求和計算,在前面的代碼後增加sum函數,對這個用戶的貸款金額和年收入兩個字段求和,並顯示出結果。

?

1

loandata.ix[1303503,[‘loan_amnt’,’annual_inc’]].sum()

Python爬蟲常用的幾種數據提取方式

數據解析方式

– 正則

– xpath

– bs4

數據解析的原理:

標籤的定位

提取標籤中存儲的文本數據或者標籤屬性中存儲的數據

python怎麼提取一組數據中差值為10以內的數

python提取一組數據中差值為10以內的數:潘森提取速度入賬數據,可以將數組讀取出來,然後一個一個的進行提取,按照數組的幾維來進行讀取。

a=[10, 8, 2, 45, 69, 38, 11, 15] #假設該列表為需要輸入的一組數,a.sort(reverse = True) #首先對這組數進行從大到小的排序。

print a #輸出排序結果。

min = a[0] #令min變量記錄該列表中最大的值。

for i in range( len(a) -1 ): #i用來控制列表下標, 元素個數-1為了防止下面的相減越界。

if a[i] – a[i+1] min: #當前一個數減後一個小於當前min里的值時, 更新最小值。

可移植性:

由於它的開源本質,Python已經被移植在許多平台上(經過改動使它能夠工作在不同平台上)。這些平台包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/39。

、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基於linux開發的android平台。

一個用編譯性語言比如C或C++寫的程序可以從源文件(即C或C++語言)轉換到一個你的計算機使用的語言(二進制代碼,即0和1)。這個過程通過編譯器和不同的標記、選項完成。

python中如何提取一組數據中的第一列數據

概述

直接提取會報錯,把array數組轉換成list,即可提取,使用numpy轉換

步驟詳解

1、直接提取嘗試:

group=[[1,2],[2,3],[3,4]]

#提取第一列元素

print(group[:,1])

#Out:TypeError: list indices must be integers or slices, not tuple

2、使用numpy轉換:

import numpy as np

group=[[1,2],[2,3],[3,4]]

#numpy轉化

ar=np.array(group)

print(ar[:,1])

#Out:[2 3 4]

拓展內容

numpy詳解

Numpy對象是數組,稱為ndarray 

維度(dimensions)稱作軸(axes),軸的個數叫做秩(rank)。註:有幾級中括號就有幾個維度

一、ndarray.attrs:

ndarray.ndim 秩

ndarray.shape 例如一個2排3列的矩陣,它的shape屬性是(2,3)

ndarray.size 數組元素的總個數

ndarray.dtype 元素類型,NumPy提供自己的數據類型

ndarray.itemsize 數組中每個元素的位元組大小

二、數組創建函數:

array

asarray將輸入轉換成ndarray

arange

ones

zeros

empty 只分配內存空間不填充任何值

eye 創建N*N單位矩陣(對角線為1)

三、數組和標量之間的運算

numpy數組的一個特點,不用編寫循環就可對數據執行批量運算,這通常稱作矢量化(vectorization)。

四、基本的索引和切片

numpy數組的索引是一個內容豐富的主題,因為選取數據子集或單個元素的方式有很多。這裡我僅詳細介紹常用的方法,對於高級功能的方式我列舉名稱,讀者可以等到要用的時候自行查閱資料。

如何用Python爬取數據?

方法/步驟

在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx。

請點擊輸入圖片描述

然後在python的編輯器中輸入import選項,提供這兩個庫的服務

請點擊輸入圖片描述

urllib主要負責抓取網頁的數據,單純的抓取網頁數據其實很簡單,輸入如圖所示的命令,後面帶鏈接即可。

請點擊輸入圖片描述

抓取下來了,還不算,必須要進行讀取,否則無效。

請點擊輸入圖片描述

5

接下來就是抓碼了,不轉碼是完成不了保存的,將讀取的函數read轉碼。再隨便標記一個比如XA。

請點擊輸入圖片描述

6

最後再輸入三句,第一句的意思是新建一個空白的word文檔。

第二句的意思是在文檔中添加正文段落,將變量XA抓取下來的東西導進去。

第三句的意思是保存文檔docx,名字在括號裏面。

請點擊輸入圖片描述

7

這個爬下來的是源代碼,如果還需要篩選的話需要自己去添加各種正則表達式。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/298206.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-28 12:17
下一篇 2024-12-28 12:17

相關推薦

  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29

發表回復

登錄後才能評論