python爬取用戶微博id號,python爬微博數據

本文目錄一覽:

如何通過python調用新浪微博的API來爬取數據

1:安裝python(這個不多說啦)

2:下載新浪微博SDK的python包,解壓為weibopy目錄

3:申請AppKey,

流程:

1:通過oAuth認證

按我的理解簡化如下:

用戶在新浪微博給的頁面輸入賬號密碼,然後微博給應用一個PIN碼,這樣應用通過PIN碼才有許可權訪問該用戶的信息,而應用在整個過程中是接觸不到密碼的,所以用戶覺得很安全,後果很滿意

2:獲得認證之後,就可以使用微博SDK提供的API獲得信息啦

3:如果想設計web或者客戶端應用的話,那就繼續加個GUI好啦(未完成)

代碼:

#!/usr/bin/python

import webbrowser

from weibopy.auth import OAuthHandler

from weibopy.api import API

AppKey = ‘2525355147’

AppSecret = ‘2e2c7bcdfc362eace266d1f2bf83fe6b’

my_auth = OAuthHandler(AppKey , AppSecret)

webbrowser.open(my_auth.get_authorization_url())

verifier = raw_input(‘PIN: ‘).strip()

my_auth.get_access_token(verifier)

my_api = API(my_auth)

for comment in my_api.mentions():

object = comment

id = object.__getattribute__(“id”)

text = object.__getattribute__(“text”)

print str(id) + ” : ” + text

怎樣用python爬新浪微博大V所有數據

先上結論,通過公開的api如果想爬到某大v的所有數據,需要滿足以下兩個條件:

1、在你的爬蟲開始運行時,該大v的所有微博發布量沒有超過回溯查詢的上限,新浪是2000,twitter是3200。

2、爬蟲程序必須不間斷運行。

新浪微博的api基本完全照搬twitter,其中介面的參數特性與底層的NoSQL密不可分,建議先看點Nosql資料庫的設計理念有助於更好的理解api設計。

一般來說,如果決定爬某個大v,第一步先試獲取該用戶的基本信息,中間會包含一條最新的status,記下其中的id號作為基準,命名為baseId。

介面中最重要的兩個參數:

since_id:返回ID比since_id大的微博(即比since_id時間晚的微博),默認為0。

max_id:返回ID小於或等於max_id的微博,默認為0。

出於各種原因,獲取statuses的介面,固定為按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假設該微博第一天上線,就一個用戶,發了一百條,id是1到100。而你在該用戶發了第50條的時候開始運行的爬蟲,即baseId=50。

假設按每次獲取10條歷史數據遞歸,先將max_id設為baseId,獲取該用戶id為41-50的微博,再將max_id設為41重複循環,直到返回微博數量為1或0。這步沒有問題。

獲取用戶最新的statuses就有些蛋疼了,since_id=50,同樣獲取10條數據,返回的並不是id值為51-60的數據,而是100-91的數據。簡單說就是你沒法從since_id逐步更新到用戶當前status,而是得一口氣從用戶當前status更新到上次爬蟲運行時得到的最後一條status。假設你的爬蟲一個月才運行一次,該用戶在這期間發了2300條微博,根據限制你只能更新2000條,這其中最老的300條在你的系統內就會出現「斷檔」。

最後一條,以上只針對公開的api,stackoverflow上twitter

API可以申請許可權突破數量限制和更改排序機制,微博也應該有類似機制。

如何用python抓微博數據

用Python寫爬蟲爬取微博數據的思路如下:

1、用base64加密用戶名之後仿造一個預登陸,用正則匹配得到各項參數。

2、用上一步里得到的參數,拼接密碼明文,再用RSA加密得到密文,並構造POST的form data。

3、使用構造好的form data仿造登錄請求

4、用正則匹配獲得跳轉的目標鏈接。

5、為了保持登陸,用cookiejar一類的工具綁定一個cookie就行了。

推薦學習《Python教程》。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/199564.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-05 10:22
下一篇 2024-12-05 10:22

相關推薦

  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智慧、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • 蝴蝶優化演算法Python版

    蝴蝶優化演算法是一種基於仿生學的優化演算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化演算法Python版…

    編程 2025-04-29

發表回復

登錄後才能評論