python3scrapymysql的簡單介紹

本文目錄一覽:

scrapy-redis到底需要怎樣部署啊?分別應該安裝什麼軟件?

酷辣蟲 CoLaBug

綜合技術

Scrapy-redis分佈式爬蟲+Docker快速部署

簡書 簡書 2018-07-28 本文共6495個字,預計閱讀需要17分鐘。

生成海報

微信掃一掃,分享到朋友圈

Scrapy-redis分佈式爬蟲+Docker快速部署

0 0

Scrapy-redis分佈式爬蟲+Docker快速部署

打算爬一個網站的數據,量比較大, url 鏈接從0開始達到2億,剛開始用 request 遞歸寫了個爬蟲,發現速度低的可憐,不算任何的錯誤,也只能達到.5秒一個請求,這速度實在不能忍,所以想着用分佈式爬蟲,所以才有了這篇文章

開發環境+框架、庫

開發環境:

macOS High Sierra 10.13

Python3.5

開發工具:

PyCharm

Python庫: pymysql 、 scrapy 、 scrapy-redis 、 requests 、 BeautifulSoup4 、 redis-py

運行環境: Centos7.4 Centos6.9 Docker

開始搭建環境

安裝 Python3 Windows請自行查找教程安裝、Mac用戶系統自帶了 Py2.6 ,我建議升級到 Python3 ,用 HomeBrew 安裝即可

Homebrew安裝命令

/usr/bin/ruby -e “$(curl -fsSL )”

然後使用 brew install python 安裝 Python3

安裝成功後再終端輸入 python3 查看是否安裝成功,如果輸入 python 默認使用本機的 py2 ,當然也可以去配置文件設置個 alias 將 python 設置成啟動 py3

image

如圖安裝成功

然後用

easy_install pip 安裝

Python 的包管理工具

pip

注意:有的人用的是 Anaconda 作為 py 環境,我剛開始也是用的 Anaconda ,但是在 install scrapy-redis 的時候發現無法導入,默認源都沒有這個庫,

python爬蟲需要什麼基礎

網頁知識

html,js,css,xpath這些知識,雖然簡單,但一定需要了解。 你得知道這些網頁是如何構成的,然後才能去分解他們.

HTTP知識

一般爬蟲你需要模擬瀏覽器的操作,才能去獲取網頁的信息

如果有些網站需要登錄,才能獲取更多的資料,你得去登錄,你得把登錄的賬號密碼進行提交

有些網站登錄後需要保存cookie信息才能繼續獲取更多資料

正則表達式

有了正則表達式才能更好的分割網頁信息,獲取我們想要的數據,所以正則表達式也是需要了解的.

一些重要的爬蟲庫

url,url2

beautiul Soup

數據庫

爬取到的數據我們得有個地方來保存,可以使用文件,也可以使用數據庫,這裡我會使用mysql,還有更適合爬蟲的MongoDB數據庫,以及分佈式要用到的redis 數據庫

爬蟲框架

PySpider和Scrapy 這兩個爬蟲框架是非常NB的,簡單的爬蟲可以使用urllib與urllib2以及正則表達式就能完成,但高級的爬蟲還得用這兩個框架。 這兩個框架需要另行安裝。後面一起學習.

反爬蟲

有時候你的網站數據想禁止別人爬取,可以做一些反爬蟲處理操作。 打比方百度上就無法去查找淘寶上的數據,這樣就避開了搜索引擎的競爭,淘寶就可以搞自己的一套競價排名

分佈式爬蟲

使用多個redis實例來緩存各台主機上爬取的數據。

爬蟲要學的東西還是挺多的,想把爬蟲玩得666,基本就是這些知識點吧!

python爬蟲需要安裝哪些庫

一、 請求庫

1. requests

requests 類庫是第三方庫,比 Python 自帶的 urllib 類庫使用方便和

2. selenium

利用它執行瀏覽器動作,模擬操作。

3. chromedriver

安裝chromedriver來驅動chrome。

4. aiohttp

aiohttp是異步請求庫,抓取數據時可以提升效率。

二、 解析庫

1. lxml

lxml是Python的一個解析庫,支持解析HTML和XML,支持XPath的解析方式,而且解析效率非常高。

2. beautifulsoup4

Beautiful Soup可以使用它更方便的從 HTML 文檔中提取數據。

3. pyquery

pyquery是一個網頁解析庫,採用類似jquery的語法來解析HTML文檔。

三、 存儲庫

1. mysql

2. mongodb

3. redis

四、 爬蟲框架scrapy

Scrapy 是一套異步處理框架,純python實現的爬蟲框架,用來抓取網頁內容以及各種圖片

需要先安裝scrapy基本依賴庫,比如lxml、pyOpenSSL、Twisted

從python基礎到爬蟲的書有什麼值得推薦

《Python3爬蟲入門到精通課程視頻【附軟件與資料】【34課時】–崔慶才》百度網盤資源免費下載

鏈接:

?pwd=zxcv 提取碼:zxcv

Python3爬蟲入門到精通課程視頻【附軟件與資料】【34課時】–崔慶才|章節5: 分佈式篇|章節4: 框架篇|章節3: 實戰篇|章節2: 基礎篇|章節1: 環境配置|Python3爬蟲課程資料代碼.zip|2018-Python3網絡爬蟲開發實戰-崔慶才.pdf|課時06:Python爬蟲常用庫的安裝.zip|課時05:Python多版本共存配置.zip|課時04:MySQL的安裝.zip|課時03:Redis環境配置.zip|課時02:MongoDB環境配置.zip|課時01:Python3+Pip環境配置.zip|課時13:Selenium詳解.zip  

python爬蟲爬下來的數據怎麼導入到MySQL

下載mysql.connector庫

然後把爬蟲爬到的數據通過mysql裏面的insert語句查到數據庫,當然也可以建表,一般我沒用python建表 是先建好再寫數據的

import mysql.connector

conn = mysql.connector.connect(

    user=’root’,

    password=’root’,

    host=’127.0.0.1′,

    port=’3306′,

    database=’test_demo’

)

cursor = conn.cursor()

cursor.execute(“INSERT INTO test_user(`uuid`,`user_name`,`user_level`) VALUES (%s,%s,%s)”,[id, user_name, user_level])

cursor.execute(“INSERT INTO tieba_user_detail(`user_name`,`user_exp`,`user_sex`,`tieba_age`,`tieba_note`,`user_favorites`,`user_fans`) VALUES (%s,%s,%s,%s,%s,%s,%s)”,[user_name,user_exp,user_sex, tieba_age,tieba_note, user_favorites, user_fans])

print(‘************** %s  %s 數據保存成功 **************’%(user_rank,user_name))

conn.commit()

cursor.close()

插進入就這樣的

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/285387.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-22 15:44
下一篇 2024-12-22 15:44

相關推薦

  • Python簡單數學計算

    本文將從多個方面介紹Python的簡單數學計算,包括基礎運算符、函數、庫以及實際應用場景。 一、基礎運算符 Python提供了基礎的算術運算符,包括加(+)、減(-)、乘(*)、除…

    編程 2025-04-29
  • Python滿天星代碼:讓編程變得更加簡單

    本文將從多個方面詳細闡述Python滿天星代碼,為大家介紹它的優點以及如何在編程中使用。無論是剛剛接觸編程還是資深程序員,都能從中獲得一定的收穫。 一、簡介 Python滿天星代碼…

    編程 2025-04-29
  • Python海龜代碼簡單畫圖

    本文將介紹如何使用Python的海龜庫進行簡單畫圖,並提供相關示例代碼。 一、基礎用法 使用Python的海龜庫,我們可以控制一個小海龜在窗口中移動,並利用它的「畫筆」在窗口中繪製…

    編程 2025-04-29
  • Python櫻花樹代碼簡單

    本文將對Python櫻花樹代碼進行詳細的闡述和講解,幫助讀者更好地理解該代碼的實現方法。 一、簡介 櫻花樹是一種圖形效果,它的實現方法比較簡單。Python中可以通過turtle這…

    編程 2025-04-28
  • Python大神作品:讓編程變得更加簡單

    Python作為一種高級的解釋性編程語言,一直被廣泛地運用於各個領域,從Web開發、遊戲開發到人工智能,Python都扮演着重要的角色。Python的代碼簡潔明了,易於閱讀和維護,…

    編程 2025-04-28
  • 用Python實現簡單爬蟲程序

    在當今時代,互聯網上的信息量是爆炸式增長的,其中很多信息可以被利用。對於數據分析、數據挖掘或者其他一些需要大量數據的任務,我們可以使用爬蟲技術從各個網站獲取需要的信息。而Pytho…

    編程 2025-04-28
  • 如何製作一個簡單的換裝遊戲

    本文將從以下幾個方面,為大家介紹如何製作一個簡單的換裝遊戲: 1. 遊戲需求和界面設計 2. 使用HTML、CSS和JavaScript開發遊戲 3. 實現遊戲的基本功能:拖拽交互…

    編程 2025-04-27
  • Guava Limiter——限流器的簡單易用

    本文將從多個維度對Guava Limiter進行詳細闡述,介紹其定義、使用方法、工作原理和案例應用等方面,並給出完整的代碼示例,希望能夠幫助讀者更好地了解和使用該庫。 一、定義 G…

    編程 2025-04-27
  • 2的32次方-1:一個看似簡單卻又複雜的數字

    對於計算機領域的人來說,2的32次方-1(也就是十進制下的4294967295)這個數字並不陌生。它經常被用來表示IPv4地址或者無符號32位整數的最大值。但實際上,這個數字卻包含…

    編程 2025-04-27
  • 製作一個簡單的管理系統的成本及實現

    想要製作一個簡單的管理系統,需要進行技術選型、開發、測試等過程,那麼這個過程會花費多少錢呢?我們將從多個方面來闡述製作一個簡單的管理系統的成本及實現。 一、技術選型 當我們開始思考…

    編程 2025-04-27

發表回復

登錄後才能評論