c語言爬蟲用法,C語言爬蟲

本文目錄一覽：

1、我想用c編寫一個爬蟲程序，可是看完一本c語言教程後，還是覺得只會編寫一些計算類的小代碼，要學會編寫
2、爬蟲里printf(res)有什麼作用？和print(res.text)有什麼區別？
3、怎麼在DOS下用C語言寫網路爬蟲
4、為什麼c語言不適合寫爬蟲
5、c語言能幹什麼 C語言的這些用處你知道嗎
6、爬蟲面對如此多重複的標籤，應該怎麼爬才能爬到自己

我想用c編寫一個爬蟲程序，可是看完一本c語言教程後，還是覺得只會編寫一些計算類的小代碼，要學會編寫

想做爬蟲程序不是學完語言就行了，是要學很多東西的，你可以查一查大學計算機專業有哪些課程。

做爬蟲可以學學java語言。

《網路機器人Java編程指南》

開源的爬蟲產品

;os=0sort=viewp=1

爬蟲里printf(res)有什麼作用？和print(res.text)有什麼區別？

很多計算機語言都可以寫爬蟲，這兩個都有列印輸出的意思，下面那個應該是xpath清洗後轉字元串，python爬蟲就是這樣，不明白你說的是那個語言寫的爬蟲。

怎麼在DOS下用C語言寫網路爬蟲

獲取cspider_t。

自定義user agent，cookie，timeout，proxy以及抓取線程和解析線程的最大數量。

添加初始要抓取的url到任務隊列。

編寫解析函數和數據持久化函數。

啟動爬蟲。

例子

先來看下簡單的爬蟲例子，會在後面詳細講解例子。

#includecspider/spider.h

自定義的解析函數，d為獲取到的html頁面字元串

void p(cspider_t *cspider, char *d, void *user_data) {

char *get[100];

//xpath解析html

int size = xpath(d, “//body/div[@class=’wrap’]/div[@class=’sort-column area’]/div[@class=’column-bd cfix’]/ul[@class=’st-list cfix’]/li/strong/a”, get， 100);

int i;

for (i = 0; i size; i++) {

//將獲取到的電影名稱，持久化

saveString(cspider, get[i]);

}

數據持久化函數，對上面解析函數中調用的saveString()函數傳入的數據，進行進一步的保存

void s(void *str, void *user_data) {

char *get = (char *)str;

FILE *file = (FILE*)user_data;

fprintf(file, “%s\n”, get);

return;

}

int main() {

//初始化spider

cspider_t *spider = init_cspider();

char *agent = “Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0”;

//char *cookie = “bid=s3/yuH5Jd/I; ll=108288; viewed=1130500_24708145_6433169_4843567_1767120_5318823_1899158_1271597; __utma=30149280.927537245.1446813674.1446983217.1449139583.4; __utmz=30149280.1449139583.4.4.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/login; ps=y; ue=965166527@qq.com; dbcl2=58742090:QgZ2PSLiDLQ; ck=T9Wn; push_noty_num=0; push_doumail_num=7; ap=1; __utmb=30149280.0.10.1449139583; __utmc=30149280”;

//設置要抓取頁面的url

cs_setopt_url(spider, “so.tv.sohu.com/list_p1100_p20_p3_u5185_u5730_p40_p5_p6_p77_p80_p9_2d1_p101_p11.html”);

//設置user agent

cs_setopt_useragent(spider, agent);

//cs_setopt_cookie(spider, cookie);

//傳入解析函數和數據持久化函數的指針

cs_setopt_process(spider, p, NULL);

//s函數的user_data指針指向stdout

cs_setopt_save(spider, s, stdout);

//設置線程數量

cs_setopt_threadnum(spider, DOWNLOAD, 2);

cs_setopt_threadnum(spider, SAVE, 2);

//FILE *fp = fopen(“log”, “wb+”);

//cs_setopt_logfile(spider, fp);

//開始爬蟲

return cs_run(spider);

}

為什麼c語言不適合寫爬蟲

有更加成熟的一種爬蟲腳本語言，而非框架。是通用的爬蟲軟體ForeSpider，內部自帶了一套爬蟲腳本語言。

從一個專業C++程序猿的角度說，網上流傳的各種Java爬蟲，Python爬蟲，Java需要運行於C++開發的虛擬機上，Python只是腳本語言，採集效率和性能如何能與強大的C++相提並論？C++直接控制系統的底層，對內存空間的控制和節省都是其他語言無法競爭的。首先，forespider的開發語言是C++，而且C++幾乎沒有現成的框架可以用，而火車採集器是用的C#。先從業界水平和良心來說，這個軟體可以做到從底層到上層都是他們的技術人員自己寫的，而非運用現成的框架結構。

其次，因為抓取金融行業的數據，數據量大，動態性強，而採集對象一般反爬蟲策略又很嚴格。所以，專門建立團隊開發不現實。請外包人員開發太貴。買現成的軟體，要考慮性價比。因為很多數據需要登錄，需要驗證碼，是JS生成的數據，是ajax，是https協議，有加密的key，有層層的驗證機制等等，分析市面上所有找得到的爬蟲軟體，沒有找到其他一家可以完全把我們列表上的網站採集下來的軟體。forespider功能強大，這是很重要的一點。

第三，forespider在台式機上運行一天可以采400萬條數據，在伺服器上一天可以采8000萬條數據。這樣一來，數據更新速度明顯比以前快了幾十倍。從前抓一個7500萬的網站需要好幾個月，等抓完數據早都變化的不成樣子了，這是很多爬蟲的痛處。但是現在的更新速度只有兩三天。forespider的性能強大，這也是非常好的一點。

第四，其實完全可視化的採集也不需要計算機專業的。大致學習了之後就可以上手采。而且forespider關於數據的管理做的很好。一是軟體可以集成資料庫，在採集之前就可以建表。二是數據可以自動排重，對於金融這樣數據更新要求很高的行業，就特別合適。

c語言能幹什麼 C語言的這些用處你知道嗎

1、C語言可以做嵌入式開發。如51單片機、ARM等。

2、C語言可以寫漂亮的界面。以windows開發為例，你可以學習《windows程序設計（第五版）》，學完就可以寫出界面來。還有一些開源庫界面庫，例如soui也是用C寫出來的。

3、C語言可以做伺服器開發，現在的遊戲伺服器端大多都是C/C++開發的。《windows核心編程》裡面的例子就是用C寫的。

4、C語言可以寫遊戲。cocos2d—x就是C/C++寫的。DirectX也是。

5、C語言可以寫驅動程序。windows下各種硬體驅動都是C/C++寫的。騰訊遊戲保護軟體（TP）也是驅動程序。

6、C語言可以寫外掛。想學寫外掛的童鞋們可以看看鬱金香的外掛編程視頻教程。

7、C語言可以做視頻圖片流媒體處理。有興趣的朋友可以學習一下ffmpeg、live555、sdl等開源庫。

8、C語言可以做網頁和爬蟲相關的編程。想了解的同學可以去看gsoap、libcur等相關開源庫。

9、C語言可以進行黑客編程。配合彙編獲取隨機地址、調shellcode等。

爬蟲面對如此多重複的標籤，應該怎麼爬才能爬到自己

二、爬蟲工程師需要掌握哪些技能？我見過這樣的說法：「爬蟲是低級、重複性很多的工作，沒有發展前途」。這是誤解。首先，對於程序員來說基本上不存在重複性的工作，任何重複勞動都可以通過程序自動解決。例如博主之前要抓十幾個相似度很高但是html結構不太一樣的網站，我就寫了一個簡單的代碼生成器，從爬蟲代碼到單元測試代碼都可以自動生成，只要對應html結構稍微修改一下就行了。所以我認為，重複性的勞動在編程方面來說基本上是不存在的，如果你認為自己做的工作是重複性的，說明你比較勤快，不願意去偷懶。而我還認為，勤快的程序員不是好程序員。下面我根據自己這段時間的工作經歷，講一講爬蟲需要哪些相關的技能。1.基本的編碼基礎（至少一門編程語言）這個對於任何編程工作來說都是必須的。基礎的數據結構你得會吧。數據名字和值得對應（字典），對一些url進行處理（列表）等等。事實上，掌握的越牢固越好，爬蟲並不是一個簡單的工作，也並不比其他工作對編程語言的要求更高。熟悉你用的編程語言，熟悉相關的框架和庫永遠是無害。我主要用Python，用Java寫爬蟲的也有，理論上講任何語言都可以寫爬蟲的，不過最好選擇一門相關的庫多，開發迅速的語言。用C語言寫肯定是自找苦吃了。2.任務隊列當爬蟲任務很大的時候，寫一個程序跑下來是不合適的：如果中間遇到錯誤停掉，重頭再來？這不科學我怎麼知道程序在哪裡失敗了？任務和任務之間不應該相互影響如果我有兩台機器怎麼分工？所以我們需要一種任務隊列，它的作用是：講計劃抓取的網頁都放到任務隊列裡面去。然後worker從隊列中拿出來一個一個執行，如果一個失敗，記錄一下，然後執行下一個。這樣，worker就可以一個接一個地執行下去。也增加了擴展性，幾億個任務放在隊列里也沒問題，有需要可以增加worker，就像多一雙虧筷子吃飯一樣。常用的任務隊列有kafka，beanstalkd，celery等。3.資料庫這個不用講了，數據保存肯定要會資料庫的。不過有時候一些小數據也可以保存成json或者csv等。我有時想抓一些圖片就直接按照文件夾保存文件。推薦使用NoSQL的資料庫，比如mongodb，因為爬蟲抓到的數據一般是都欄位-值得對應，有些欄位有的網站有有的網站沒有，mongo在這方面比較靈活，況且爬蟲爬到的數據關係非常非常弱，很少會用到表與表的關係。4.HTTP知識HTTP知識是必備技能。因為要爬的是網頁，所以必須要了解網頁啊。首先html文檔的解析方法要懂，比如子節點父節點，屬性這些。我們看到的網頁是五彩斑斕的，只不過是被瀏覽器處理了而已，原始的網頁是由很多標籤組成的。處理最好使用html的解析器，如果自己用正則匹配的話坑會很多。我個人非常喜歡xpath，跨語言，表達比價好，但是也有缺點，正則、邏輯判斷有點彆扭。HTTP協議要理解。HTTP協議本身是無狀態的，那麼「登錄」是怎麼實現的？這就要求去了解一下session和cookies了。GET方法和POST方法的區別（事實上除了字面意思不一樣沒有任何區別）。瀏覽器要熟練。爬蟲的過程其實是模擬人類去瀏覽器數據的過程。所以瀏覽器是怎麼訪問一個網站的，你要學會去觀察，怎麼觀察呢？Developer Tools！Chrome的Developer Tools提供了訪問網站的一切信息。從traffic可以看到所有發出去的請求。copy as curl功能可以給你生成和瀏覽器請求完全一致的curl請求！我寫一個爬蟲的一般流程是這樣的，先用瀏覽器訪問，然後copy as curl看看有哪些header，cookies，然後用代碼模擬出來這個請求，最後處理請求的結果保存下來。5.運維這個話題要說的有很多，實際工作中運維和開發的時間差不多甚至更多一些。維護已經在工作的爬蟲是一個繁重的工作。隨著工作時間增加，一般我們都會學著讓寫出來的爬蟲更好維護一些。比如爬蟲的日誌系統，數據量的統計等。將爬蟲工程師和運維分開也不太合理，因為如果一個爬蟲不工作了，那原因可能是要抓的網頁更新了結構，也有可能出現在系統上，也有可能是當初開發爬蟲的時候沒發現反扒策略，上線之後出問題了，也可能是對方網站發現了你是爬蟲把你封殺了，所以一般來說開發爬蟲要兼顧運維。所以爬蟲的運維我可以提供下面幾個思路：首先，從數據增量監控。定向爬蟲（指的是只針對一個網站的爬蟲）比較容易，一段時間之後對一些網站的數據增量會有一個大體的了解。經常看看這些數據的增加趨勢是否是正常就可以了（Grafana）。非定向爬蟲的數據增量不是很穩定，一般看機器的網路狀況，網站的更新情況等（這方面我的經驗不多）。然後看爬蟲執行的成功情況。在上面提到了用任務隊列控制爬蟲工作，這樣解耦可以帶來很多好處，其中一個就是可以就是可以對一次爬蟲執行進行日誌。可以在每次爬蟲任務執行的時候，將執行的時間、狀態、目標url、異常等放入一個日誌系統（比如kibana），然後通過一個可視化的手段可以清晰地看到爬蟲的失敗率。爬蟲拋出的Exception。幾乎所有的項目都會用到錯誤日誌收集（Sentry），這裡需要注意的一點是，忽略正常的異常（比如Connection錯誤，鎖衝突等），否則的話你會被這些錯誤淹沒。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/301502.html

c語言爬蟲用法,C語言 爬蟲