使用python搜索aws的简单介绍

本文目录一览：

1、如何用Python爬取搜索引擎的结果
2、aws上cpu利用率怎么用python采集
3、如何运行Python脚本这是我上传在AWS SSH会话的应用程序的一部分
4、python 爬虫 ip池怎么做

如何用Python爬取搜索引擎的结果

我选取的是爬取百度知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 Python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。

爬取的过程是一个深度优先的过程，设定四个起始 url ，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url ，html；另一个表为urlLib，存储已经爬取的url，是一个辅助表，在我们爬取每个网页前，需要先判断该网页是否已爬过（是否存在urlLib中）。在数据存储的过程中，使用了SQL的少量语法，由于我之前学过 MySQL ，这块处理起来比较驾轻就熟。

深度优先的网页爬取方案是：给定初始 url，爬取这个网页中所有 url，继续对网页中的 url 递归爬取。代码逐段解析在下面，方便自己以后回顾。

1.建一个 scrapy 工程：

关于建工程，可以参看这个scrapy入门教程，通过运行:

[python] view plain copy

scrapy startproject ***

在当前目录下建一个scrapy 的项目，然后在 spiders 的子目录下建立一个 .py文件，该文件即是爬虫的主要文件，注意：其中该文件的名字不能与该工程的名字相同，否则，之后调用跑这个爬虫的时候将会出现错误，见ImportError。

2.具体写.py文件：

[python] view plain copy

import scrapy

from scrapy import Request

import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider

name = “zhidao” #将该爬虫命名为 “知道”，在执行爬虫时对应指令将为： scrapy crawl zhidao

#download_delay = 1 #只是用于控制爬虫速度的，1s/次，可以用来对付反爬虫

allowed_domains = [“zhidao.baidu.com”] #允许爬取的作用域

url_first = ” #用于之后解析域名用的短字符串

start_urls = [“”, #python

“”, #database

“”, #C++

“”, #operator system

“” #Unix programing

] #定义初始的 url ，有五类知道起始网页

#add database

connDataBase = sqlite3.connect(“zhidao.db”) #连接到数据库“zhidao.db”

cDataBase = connDataBase.cursor() #设置定位指针

cDataBase.execute(””’CREATE TABLE IF NOT EXISTS infoLib

(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)”’)

#通过定位指针操作数据库，若zhidao.db中 infoLib表不存在，则建立该表，其中主键是自增的 id（用于引擎的docId）,下一列是文章的标题，然后是url，最后是html

#url dataBase

cDataBase.execute(””’CREATE TABLE IF NOT EXISTS urlLib

(url text PRIMARY KEY)”’)

#通过定位指针操作数据库，若zhidao.db中urlLib表不存在，则建立该表，其中只存了 url，保存已经爬过的url，之所以再建一个表，是猜测表的主键应该使用哈希表存储的，查询速度较快，此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数：

.py文件中的parse函数将具体处理url返回的 response，进行解析，具体代码中说明：

[python] view plain copy

def parse(self,response):

pageName = response.xpath(‘//title/text()’).extract()[0] #解析爬取网页中的名称

pageUrl = response.xpath(“//head/link”).re(‘href=”(.*?)”‘)[0] #解析爬取网页的 url，并不是直接使用函数获取，那样会夹杂乱码

pageHtml = response.xpath(“//html”).extract()[0] #获取网页html

# judge whether pageUrl in cUrl

if pageUrl in self.start_urls:

#若当前url 是 start_url 中以一员。进行该判断的原因是，我们对重复的 start_url 中的网址将仍然进行爬取，而对非 start_url 中的曾经爬过的网页将不再爬取

self.cDataBase.execute(‘SELECT * FROM urlLib WHERE url = (?)’,(pageUrl,))

lines = self.cDataBase.fetchall()

if len(lines): #若当前Url已经爬过

pass #则不再在数据库中添加信息，只是由其为跟继续往下爬

else: #否则，将信息爬入数据库

self.cDataBase.execute(‘INSERT INTO urlLib (url) VALUES (?)’,(pageUrl,))

self.cDataBase.execute(“INSERT INTO infoLib (name,url,html) VALUES (?,?,?)”,(pageName,pageUrl,pageHtml))

else: #此时进入的非 url 网页一定是没有爬取过的（因为深入start_url之后的网页都会先进行判断，在爬取，在下面的for循环中判断）

self.cDataBase.execute(‘INSERT INTO urlLib (url) VALUES (?)’,(pageUrl,))

self.cDataBase.execute(“INSERT INTO infoLib (name,url,html) VALUES (?,?,?)”,(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print “———————————————–” #输出提示信息，没啥用

for sel in response.xpath(‘//ul/li/a’).re(‘href=”(/question/.*?.html)’): #抓出所有该网页的延伸网页，进行判断并对未爬过的网页进行爬取

sel = “” + sel #解析出延伸网页的url

self.cDataBase.execute(‘SELECT * FROM urlLib WHERE url = (?)’,(sel,)) #判断该网页是否已在数据库中

lines = self.cDataBase.fetchall()

if len(lines) == 0: #若不在，则对其继续进行爬取

yield Request(url = sel, callback=self.parse)

aws上cpu利用率怎么用python采集

#!/usr/bin/python

# -*- coding:utf8 -*-

__author__ = ‘chenwx’

def cpu_rate（）：

import time

def cpu_r（）：

f = open（“/proc/stat”,“r”）

for f_line in f:

break

f.close（）

f_line = f_line.split（“ ”）

f_line_a=[]

for i in f_line:

if i.isdigit（）：

i=int（i）

f_line_a.append（i）

total = sum（f_line_a）

idle = f_line_a[3]

return total,idle

total_a,idle_a=cpu_r（）

time.sleep（2）

total_b,idle_b=cpu_r（）

sys_idle = idle_b – idle_a

sys_total = total_b – total_a

sys_us = sys_total – sys_idle

cpu_a = （float（sys_us）/sys_total）*100

return cpu_a

# print cpu_rate（）

如何运行Python脚本这是我上传在AWS SSH会话的应用程序的一部分

secureCRT支持运行.js和.vbs以及.py格式的脚本，无奈mac上识别前两个格式的脚本只能写一写Python脚本，

举个简单的例子，利用脚本直接ssh连接一台机器，

在View菜单中勾选Button Bar让这个菜单在下方显示出来，

在下方的Default右方右键出现一个菜单点击New Button按钮，在显示框的Function一栏选择Run Script中间选择编写好的.py文件！

python 爬虫 ip池怎么做

Python爬虫采集信息都是采用IP进行更改，不然就不能快速的爬取信息，可以加入采用这类方式，就失去了快速抓取的意义。

所以，如果要大批量的抓取信息，就不能避免的使用IP池，针对Python爬虫使用的IP池，是如何搭建起来的呢？接下来和大家说明一下如何建爬虫IP池的问题。

第一步：找IP资源

IP资源并不丰富，换句话说是供不应求的，因此一般是使用动态IP。

免费方法，直接在网络上找，在搜索引擎中一搜索特别多能够提供IP资源的网站，进行采集即可。

付费方法，通过购买芝麻代理上的IP资源，并进行提取，搭建IP池。

第二步，检测可用IP保存

提取到的IP，可以进一步进行检测是否可用，比如访问某个固定的网站，找出访问成功的IP进行保存。

第三步，随机调用IP

在爬虫需要使用IP时，可用读取保存IP的文件，进行随机调用IP。

本文介绍了如何建爬虫的IP池方法，可以说搭建IP池很容易，可有些IP的时效性很短，使用之前还可以再测试一次的。如果考虑免费IP，那么对于IP的效果性要做好心理准备的。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/183902.html

使用python搜索aws的简单介绍

本文目录一览：

如何用Python爬取搜索引擎的结果

aws上cpu利用率怎么用python采集

如何运行Python脚本这是我上传在AWS SSH会话的应用程序的一部分

python 爬虫 ip池怎么做

相关推荐

发表回复