本文目录一览:
怎么用python抓取网页并实现一些提交操作?
下面这个程序是抓取网页的一个例子,MyOpener类是为了模拟浏览器客户端,并采用随机选取的方式以防网站将你认为是机器人。
MyFunc函数抓取你指定的url,并提取了其中的href链接,图片的获取类似,一般是img src=xxx这样的形式,其他的功能应该也不难,去网上搜下应该有些例子。
import re
from urllib import FancyURLopener
from random import choice
user_agents = [
‘Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11’,
‘Opera/9.25 (Windows NT 5.1; U; en)’,
‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)’,
‘Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)’,
‘Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12’,
‘Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9’
]
class MyOpener(FancyURLopener, object):
version = choice(user_agents)
def MyFunc(url):
myopener = MyOpener()
s = myopener.open(url).read()
ss=s.replace(“\n”,” “)
urls=re.findall(r”a.*?href=.*?\/a”,ss,re.I)#寻找href链接
for i in urls:
do sth.
Python脚本在Windows下后台运行
Python脚本在Linux后台执行加个就行了
在Windows起Python服务总有不畅
查了一下,可以用start /b python xxx.py后台运行,
这招虽然不影响cmd操作,但是关闭cmd窗口后服务也死了
解决这个问题挺麻烦的,需要以Windows服务的方式挂起来
第一步,将Python脚本打包成exe可执行文件,详见:
用python加cPAMIE加pyinstaller为我柱哥点赞
打包成exe文件以后,cmd执行
python:import cPAMIE 用到哪个模块
PAMIE的全称是Python Automated Module For Internet Explorer,顾名思义,PAMIE是一个实现IE自动化的模块。
PAMIE的官方网站提供了最新模块的下载,但由于是个人开发的缘故,其他文档,常见问题解答之类的基本没有更新,在下载最新版本之后,主页上提供的资料有好多是错的,大家在用的时候要务必注意这一点,最明显的一个例子是我上篇文章里面说的,还有一些方法名字已经更换。使用的时候,要多查查PAM30.py!
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/301743.html