python爬取用户微博id号,python爬微博数据

本文目录一览：

1、如何通过python调用新浪微博的API来爬取数据
2、怎样用python爬新浪微博大V所有数据
3、如何用python抓微博数据

如何通过python调用新浪微博的API来爬取数据

1：安装python(这个不多说啦)

2：下载新浪微博SDK的python包，解压为weibopy目录

3：申请AppKey，

流程：

1：通过oAuth认证

按我的理解简化如下：

用户在新浪微博给的页面输入账号密码，然后微博给应用一个PIN码，这样应用通过PIN码才有权限访问该用户的信息，而应用在整个过程中是接触不到密码的，所以用户觉得很安全，后果很满意

2：获得认证之后，就可以使用微博SDK提供的API获得信息啦

3：如果想设计web或者客户端应用的话，那就继续加个GUI好啦(未完成)

代码：

#!/usr/bin/python

import webbrowser

from weibopy.auth import OAuthHandler

from weibopy.api import API

AppKey = ‘2525355147’

AppSecret = ‘2e2c7bcdfc362eace266d1f2bf83fe6b’

my_auth = OAuthHandler(AppKey , AppSecret)

webbrowser.open(my_auth.get_authorization_url())

verifier = raw_input(‘PIN: ‘).strip()

my_auth.get_access_token(verifier)

my_api = API(my_auth)

for comment in my_api.mentions():

object = comment

id = object.__getattribute__(“id”)

text = object.__getattribute__(“text”)

print str(id) + ” : ” + text

怎样用python爬新浪微博大V所有数据

先上结论，通过公开的api如果想爬到某大v的所有数据，需要满足以下两个条件：

1、在你的爬虫开始运行时，该大v的所有微博发布量没有超过回溯查询的上限，新浪是2000，twitter是3200。

2、爬虫程序必须不间断运行。

新浪微博的api基本完全照搬twitter，其中接口的参数特性与底层的NoSQL密不可分，建议先看点Nosql数据库的设计理念有助于更好的理解api设计。

一般来说，如果决定爬某个大v，第一步先试获取该用户的基本信息，中间会包含一条最新的status，记下其中的id号作为基准，命名为baseId。

接口中最重要的两个参数：

since_id：返回ID比since_id大的微博（即比since_id时间晚的微博），默认为0。

max_id：返回ID小于或等于max_id的微博，默认为0。

出于各种原因，获取statuses的接口，固定为按id降序排列（scan_index_forward=false），即最新的statuses返回在前。假设该微博第一天上线，就一个用户，发了一百条，id是1到100。而你在该用户发了第50条的时候开始运行的爬虫，即baseId=50。

假设按每次获取10条历史数据递归，先将max_id设为baseId，获取该用户id为41－50的微博，再将max_id设为41重复循环，直到返回微博数量为1或0。这步没有问题。

获取用户最新的statuses就有些蛋疼了，since_id＝50，同样获取10条数据，返回的并不是id值为51－60的数据，而是100-91的数据。简单说就是你没法从since_id逐步更新到用户当前status，而是得一口气从用户当前status更新到上次爬虫运行时得到的最后一条status。假设你的爬虫一个月才运行一次，该用户在这期间发了2300条微博，根据限制你只能更新2000条，这其中最老的300条在你的系统内就会出现“断档”。

最后一条，以上只针对公开的api，stackoverflow上twitter

API可以申请权限突破数量限制和更改排序机制，微博也应该有类似机制。

如何用python抓微博数据

用Python写爬虫爬取微博数据的思路如下：

1、用base64加密用户名之后仿造一个预登陆，用正则匹配得到各项参数。

2、用上一步里得到的参数，拼接密码明文，再用RSA加密得到密文，并构造POST的form data。

3、使用构造好的form data仿造登录请求

4、用正则匹配获得跳转的目标链接。

5、为了保持登陆，用cookiejar一类的工具绑定一个cookie就行了。

推荐学习《Python教程》。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/199564.html

python爬取用户微博id号,python爬微博数据

本文目录一览：

如何通过python调用新浪微博的API来爬取数据

怎样用python爬新浪微博大V所有数据

如何用python抓微博数据

相关推荐

发表回复