← 返回首页
Python爬取微博文字与图片(不使用Cookie) – OmegaXYZ
无结果
菜单

Python爬取微博文字与图片(不使用Cookie)

首页 技术域 高级语言 Python Python爬取微博文字与图片(不使用Cookie)

网页版微博是纯正的HTML,而且调用的微博自家的API来获取图片。

网址:https://m.weibo.cn/api/container/即为微博api里面包含了个人的信息与微博文字与图片存储地址。

进入api页面我们可以很清晰的看到各种信息都用json存储起来了。我们再利用python中的json库提取出来即可。这比其它利用cookie模拟登陆要方便很多,我们只要输入被爬虫用户的微博ID然后运行便能自动爬取。

ID从这个复制链接里面可以看出来。

代码采用Python3

最终的效果图(爬取的微博txt文件):

爬取的微博图片:

以后下壁纸就很简单啦!!!

GUI程序:https://omegaxyz.com/2018/02/14/python_weibo_gui/

 

上一页 文章 Python刷访问量GUI程序
下一页 文章 python微博爬虫GUI程序

📂 分类目录

📂 分类目录 选择分类 English  (7) ideas  (42)    常识  (3)    程序人生  (26)    随笔  (16)    面试  (1) 技术域  (578)    APP开发  (18)    Web开发  (38)    其它  (14)    操作系统  (20)    数据库  (16)    数据结构  (51)    机器学习  (198)       深度学习  (39)       知识图谱  (25)       自然语言处理  (24)       计算机视觉  (11)       进化算法  (69)    汇编语言  (16)    组成原理与体系结构  (7)    编译原理  (13)    计算机图形学  (4)    计算机网络  (2)    软件工程  (29)    高级语言  (372)       C&C++  (131)       JAVA  (29)       JavaScript&Html  (23)       Matlab  (48)       Python  (150) 转载  (24)

29 评论

  1. ricky

    大佬 为什么运行源代码只能爬到一百八十多页?其他人有这样的问题吗?

    • xyjisaw

      年代久远,这个代码现在还能跑嘛?
      欢迎您push最新的代码到:https://github.com/xyjigsaw/Weibo-Crawler-GUI

      • seven

        能跑,但是很奇怪的跑到将近200页的时候输出的cards就会变成空值,但是将网站直接贴到浏览器上面又显示明明是有json值的

        • xyjisaw

          可能是微博的反爬机制,欢迎你调试并push最新的代码到https://github.com/xyjigsaw/Weibo-Crawler-GUI

      • rene

        还可以 但是只能前50页了,之后无限循环

  2. nora9377

    请问怎么保存为.csv?

  3. Sunny

    你好老師, 我是個初學者, 請問如果我想把下載的相片根據相片的發布日期命名排序, 我應該如何修改代碼?
    另外如果想同時下載視頻, 是不是難以實踐, 感謝

    • xyjisaw

      你好,你可以把他们的meta信息放到同一个tuple里面,然后排序。

  4. Biao Piao

    Nice!
    I copied the code!

  5. 我像个憨批,我ID拿错了

  6. C#爬取微博文字、图片、视频(不使用Cookie) – 喵技术

    […] 前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie)  […]

  7. wen Zeng

    找到了用户id,但是脚本函数get_userInfo返回{“ok”:0,”msg”:”\u8fd9\u91cc\u8fd8\u6ca1\u6709\u5185\u5bb9″,”data”:{“cards”:[]}}。但是使用浏览器打开却是正常的{“ok”:1…………(省略)。修改了User-Agent,也没好。请指导!

  8. wen Zeng

    你好,这个container和直接查看网页源码获取到的图片链接一样吗?有时间请楼主解答

  9. wen Zeng

    长见识了

  10. C#爬取微博文字、图片、视频(不使用Cookie) – Python量化投资

    […] 前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie)  […]

  11. v

    博主的方法是把客户端伪装成了浏览器,设置proxy和user agent,但是这样浏览器端必须登陆过微博才可以用,我理解的对吗?
    如果我想在一个app里面模拟,也要做这些操作了?
    麻烦作者回复一下,谢谢

    • xyjisaw

      不是这样的,这个我是直接调用微博的api,我设置proxy和useragent是为了反反爬虫,不需要登录微博,如果你想在app里面模拟,直接调用代码中的url的api即可。

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注

名称  *

邮箱  *

站点

添加评论 *

评论将在机器人审核后公开,我接受OmegaXYZ的隐私政策*。

发表评论

Δ

图灵技术域微信公众号