一个使用nodejs开发的百度贴吧爬虫

  • 时间:2018-07-10 23:27 作者:汪子熙SAP 来源:汪子熙SAP 阅读:388
  • 扫一扫,手机访问
摘要:因为工作需要我经常会在百度贴吧里保存少量帖子的内容。假如直接将百度贴吧里帖子保存成网页,那么有太多不相关内容,比方使用户头像之类是我不需要的,我只对文本感兴趣。手动选中所有文本,ctrl C而后ctrl V到一个新建的文本文件里,这样效率太低了。于是就想着使用nodejs开发一个针对百度贴吧帖子的网
一个使用nodejs开发的百度贴吧爬虫

因为工作需要我经常会在百度贴吧里保存少量帖子的内容。假如直接将百度贴吧里帖子保存成网页,那么有太多不相关内容,比方使用户头像之类是我不需要的,我只对文本感兴趣。手动选中所有文本,ctrl C而后ctrl V到一个新建的文本文件里,这样效率太低了。于是就想着使用nodejs开发一个针对百度贴吧帖子的网络爬虫,可以够自动帮我把感兴趣的帖子内容保存成本地文件。

一个使用nodejs开发的百度贴吧爬虫

首先分析一下百度贴吧里帖子的结构。

http://tieba.baidu.com/p/2966931266

每个帖子都有一个独一无二的id作为标识,如下图的2966931266。

一个使用nodejs开发的百度贴吧爬虫

假如该百度贴吧的帖子比较长,一页显示不完,则点击贴吧底部的页码进入对应的帖子页面。

一个使用nodejs开发的百度贴吧爬虫

跳转的同时,可以观察到url尾部多了一个pn=2, 指示当前是这个百度贴吧帖子的第二页。

一个使用nodejs开发的百度贴吧爬虫

有时对于少量精华帖,很多朋友在里面水贴,但是我只对发帖者,即楼主的言论感兴趣,那么我能在地址栏里手动增加一个see_lz=1的片段,达到“只看楼主”的效果。回车之后,整个世界清静多了。

一个使用nodejs开发的百度贴吧爬虫

下面再分析每个帖子的html源代码结构。打开Chrome开发者工具,查看当前百度贴吧帖子的html源代码。能看到里面是很多html和脚本文件混合而成,当然我对这些诸如

,
最新发布的资讯信息
【系统环境|windows】百度网盘如何加入群组(2021-03-01 21:29)
【系统环境|windows】Axios 取消重复请求(2020-11-08 07:00)
【系统环境|windows】熬了一晚上,小白用Python写了一个股票提示系统(2020-11-08 07:00)
【系统环境|windows】2020要想成为一名专业的web前台开发程序员,需要学习什么?(2020-11-08 06:35)
【系统环境|windows】前台面试每日 3+1 —— 第546天(2020-11-08 06:34)
【系统环境|windows】聊聊前台工程师的职业发展 (纯干货)(2020-11-08 06:34)
【系统环境|windows】浅谈OAuth 2.0基本原理(2020-11-08 06:34)
【系统环境|windows】程序员初入职场避坑指南(2020-11-08 06:34)
【系统环境|windows】python的绘图利器--海龟绘图turtle(2020-11-08 06:33)
【系统环境|windows】pyinstaller打包结果瘦身(2020-11-08 06:33)
血鸟云