因为工作需要我经常会在百度贴吧里保存少量帖子的内容。假如直接将百度贴吧里帖子保存成网页,那么有太多不相关内容,比方使用户头像之类是我不需要的,我只对文本感兴趣。手动选中所有文本,ctrl C而后ctrl V到一个新建的文本文件里,这样效率太低了。于是就想着使用nodejs开发一个针对百度贴吧帖子的网络爬虫,可以够自动帮我把感兴趣的帖子内容保存成本地文件。
首先分析一下百度贴吧里帖子的结构。
http://tieba.baidu.com/p/2966931266
每个帖子都有一个独一无二的id作为标识,如下图的2966931266。
假如该百度贴吧的帖子比较长,一页显示不完,则点击贴吧底部的页码进入对应的帖子页面。
跳转的同时,可以观察到url尾部多了一个pn=2, 指示当前是这个百度贴吧帖子的第二页。
有时对于少量精华帖,很多朋友在里面水贴,但是我只对发帖者,即楼主的言论感兴趣,那么我能在地址栏里手动增加一个see_lz=1的片段,达到“只看楼主”的效果。回车之后,整个世界清静多了。
下面再分析每个帖子的html源代码结构。打开Chrome开发者工具,查看当前百度贴吧帖子的html源代码。能看到里面是很多html和脚本文件混合而成,当然我对这些诸如
响应式家具家居类网站织梦模板(自适应手机端)
HTML5响应式蓝白色通使用企业织梦模板(自适应支持手机端)
美容美发营销小程序 1.8.0添加过审配置 添加时间段预定人数限制
138WO微我网多消耗户微信营销平台最新商业版的,全新UI设计+微秀贺卡素材+完全破解可消耗
郑州公司注册_郑州代理商注册公司_郑州代理商记账公司-
织梦dede新闻网站源码
Niucms智慧生活门户V3.9.9全新界面商业版-新添加PC和WAP端多个功能+商家+物业+社区
响应式勘察设计院协会类网站建设织梦模板(自适应移动端)6972
亮剑】微信盒子 6.6完整商业版 含扩展组件 包升级X3.2微信插件
php企业站源码(yiicms)+模板+安装