前情提要
上文采集b站动态视频数据一文发布后,有读者反馈到一个需求。
论文需要数据支撑,需要采集b站视频评论内容。
工具选择小白完成这个需求,依旧可以使用八爪鱼采集器来做。
计划步骤- 先找定位数据。浏览器打开一个需要采集的视频。
- 滚轮下拉页面查看。页面是否通用,有没有特殊的内容。(防止出现特殊情况,导致无法定位采集的数据。)该采集场景没有特殊情况。
- 直接新建一个任务。打开八爪鱼采集器,新建一个自定义任务。
- 复制刚刚打开的网址。将需要采集的视频链接粘贴进去。
注意,新建的任务,采集器里浏览器Cookie是空的,所以采集器里浏览器应该是游客状态。
如果想采集视频页评论需要登录状态,必须先登录一下账号,否则无法查看更多评论。
因为b站在视频页这里做了限制,游客身份无法获取数据。解决办法很简单,就是账号登录一下就可以了。
- 登录完,我们可以将页面下拉到评论区。可以正常展示评论数据。
- 接下来,我们先用八爪鱼采集器自带的自动识别网页。这个是自带的相对智能的一键采集功能。新手可以快速上手使用。
注意:先找一个评论数保证在100个以内的视频进行采集规则设置。
如果评论数过多,这个自动识别网页的流程会花很长时间才能跑完。
一旦点击自动识别网页,点击取消,它的取消响应也不是那么及时,难免心里会有负担。避免内耗,我们还是先找一个评论数少的视频做配置测试哈。
实操步骤我随便找了一个有几十个评论数的视频,进行操作。
直接复制网址到采集器中新建的自定义任务中。
直接点击保存设置
置入眼帘的这个界面,浏览器中是游客状态。
可以看到这里的头像框是蓝底白字的登录。
我们先点击这里登录进行登录操作。否则无法查看所有评论数据。
登录后,可以查看所有评论内容。