存档

文章标签 ‘爬虫’
6月
01

胡乱分析一下B站Up主们那些乱七八糟的东西

首先,这个题目,大概说明了。。。。。。我对博文要好好起题目这种事情已经完全放弃治疗了。

其次,如果你要觉得我会分析Up们的性格啊什么的,不好意思我真没这本事。。

再其次,没错,每次写博文正文之前我都喜欢乱扯废话。。。所以继续胡扯这篇博文出现的缘由,首先,最近一直在写python版本的B站的各种API(也就每晚看完番写上几行),然后突然觉得一个劲儿在写却不用来干点什么很没意思,看了一下那个又被放置Play了半个多月的VPS,决定用它抓点东西下来,反正有了自己封装的API了嘛,随手写了几行代码就扔上VPS去跑了;

当时扔上去的时候刚写完获取Up主们信息的那部分API,就让只抓了Up的信息下来。。。

抓下来后,碰上今天放假,实验室那群家伙回家的回家,消失的消失,基本没什么人剩下,要不是要给老板刻光碟我才懒得去。。下午无所事事就把这份数据拿来分析了一下;

说是分析,其实就是意识流地乱跑代码,想到哪写到哪,看有什么好玩的发生【实践表明:没有】。。 阅读全文…

5月
10

豆瓣爬虫杂记

手头上有一个便宜的VPS,一直没怎么用,除了用来跑程序和VPN外。然后最近觉得没什么程序在上面跑很对不起它,就没事找事地想让它去爬点东西,但是也没想到什么好爬的,就愉快地决定让它去爬一些豆瓣的信息;

初步计划先让它爬一下豆瓣的书的信息和豆瓣用户关注被关注的关系网;这里随便写一下爬虫的杂记,作为我最近的存在感。。。

豆瓣BOOK

豆瓣的书啊,电影啊,音乐啊那些条目有一点很讨厌,就是他们的URL的编排,都是这种形式的:

http://[type].douban.com/subject/[id]/

type可以是”book”,或者”music”或者”movie”;

但是id完全没有什么规律(大概没有吧),不仅仅是说你无法从id中判断出这个条目是书还是电影还是音乐;而且就算你要找书的URL,你也不知道这些id是服从什么规律的;比如id=10000可能是一本书,但是10001可能对应的type就变成了music,也有可能是404。。。 阅读全文…