这个月月初所办那边突然联系我,说不知道为什么我之前写的那个考勤软件导不出数据了,然后我去看了一下,因为所办那边电脑上就只有一个软件,不可能有开发环境调试,我就说有可能是数据库里面突然出现了什么奇怪的数据我程序里面没做检测导致到处失败吧,然后就跟他们要了最近10个月的所有数据,回自己电脑上调试一下就知道了;结果试了一下,考勤分析报告导出完全没问题。
不管怎么说,至少我拿到了所里所有学生的各种信息,还有去年九月至今的全部考勤数据,昨晚就决定动手玩一下这堆数据;
其实几个月前我就跟实验室的人说过了,考勤数据其实拿到手的话可以做很多很有意思的分析的,最简单的就是,分析哪个导师门下的学生出勤时间最多,给将来报考咱们所的无知少年们一份铁证来做忠告。。。 阅读全文…
首先,这个题目,大概说明了。。。。。。我对博文要好好起题目这种事情已经完全放弃治疗了。
其次,如果你要觉得我会分析Up们的性格啊什么的,不好意思我真没这本事。。
再其次,没错,每次写博文正文之前我都喜欢乱扯废话。。。所以继续胡扯这篇博文出现的缘由,首先,最近一直在写python版本的B站的各种API(也就每晚看完番写上几行),然后突然觉得一个劲儿在写却不用来干点什么很没意思,看了一下那个又被放置Play了半个多月的VPS,决定用它抓点东西下来,反正有了自己封装的API了嘛,随手写了几行代码就扔上VPS去跑了;
当时扔上去的时候刚写完获取Up主们信息的那部分API,就让只抓了Up的信息下来。。。
抓下来后,碰上今天放假,实验室那群家伙回家的回家,消失的消失,基本没什么人剩下,要不是要给老板刻光碟我才懒得去。。下午无所事事就把这份数据拿来分析了一下;
说是分析,其实就是意识流地乱跑代码,想到哪写到哪,看有什么好玩的发生【实践表明:没有】。。 阅读全文…
手头上有一个便宜的VPS,一直没怎么用,除了用来跑程序和VPN外。然后最近觉得没什么程序在上面跑很对不起它,就没事找事地想让它去爬点东西,但是也没想到什么好爬的,就愉快地决定让它去爬一些豆瓣的信息;
初步计划先让它爬一下豆瓣的书的信息和豆瓣用户关注被关注的关系网;这里随便写一下爬虫的杂记,作为我最近的存在感。。。
豆瓣BOOK
豆瓣的书啊,电影啊,音乐啊那些条目有一点很讨厌,就是他们的URL的编排,都是这种形式的:
http://[type].douban.com/subject/[id]/
type可以是”book”,或者”music”或者”movie”;
但是id完全没有什么规律(大概没有吧),不仅仅是说你无法从id中判断出这个条目是书还是电影还是音乐;而且就算你要找书的URL,你也不知道这些id是服从什么规律的;比如id=10000可能是一本书,但是10001可能对应的type就变成了music,也有可能是404。。。 阅读全文…
前阵子实验室某师弟(@小毛驴)从互联网上下载到了某名为RJ的全国大型连锁酒店的2KW条开房数据,在其强(bèi)烈(wǒ)要(suǒ)求(qǔ)下,我勉(xìng)为(gāo)其(cǎi)难(liè)地拿了这份数据。。。然后随(rèn)随(rèn)便(zhēn)便(zhēn)地剖析了一下。。。
其实因为数据量巨大,我很想用mathematica来直接分析,但是后来发现,一个文件300+M的大小,200W条数据,mathematica一读进来,不对,都还没读进来,就直接memory out了,然后机智的我想到先把数据分解,或者直接提取出我想要的那些条目,比如身份证号码啊,姓名啊,性别啊,地址啊,开房的年月日时分秒之类的,把这些保存成一个文件,显然这个文件没有那些乱七八糟的信息就会小很多。。。
但是——————首先你要有个可以读进来这些数据进行分解提取的方法。。。
显然的,这时候就是神器python的登场了,会python的同学就知道,python里面的读取文件用生成器简直无敌,你不需要将整个文件读进内存,处理到哪行就读取到哪行,保证内存使用一直恒定。。。读进每一行后,利用正则表达式提取出我想要的信息。。。 阅读全文…