存档

文章标签 ‘统计’
1月
15

以前某道“选配偶”概率题的一点延拓

W0201106223295017765522先说离题的废话,就是我为什么会突然想到这个东西,因为。。。昨晚在实验室写论文的时候,突然想喝咖啡了,而且想要重口一点!于是,一杯水我加了两条速溶咖啡,于是乎。。。。。。。。。。结果就是。。。。。。。我虽然“相对较早”的上了床,可是尼玛睡不着啊!!睡不着干嘛,然后不知道为什么胡思乱想就想到了这道题了。。。真的。。。相信我。。。然后今天跟老板汇报了一下回家日期,顿觉轻松,于是就把昨晚想的实现了一下。。。整理成此文,以慰我失眠的一夜。。。 阅读全文…

分类: 数学 标签: , ,
10月
27

随机数重复长度の研究

前言:过了那么久。。。我终于发现。。。我的数学真的快不行了。。。

好吧,事情是这样子的,突然一个基友(@白菜)问了我一个问题,他用matlab产生了一组随机数,规模很大,但是程序按照他的预期,应该是不希望出现重复的随机数,然后问我大概一般多长会出现重复。

然后我一看,额,这尼玛不是一道概率题么。。

然后就算了一下:

虽然那个基友程序跑的是0~1之间的随机数,但是不要紧,我们可以用整数来模拟:假设随机数的生成是1~N之间的一个均匀分布;

那么第一个数就出现重复的概率是:0

第二个数就出现重复的概率是:\(\dfrac{1}{N}\)

第三个数才出现重复的概率是:\(\dfrac{N-1}{N}\times\dfrac{2}{N}\)

第四个的话就是:\(\dfrac{N-1}{N}\times\dfrac{N-2}{N}\times\dfrac{3}{N}\)

第k个数就出现重复的概率自然就是:\(\dfrac{N-1}{N}\times\dfrac{N-2}{N}\times…\times\dfrac{N-k+2}{N}\times\dfrac{k-1}{N}\)

其中k最大只能取到N+1,然后把上面最后的表达式化简一下就是: 阅读全文…

分类: 数学 标签: , ,
10月
26

某全国大型连锁酒店数据简析。。。

前阵子实验室某师弟(@小毛驴)从互联网上下载到了某名为RJ的全国大型连锁酒店的2KW条开房数据,在其强(bèi)烈(wǒ)要(suǒ)求(qǔ)下,我勉(xìng)为(gāo)其(cǎi)难(liè)地拿了这份数据。。。然后随(rèn)随(rèn)便(zhēn)便(zhēn)地剖析了一下。。。

其实因为数据量巨大,我很想用mathematica来直接分析,但是后来发现,一个文件300+M的大小,200W条数据,mathematica一读进来,不对,都还没读进来,就直接memory out了,然后机智的我想到先把数据分解,或者直接提取出我想要的那些条目,比如身份证号码啊,姓名啊,性别啊,地址啊,开房的年月日时分秒之类的,把这些保存成一个文件,显然这个文件没有那些乱七八糟的信息就会小很多。。。

但是——————首先你要有个可以读进来这些数据进行分解提取的方法。。。

显然的,这时候就是神器python的登场了,会python的同学就知道,python里面的读取文件用生成器简直无敌,你不需要将整个文件读进内存,处理到哪行就读取到哪行,保证内存使用一直恒定。。。读进每一行后,利用正则表达式提取出我想要的信息。。。 阅读全文…

9月
19

【统计信号处理の信号检测与估计专题一】充分统计量

【专题前言】

额。。突然有想法搞这么个专题呢,首先,重中之重,我“被选”了这门课(虽然我也挺想学的),其次,早上老板跟我说我要好好学这门课,因为马上有个任务需要这门课的知识,再者,由于上课老师讲的过于纯数学,我在课堂上的集中力本身就是只有5左右,所以课上大部分听不懂外加走神,都是课后研究的,结果呢,网上这些讲解的资料大部分不是ppt就是paper,想象本科多好,要什么知识不懂,上网一搜,别人会用各种理解方式给你讲解,不再是课本那种公式派了,so,决定随着课堂进行,整理一下自己的见解和理解,方便将来瞄一下,也说不定可以拯救到和我之前一样迷途的骚年少女们~以上,前言!!


专题一:充分统计量
阅读全文…

分类: 数学 标签: ,