解名缰 鸟倦飞

MCMC 探秘(一)

2019 年 12 月 28 日 | 分类于 学习中

最近在看一些跟 MCMC 有关的研究,发现有很多东西是以前在学校里没有接触过的,所以想稍微整理一下,方便自己、也方便读者未来对 MCMC 进行更深入的了解。这里我先立个 Flag,计划写成一个系列,虽然以很大的可能最后会鸽掉。本文是这个系列的第一篇,将引入一个重要的概念,几何遍历性(Geometric ergodicity)。

MCMC 的内容非常广,我们先从一个典型的算法开始,即 Gibbs 抽样(Gibbs sampler)。我们的目的是从一个联合分布 $p(x,y)$ 抽取 $X$ 和 $Y$ 的样本,但通常 $p(x,y)$ 的形式比较复杂,很难直接抽样。但如果两个条件分布,$p(x\vert y)$ 和 $p(y\vert x)$,具有某些特殊的形式,使得从条件分布抽样很简单,那么 Gibbs 抽样就可以派上用场。我们任意指定一个初值 $X_0$,然后进行下面的迭代:

  1. 抽样 $Y_i\sim p(y\vert x=X_i)$
  2. 抽样 $X_{i+1}\sim p(x\vert y=Y_i)$

那么在一定的条件下,$(X_i,Y_i)$ 的分布会随着迭代次数 $i$ 的增大而逐渐逼近 $p(x,y)$。

阅读全文→

尬聊

2019 年 08 月 22 日 | 分类于 生活

今天机缘巧合下和一位刚认识不久的朋友约了个午饭,其间他说看过我的中文博客,于是我心血来潮上来一看,发现博客今天停更了整好两年。仔细想想这两年,其实发生了很多事,也有很多东西应该记录下来的,但最后都默默沉了下去,一半是这期间确实没时间没精力,而另一半则是刻意保持了某种沉默。其中细节暂且不提了。

但今天决定上来补一篇,是我发现最近跟一个动词一直扯上关系,就是标题所说,尬聊。我回顾读博的经历,发现有一项技能是我觉得非常必要但一直没学会的,就是跟陌生人尬聊的能力。如果说得更通俗一点,就是在一个相对陌生的场合跟周围的人打开第一个话题的能力。之所以想到这个,是因为今年在外面跑了好几个会,而在这些场合你都有一段时间被圈在一个封闭的空间里(比如餐桌、游船、报告厅等),然后你不得不跟周围的人产生一些互动。但我是属于那种没有特别明显的共同兴趣就聊不下去的人,所以简单的问候过后就突然失去了话题,而且更糟的是这个世界大概存在某种尬聊第一定律——你尬聊不下去的人,对你也有尬聊不下去的反作用。当你经历过几次尬聊之后,大脑就给你释放出一个保护讯号:与其尬聊不下去,不如压根就别聊了,所以最后的结果就是干脆也别打开话匣子,这样好歹免去了进一步的尴尬。

阅读全文→

为什么统计学家也应该学学TensorFlow

2017 年 08 月 22 日 | 分类于 学习中

(先啰嗦一句:本文的标题和内容牵涉到 TensorFlow,只是因为它是可用的工具之一,我相信很多其他的框架都可以做到文中我想要实现的功能。我自己并没有工具上的偏好,所以就当是拿 TensorFlow 举一个例子。)

对于学统计做统计的人来说,这可能是最好的时代,也可能是最坏的时代。好的地方我就不多说了,基本上关键词包括“大数据”、“数据科学”等,自行搜索可以列举出无数多激动人心的字眼。为什么会坏呢?因为统计的很多传统优势正在逐渐被众多机器学习算法取代,因此许多统计的核心元素,要么因为适应不了新形式的数据而被边缘化,要么因为在机器学习中有广泛应用而被有意无意地同化到了机器学习当中。

面对机器学习,或者进一步缩小范围,面对当前火热的深度学习,我陆陆续续找了一些做统计的老师和朋友聊过这个话题,发现有两类观点比较明显。第一类是深度学习“威胁论”,主要的意思是统计学被蚕食得非常严重,很多原来统计的阵地,不管是方法论上的还是现实案例中的,都被深度学习取代了。另一类是“否定论”,认为深度学习大部分是在炒作,在一些特定的行业(例如制药),传统统计依然处于核心地位,因此无需过于担心。

每次聊完之后我都会觉得“哇,对啊对啊,好有道理”,但转念一想总觉得哪里不对劲——为什么没有一种“学习论”呢?我觉得在很多情况下,人们对于新生的事物都有一种天然的抵触感,但如今面对深度学习的火热趋势,你可以支持它,也可以批判它,但惟一做不到的就是去忽视它。相反,当你试着去了解这些新的事物,你会发现它给你带来的好处可能要远远高于其坏处。

当然,这篇文章并不想过多讨论这类高层次的问题。之所以写这一篇,是想以一些自己的经历和体验来说明为什么我们应该去尝试了解和学习一些新生的事物。

阅读全文→

清白之年

2017 年 05 月 01 日 | 分类于 生活

朴树出新歌了。我并不属于那种“等了14年”的歌迷,只是遇到有才情的歌曲就会喜欢上。这次的新专辑主打的是《清白之年》,简单的歌词和旋律,但是有才情。

专辑在网易云上首发,只要15元,非常良心了。结果 APP 准备好后告诉我海外无法支付,真是想花也花不掉。Youtube 上听了试听版,下次回去一定把欠下的补上。

清白之年,每个人都有自己的解读。或许是清澈的面庞,与飘飘的白衣,又或许是江上之清风,与山间之白月。但无论如何,清白总是一张刚铺开的画布,留下无数种可能。

时间给一个人留下的可怕痕迹,就是从前他会想“我将得到什么”,而未来他会想“我还拥有什么”。进大学之前常常会幻想,将来的几年里会遇到哪些有趣的人,有趣的事,而现在十年过去,操心的事怎么就成了如何精打细算,把简历上的每一项指标兑换成找工作的筹码。清白之年里的一缕缕期许,不知如今往后可还找寻得到?

今年的主要目标就两个字,毕业。但是越接近这个目标,就会越发感到一种无力感。并不是说担心毕不了业,而是觉得自己有愧于从前的自己。害怕有一天,我渐渐停止各种不切实际的幻想,开始计算自己的极限所在,慢慢变得精明而无趣。我向来自认为是一个悲观的乐观主义者,记录下类似的这种文字,就是想时不时提醒自己,路可能越走越窄,但无论如何也要在画布中留下几处清白。

人随风飘荡

天各自一方

在风尘中遗忘的清白脸庞

此生多勉强

此身越重洋

轻描时光漫长

低唱语焉不详

阅读全文→

李斯与 GitHub

2017 年 04 月 26 日 | 分类于 生活

抱歉,我又标题党了。

我可以很负责任地说,李斯没有用过 GitHub。取这个标题,是因为昨天在 Hacker News 上看到一个歪果仁写的关于中国文字演变的系列文章(),觉得很有意思。其中第二篇里讲到秦始皇时期的统一文字,用了这样一个类比(因为暂时无法联系到作者授权,所以就不贴原文了,大意如下):

因为中国这个项目太大,所以每个诸侯国都从文字的总库进行了分流(Fork),导致文字库变得异常混乱。秦始皇下令说我们要有一个统一的主线,于是把这事交给了项目经理李斯丞相。李斯于是就开始处理各种合并请求(Pull request),负责各分支的合并(Merge)事项。

嘿,被他这么一说还挺像那么回事。

我一口气看完了这位歪果仁(很可能是一位发果仁)写的三篇文章,发现他的认识着实不简单,而且很多吐槽写得深得我心。比如第一篇写文字的诞生,一种推测是原始部族为了占卜的需要而有了甲骨文,然后他就吐槽说这个故事太不浪漫了,文字的诞生居然是基于官僚的目的。如果让他来设计一段历史,他会隐秘地希望文字的诞生是为了记录李白“水中捞月,醉酒溺亡”这个传说(当然这是野史)。

然后讲到汉字的构字法,他先列举了一些典型的形声构字(晴,清,睛),说这种造字法多么有逻辑,然后幸灾乐祸地说,呵呵,那是你们太天真了,所有的中文课本都会在第一课给你展示这些字,但随着你往后学,你会发现越来越多的特例,而学到最后你就会发现我去原来最初学的那些完美的构字才是特例啊。

最让我会心一笑的是第三篇中关于简体中文和繁体中文的对比。谈到简体使用者和繁体使用者之间的交流,他说中国大陆在学校只教简体,直到……卡拉OK被发明出来,那时中国学生可能每天要花一个小时来接受繁体中文的训练。我当时看到这段,心想我勒个去你一个歪果仁怎么这么懂这些梗啊……

阅读全文→

震惊!时隔两年八阿哥居然回来了!

2017 年 04 月 06 日 | 分类于 生活

不用看了,UC 震惊部已经不招人了。

这里也没有什么八阿哥,只有一堆 Bug。

事情是这样的,昨天收到了一封邮件,是 R Core 之一的 Martin Maechler 通过 R 的 Bug 汇报系统给我的回复。

R Bug

两年前在写一个 R 包的时候发现 R 的报警系统(R CMD check)误判了我写的几个函数,于是追根溯源发现是 R 的源代码中有个函数用错了,于是就发了一个 Bug 汇报。结果 R 开发者那边一直没有回音,拖到现在我都基本快忘掉这回事了,直到 Martin 不知道怎么就逛到了这个 Bug 然后给了一个隔空两年的对话。

阅读全文→

所有文章列表→