解名缰 鸟倦飞

李斯与 GitHub

2017 年 04 月 26 日 | 分类于 生活

抱歉,我又标题党了。

我可以很负责任地说,李斯没有用过 GitHub。取这个标题,是因为昨天在 Hacker News 上看到一个歪果仁写的关于中国文字演变的系列文章(),觉得很有意思。其中第二篇里讲到秦始皇时期的统一文字,用了这样一个类比(因为暂时无法联系到作者授权,所以就不贴原文了,大意如下):

因为中国这个项目太大,所以每个诸侯国都从文字的总库进行了分流(Fork),导致文字库变得异常混乱。秦始皇下令说我们要有一个统一的主线,于是把这事交给了项目经理李斯丞相。李斯于是就开始处理各种合并请求(Pull request),负责各分支的合并(Merge)事项。

嘿,被他这么一说还挺像那么回事。

我一口气看完了这位歪果仁(很可能是一位发果仁)写的三篇文章,发现他的认识着实不简单,而且很多吐槽写得深得我心。比如第一篇写文字的诞生,一种推测是原始部族为了占卜的需要而有了甲骨文,然后他就吐槽说这个故事太不浪漫了,文字的诞生居然是基于官僚的目的。如果让他来设计一段历史,他会隐秘地希望文字的诞生是为了记录李白“水中捞月,醉酒溺亡”这个传说(当然这是野史)。

然后讲到汉字的构字法,他先列举了一些典型的形声构字(晴,清,睛),说这种造字法多么有逻辑,然后幸灾乐祸地说,呵呵,那是你们太天真了,所有的中文课本都会在第一课给你展示这些字,但随着你往后学,你会发现越来越多的特例,而学到最后你就会发现我去原来最初学的那些完美的构字才是特例啊。

最让我会心一笑的是第三篇中关于简体中文和繁体中文的对比。谈到简体使用者和繁体使用者之间的交流,他说中国大陆在学校只教简体,直到……卡拉OK被发明出来,那时中国学生可能每天要花一个小时来接受繁体中文的训练。我当时看到这段,心想我勒个去你一个歪果仁怎么这么懂这些梗啊……

阅读全文→

震惊!时隔两年八阿哥居然回来了!

2017 年 04 月 06 日 | 分类于 生活

不用看了,UC 震惊部已经不招人了。

这里也没有什么八阿哥,只有一堆 Bug。

事情是这样的,昨天收到了一封邮件,是 R Core 之一的 Martin Maechler 通过 R 的 Bug 汇报系统给我的回复。

R Bug

两年前在写一个 R 包的时候发现 R 的报警系统(R CMD check)误判了我写的几个函数,于是追根溯源发现是 R 的源代码中有个函数用错了,于是就发了一个 Bug 汇报。结果 R 开发者那边一直没有回音,拖到现在我都基本快忘掉这回事了,直到 Martin 不知道怎么就逛到了这个 Bug 然后给了一个隔空两年的对话。

阅读全文→

寂寞沙洲冷

2017 年 03 月 31 日 | 分类于 生活

前几周的时候放春假,跟几位小伙伴自驾出去玩。开车坐车的无聊时间自然是要放歌【插播一条段子,当某小伙伴对司机喊了声“放歌吧”的时候,我附和了句“但我不能放歌,悄悄是别离的笙箫”,然后全车人开始刹不住车背起诗来了……】,途中某个时候放了周传雄的《寂寞沙洲冷》。

我突然意识到,虽然我知道这句话是来自苏轼的一首词,但其实我对词的全文已经完全没印象了。之后突然又想起这事,于是就上网搜了搜。

缺月挂疏桐,漏断人初静。谁见幽人独往来,缥缈孤鸿影。

惊起却回头,有恨无人省。拣尽寒枝不肯栖,寂寞沙洲冷。

这首词的意境很容易让人想起元好问的《摸鱼儿·雁丘词》,都是以鸿雁的故事为旨,咏其心志之高。从故事的结尾来看,似乎还不如雁丘词之悲壮,然而令我感到惊奇的是,这首词相传还有一段序:

惠州有温都监女,颇有色。年十六,不肯嫁人。闻坡至,甚喜。每夜闻坡讽咏,则徘徊窗下,坡觉而推窗,则其女逾墙而去。坡从而物色之曰:“当呼王郎,与之子为姻。”未几,而坡过海,女遂卒,葬于沙滩侧。坡回惠,为赋此词。

此序的真实性尚有疑问,但如果真有这段往事,那么和这首《卜算子》合起来,顿时觉得其文字的重量多了好几分。苏轼啊苏轼,你到底是想写孤鸿,还是奇女,还是你自己呢?或许作为读者,多少都有一份私心,希望这个故事是真的吧。

但不管怎样,词人似乎都想要回答,或者可能已经回答了一个问题:雁冷沙洲,到底值是不值?温氏女郁郁而终,到底值是不值?自己不愿与世同流,到底值是不值?

有些事情可能永远无法衡量得失,只能说有选择便有代价,有些人付不起,有些人担得下,有些人赢生前事,有些人得身后名,仅此而已。

又及:写这篇博客的时候几乎立马定了这个标题,但立刻就发愁英文短链该怎么写,想着总不能直译吧。后来突然想起来在央视的一个节目《郎读者》里有一位许渊冲老先生,节目介绍说他翻译了许多唐诗宋词,于是抱着试一试的心态去网上搜了搜他的译作,其中果然有这首《卜算子》:

From a sparse plane tree hangs the waning moon

The water clock is still and hushed is man

Who sees a hermit pacing up and down alone?

Is it the shadow of a swan?

Startled, he turns his head

With a grief none behold

Looking all over, he won’t perch on branches dead

But on the lonely sandbank cold

绕了一大圈,结果回到了起点。

阅读全文→

现学现卖

2017 年 03 月 28 日 | 分类于 学习中

之前统计之都一直在酝酿一系列的网站改版,但因为种种原因中断了一些时间,直到最近才又把改版计划提上了日程。其中主站的部分由谢大牵头,目前已经召集了一支精锐部队大刀阔斧地在 Github 上开干了,而论坛的部分则是由我接盘,准备把当前有些老旧的 bbPress 系统迁移到 Flarum 上去。

俗话说得好,不写 SQL 的前端工程师不是好的 PHP 程序员。我前阵子决定接论坛的盘是因为上一次论坛搬家的时候费力研究过 bbPress 的数据库结构,所以在看过 Flarum 的后台后觉得这个可以有,然而实际开始搬的时候才发现掉进了天坑里,而这个锅主要得甩给反人类的 SQL。就这么说吧,假设所有的表都存成数据框(Data frame),在 R 里10分钟能搞定的活用 SQL 就非得耗掉你一小时,其中30分钟是在搜需要的函数,而这30分钟里面的25分钟是在确认并不存在我需要的那个函数。依我看如果科技公司要招数据库程序员,技术面试的问题都可以免了,直接给个论坛的数据带回家,一周之内成功转到另一个系统就算通过。这个考验的不是懂多少 SQL,而是考察这个人有没有足够的耐性写一千行枯燥的 SELECTUPDATE 而不至于暴走。

就在我天真地以为数据库导好后就万事大吉时,我才发现万里长征只迈出了第一脚。原因是当前的 Flarum 系统还不成熟,许多功能核心开发者还没有打算实现,比如我发现它的密码验证机制跟当前论坛的不一样,还有默认的编辑器不支持数学公式等。怎么办?没办法,只好参照官方文档的描述,给论坛写些扩展的插件了。可是论坛的后端是用最好的编程语言写的,还是基于什么高大上的 Laravel 框架,我一个平时用 R 做统计计算的,真的办不到啊。

所以最后能做的就是依葫芦画瓢,现学现卖了。找了几个官方出品的插件,模仿着它们的结构边查文档边改代码,最终也算是把程序都调通了。统计之都的 Github 上一堆 flarum 开头的项目都是这时期的产物。

阅读全文→

段子手苏东坡

2016 年 06 月 25 日 | 分类于 生活

晚上失眠,起来翻几页书来读,翻到苏轼的词选,结果这老家伙害得我更睡不着,活生生笑清醒了。此仇不报难解心中之痒,所以分享出来给诸君放毒。

事情是这样的,熙宁七年九月,苏老爷子,啊不对,当年他也才37,是个大叔,苏大叔路过湖州,当时的湖州知州叫李公择,正巧生了个儿子,第三天的时候宴请宾客,请苏大叔写首词助助兴。然后苏大叔就写了下面这首《减字木兰花》给他:

惟熊佳梦,释氏老君亲抱送。壮气横秋,未满三朝已食牛。

犀钱玉果,利市平分沾四座。多谢无功,此事如何着得侬?

前半阙其实还比较正常,是化用自杜甫的诗《徐卿二子歌》,里面有这么几句:“徐卿二子生绝奇,感应吉梦相追随。孔子释氏亲抱送,并是天上麒麟儿。大儿九龄色清澈,秋水为神玉为骨。小儿五岁气食牛,满堂宾客皆回头。”

但是,

苏大叔你怎么抄得这么不走心啊![扶额]

杜老爷子说人家小孩是孔子和佛祖抱着来的,到了你这儿倒好,变成了佛祖和老君抱来的,

不知道他们俩在一块会打起来啊?!

阅读全文→

标题党统计学

2016 年 06 月 08 日 | 分类于 学习中

如果你是被这个标题骗进来的,那么说明标题党的存在的确是有原因的。在网络高度发达(以及“大数据”泛滥)的今天,数据动不动就是以 GB 和 TB 的级别存储,然而相比之下,人类接受信息的速度却慢得可怕(参见大刘《乡村教师》)。试想一下,你一分钟能阅读多少文字?一千?五千?总之是在 KB 的量级。所以可以说,人们对文字的“下载速度”基本上就是 1~10KB/min。如果拿这个速度去上网的话你还能忍?

既然如此,每天网上有成千上万的新闻、报告、文章和八卦,怎么看得过来呢?没办法,只能先对正文进行一次粗略的筛选——看标题。俗话说得好,这是一个看脸的世界。于是乎,文章的作者为了吸引读者,就要取个足够博眼球的标题,而所谓标题党便是充分利用这种心理,用各种颇具创意的标题来吸引读者的注意。

好了,既然看官已经看到了这里,我就可以承认本文其实也是标题党了。这篇小文并不是要讨论标题党的前世今生,而是研究一个与此有关的统计问题:怎样的标题会更加吸引读者的关注?

这个问题有点太大了,所以我们缩小一下范围。既然是统计问题,就拿自家的一个例子下手吧:做统计学研究的,都得读各种各样的统计论文,那么论文的标题是否会对这篇文章的阅读量产生影响呢?巧的是,美国统计协会期刊(JASA)的网站上正好提供了该期刊旗下文章的下载访问量,所以我们可以以此做一个小分析,来研究一下标题与文章阅读量之间的关系。

可能有读者要问,为什么要使用文章的访问量,而不是引用率呢?这是因为 JASA 在其网站上说明,访问量数值是指从 JASA 官网下载的统计量,不包括从其他途径(比如购买的论文数据库)的来源。在 JASA 网站上,下载文章之前读者能获取到的主要是文章的标题和作者信息,所以访问量的主要驱动因素就是读者在阅读标题和作者之后产生的好奇感,从而减少了数据中的噪音。相反,引用一篇文章,通常是对文章有了充分理解之后产生的行为,这时候标题的作用可能就非常微弱了。总而言之,JASA 文章的下载量可以较好地代表读者在获取了文章的基本信息后对它感兴趣的程度。

JASA论文

阅读全文→

所有文章列表→