一些澄清,致歉,和广告

事情的源起是果壳的这个帖子:http://www.guokr.com/post/74433。帖子中转载了我之前写的一篇博客,主要内容是对宋词进行了一些词频的统计,然后各位网友纷纷发挥了自己的创造力,利用这些高频词语来“写词”。看到大家热情这么高我当然非常高兴,因为这至少说明我做的一些东西是有意义的。我学的专业是统计和精算,平时会和各种类型的数据打交道,之前写那篇博文也是出于兴趣,想利用学到的专业知识来对一些实际的问题进行分析。

而我没有意料到的是大家对这件事的关注度会这么高,以至于果壳网把那篇帖子推到了首页,甚至还有一些朋友说希望能有进一步的采访等等,这都是我始料未及的。对此我觉得有必要对其中的一些细节进行解释,以避免不必要的误会。

首先,很多人肯定都会提到“自动作词机”,就比如拿生日、QQ、物理常数等套用里面的排序来“写词”。但我想说的是,这其实不是我的创意,也不是我写那篇博文的初衷。如果大家看过果壳的那篇帖子,就会发现大家开始“狂欢”是因为39楼“达芬奇的鸡蛋”的创意,而词频统计本身并没有任何特殊之处。事实上,大家可能听说过“文本挖掘”这个名词,它就是对文本数据进行分析,来得到有用的结论。文本挖掘是个很复杂的过程,牵涉到分词、词频统计、特征选择、聚类等等,如果大家对这一块内容有所了解的话,就会知道词频统计是一个很平凡的过程。

关于自动作词机,这其实也是一个很早就有的概念,甚至网上流传,刘慈欣老师在90年代就编写过类似的软件。而就宋词来说,也有相应的文章进行过讨论,比如《一种宋词自动生成的遗传算法及其机器实现》,感兴趣的朋友可以到http://wenku.baidu.com/view/bf7c8a00b52acfc789ebc9be.html进行浏览。

第二个大家可能觉得比较新鲜的地方是利用理科的知识来研究文学的内容。我需要说的是,这个其实也很常见,而且可以追溯到更久以前,一个典型的例子是李贤平老师的《<红楼梦>成书新说》,浏览的地址是http://www.docin.com/p-277121750.html。事实上,有很多学者都尝试过对《红楼梦》的词频进行分析,以试图找出前八十回和后四十回的差异。

第三点我需要说的是,可能有些朋友觉得我得到宋词的词频是一件技术含量很高的活儿,但从技术层面上来讲,我做的那些东西也并无任何高级之处(当然需要有一些编程经验)。我个人对R语言比较感兴趣,所以这些分析都是用R语言实现的。但对于其它的编程语言或统计软件,要实现的话都是有章可循的。果壳的帖子中25楼的朋友就给出了一个很好的解决方案。事实上,目前已经有不少专门进行文本挖掘的软件,比如R语言的rmmseg4j软件包等,如果有对技术感兴趣的朋友,可以参考这个帖子:http://cos.name/cn/topic/105321

所以上面说的这些东西中心思想是什么呢?意思就是说,无论是想法、研究还是技术,其实很早以前就有人做过了,太阳底下并无新鲜事,大家需要知道这背后的一些事实。

然后是标题的第二部分。今天有一些朋友发邮件或是给我博客留言,说希望能有一些采访,我把我的想法一并在这里说了吧。首先,真的非常感谢几位对这个话题的关注以及对我的肯定,我自己非常感激。但非常遗憾,我想我还不能接受。一方面是我之前说的,有几位朋友觉得是我弄出的自动写诗机,但实际上不是的,而且我自己也没有打算往这一方向去做。另一方面就是最近我的学业压力比较大,没有太多的精力投入在这些事情上。我这个博客的目的,是记录自己学习的过程,同时如果可能的话,希望我做的东西能引起大家对统计学和R语言的兴趣。至于其他的方面,可能并不是我考虑的初衷。

如果还有朋友仍然对这一话题有兴趣,那么请看下面的广告。

========================趁着还没到2012年插播一段广告========================

好了,我不想把这篇博文弄得和紧张兮兮的新闻发布会一样,而且我也还远没到那个层次。请大家抬头看一下我博客的域名:cos.name,这个域名是属于统计之都网站的。统计之都(Capital of Statistics)是一个由志愿者团队维护的非赢利网站,旨在推进国内统计学的发展和应用。我目前是统计之都的管理员之一,而在这个团队中还有很多厉害的牛人,比如网站的创始人谢益辉大师兄。更多的成员可以在网站的关于页面中找到,他们中的每一个都有自己擅长的领域,都是很棒的人。

之前大家普遍转载的是我个人博客中的《东风何处是人间》,但我其实对数据和结果都进行了一些修订,发在了统计之都网站上,文章的标题是《统计词话(一)》。在果壳的帖子里面有朋友对《全唐诗》的词频也感兴趣,而这部分也已经有网友做过了,就在《统计词话(一)》的评论中,那位网友的博客地址是http://yixf.name

统计之都中还有更多有意思的文章,比如对上帝他老人家的一些思考,以及yinyin网的社会网络分析等。《统计词话》在计划中还会有续篇,我会把我一些新的想法继续发在网站上。

总而言之,我相信真正有生命力也最值得关注的是统计学本身,而不仅仅是统计词频或者作诗这一个小的方面。

========================趁着还没到2012年插播一段广告========================

嗯,就这么多,最后还是要谢谢大家!

发表评论?

35 条评论。

  1. 猜测会有采访之类,果然。。。处理方式很好。赞!

  2. 意料之内的爆发啊~“小轩窗,正梳妆”……

  3. 给力了~最后还不忘给统计之都做广告,敬业之精神令人折服 :razz:

  4. 这广告做的……

  5. 路人甲很忙

    老兄也是煎蛋党?

  6. 期待统计词话续集

  7. 二十岁名动江湖,三十岁独步天下,四十岁一代宗师,五十岁独孤求败

    • 你怎么不说五十岁以后只能养一只大雕度日……= =//

      • 独孤求败是这么说的:

        “縱橫江湖三十餘載,殺盡仇寇奸人,敗盡英雄豪傑,天下更無抗手,無可奈何,惟隱居深谷,以鵰為友。嗚呼,生平求一敵手而不可得,誠寂寥難堪也。”

        这大概是神雕侠侣中最帅气的一段话了。

      • 凌厲剛猛,無堅不摧,弱冠前以之與河朔群雄爭鋒。「紫薇軟劍」三十歲前所用,誤傷義士不祥,悔恨無已,乃棄之深谷。重劍無鋒,大巧不工。四十歲前恃之橫行天下。四十歲後,不滯於物,草木竹石均可為劍。自此精修,漸進於無劍勝有劍之境。

  8. 统计学里还有更多文艺的东西 以后统计之都里应该多点这样的文章

  9. 略略的学过统计学,还有点感兴趣的 孩纸,不淡定的飘过。。。 :grin:

  10. 我是来观火的 :grin:

  11. 扫了这么些年地,终于见到一个活的网络红人了。。。。

  12. 邱怡轩:一些澄清,致歉,和广告 - pingback on 2011年12月9日 在 10:38
  13. 博主……可以求魏晋南北朝诗版本么……研究了一下代码 完全看不懂= =文科生苦逼脸看QAQ

  14. 这个跟Shannon的”The Series of Approximation of English"比如何?(Section 3 in "The Mathematical Theory of Communication" by Claude E. Shannon, 1948) 不过1948年Shannon还没有计算机,只好手工查随机数表来产生句子。

    • Amazing!Shannon在文章中提到的几种方法现在也一直在用,而且名字就叫N-gram模型,不过是它的逆过程——分词。当分词有多种可能的方案时,就用一阶或者二阶的Markov链计算每种方案的概率,然后选取其中最大的那个。目前还没见过利用这种方法来“写”句子的,有空我去尝试一下。不过我有一个疑问,就是当词语库很大的时候,转移概率矩阵会有很多0,这该怎么处理?

  15. Check this out: Claude Elwood Shannon (April 30, 1916 – February 24, 2001) was an American mathematician, electronic engineer, and cryptographer known as "the father of information theory". If you are interested in this direction of probability description of nature language, you may rediscover the whole wold of coding, data compression (and statistics).

    For transition matrix with tiny entries, thresholding and sparse matrix representation might help.

  16. 嗨,轩哥(我看有人叫你轩哥,便也如此称呼吧)。我是北京法制晚报的记者,负责热线和社区类的新闻。我是最近才从一个朋友那听到这件事儿的,又查了些网上的资料,觉得非常有意思。所以希望采访你一下。呃……我看了你写的这篇文章,也知道你其实并不大愿意接受,但说是采访其实也不过是聊聊天,说说自己的想法。另外,我也真的想和你们这个统计之都的网站建立一个联系,以后大家可以互相帮忙,你们有什么新的创意和想法都可以和我联系。我的电话是:13716159337,期待你的来电或是短信啊。灰常期待。

  17. 六亿九千八百六十万字古代文献资料汉字双字词频统计
    http://www.fanren8.com/read-htm-tid-29023.html

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Trackbacks and Pingbacks: