前两天收到雅虎邮箱的一封邮件,大意是说,嘿,老伙计,你已经用我们邮件9年了,怎么还在用9年前的界面呢,我们给你换个新的吧。于是一时手滑,看了看新的主题,结果发现没法切换回老的界面了。有时候过去的事就像这样,不经意间就找不回来了。
换就换吧,干脆来得更彻底些,于是把博客的模版也一并更换了一个。不过怎么说呢,现在的这个模版还是多多少少有些怀旧的意味在里面的。:-)
再次神经短路,突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。
当然里面会有很多无意义的字的组合,不过这类“词语”本身的出现就是一个偶然,所以可以预期的是它们整体的频数会很低,是入不了“大雅之堂”的。话不多说,直接上代码和结果。