解名缰 鸟倦飞

一些澄清,致歉,和广告

2011 年 12 月 01 日 | 分类于 Blog生活

事情的源起是果壳的这个帖子:http://www.guokr.com/post/74433。帖子中转载了我之前写的一篇博客,主要内容是对宋词进行了一些词频的统计,然后各位网友纷纷发挥了自己的创造力,利用这些高频词语来“写词”。看到大家热情这么高我当然非常高兴,因为这至少说明我做的一些东西是有意义的。我学的专业是统计和精算,平时会和各种类型的数据打交道,之前写那篇博文也是出于兴趣,想利用学到的专业知识来对一些实际的问题进行分析。

而我没有意料到的是大家对这件事的关注度会这么高,以至于果壳网把那篇帖子推到了首页,甚至还有一些朋友说希望能有进一步的采访等等,这都是我始料未及的。对此我觉得有必要对其中的一些细节进行解释,以避免不必要的误会。

首先,很多人肯定都会提到“自动作词机”,就比如拿生日、QQ、物理常数等套用里面的排序来“写词”。但我想说的是,这其实不是我的创意,也不是我写那篇博文的初衷。如果大家看过果壳的那篇帖子,就会发现大家开始“狂欢”是因为39楼“达芬奇的鸡蛋”的创意,而词频统计本身并没有任何特殊之处。事实上,大家可能听说过“文本挖掘”这个名词,它就是对文本数据进行分析,来得到有用的结论。文本挖掘是个很复杂的过程,牵涉到分词、词频统计、特征选择、聚类等等,如果大家对这一块内容有所了解的话,就会知道词频统计是一个很平凡的过程。

关于自动作词机,这其实也是一个很早就有的概念,甚至网上流传,刘慈欣老师在90年代就编写过类似的软件。而就宋词来说,也有相应的文章进行过讨论,比如《一种宋词自动生成的遗传算法及其机器实现》,感兴趣的朋友可以到http://wenku.baidu.com/view/bf7c8a00b52acfc789ebc9be.html进行浏览。

第二个大家可能觉得比较新鲜的地方是利用理科的知识来研究文学的内容。我需要说的是,这个其实也很常见,而且可以追溯到更久以前,一个典型的例子是李贤平老师的《<红楼梦>成书新说》,浏览的地址是[http://www.docin.com/p-277121750.html](http://www.docin.com/p-277121750.html)。事实上,有很多学者都尝试过对《红楼梦》的词频进行分析,以试图找出前八十回和后四十回的差异。

第三点我需要说的是,可能有些朋友觉得我得到宋词的词频是一件技术含量很高的活儿,但从技术层面上来讲,我做的那些东西也并无任何高级之处(当然需要有一些编程经验)。我个人对R语言比较感兴趣,所以这些分析都是用R语言实现的。但对于其它的编程语言或统计软件,要实现的话都是有章可循的。果壳的帖子中25楼的朋友就给出了一个很好的解决方案。事实上,目前已经有不少专门进行文本挖掘的软件,比如R语言的rmmseg4j软件包等,如果有对技术感兴趣的朋友,可以参考这个帖子:http://cos.name/cn/topic/105321

所以上面说的这些东西中心思想是什么呢?意思就是说,无论是想法、研究还是技术,其实很早以前就有人做过了,太阳底下并无新鲜事,大家需要知道这背后的一些事实。

然后是标题的第二部分。今天有一些朋友发邮件或是给我博客留言,说希望能有一些采访,我把我的想法一并在这里说了吧。首先,真的非常感谢几位对这个话题的关注以及对我的肯定,我自己非常感激。但非常遗憾,我想我还不能接受。一方面是我之前说的,有几位朋友觉得是我弄出的自动写诗机,但实际上不是的,而且我自己也没有打算往这一方向去做。另一方面就是最近我的学业压力比较大,没有太多的精力投入在这些事情上。我这个博客的目的,是记录自己学习的过程,同时如果可能的话,希望我做的东西能引起大家对统计学和R语言的兴趣。至于其他的方面,可能并不是我考虑的初衷。

如果还有朋友仍然对这一话题有兴趣,那么请看下面的广告。

=======================趁着还没到2012年插播一段广告=======================

好了,我不想把这篇博文弄得和紧张兮兮的新闻发布会一样,而且我也还远没到那个层次。请大家抬头看一下我博客的域名:cos.name,这个域名是属于统计之都网站的。统计之都(Capital of Statistics)是一个由志愿者团队维护的非赢利网站,旨在推进国内统计学的发展和应用。我目前是统计之都的管理员之一,而在这个团队中还有很多厉害的牛人,比如网站的创始人谢益辉大师兄。更多的成员可以在网站的关于页面中找到,他们中的每一个都有自己擅长的领域,都是很棒的人。

之前大家普遍转载的是我个人博客中的《东风何处是人间》,但我其实对数据和结果都进行了一些修订,发在了统计之都网站上,文章的标题是《统计词话(一)》。在果壳的帖子里面有朋友对《全唐诗》的词频也感兴趣,而这部分也已经有网友做过了,就在《统计词话(一)》的评论中,那位网友的博客地址是http://yixf.name

统计之都中还有更多有意思的文章,比如对上帝他老人家的一些思考,以及yinyin网的社会网络分析等。《统计词话》在计划中还会有续篇,我会把我一些新的想法继续发在网站上。

总而言之,我相信真正有生命力也最值得关注的是统计学本身,而不仅仅是统计词频或者作诗这一个小的方面。

=======================趁着还没到2012年插播一段广告=======================

嗯,就这么多,最后还是要谢谢大家!