解名缰 鸟倦飞

三十而立Flag

2020 年 07 月 19 日 | 分类于 生活

以前曾经试想过,第一个三字头的生日会是怎么过的。今天终于有了答案,幸好,没什么仪式感,甚至有些仓促狼狈。

白天一大早就跑去做了个核酸测试,以备不时之需。在核对身份信息时要报一下生日,说完月份和天数,在年份那儿恍惚了零点几秒钟,一时没理清楚是该写今年还是出生年份。随后才意识到是因为一般填日期就两种可能,当天或者生日。今天凑巧前面的日期是一样的,所以产生了联想混乱。

白天剩下的时间基本都在整理准备打包的行李。这不整理还好,一整理房间就成了磁盘空间不足的灾难现场:从房间的一头到另一头需要经过旋转、躲避、跳跃等多个高难度连续动作。打包行李的过程就是个大规模有约束的组合优化问题,同时还要考察每样东西的运输成本和边际效用,最后得出的结论是送掉90%的衣服,然后保留90%跟砖头一样重的书。大部分的书没法扔掉的原因是几乎没有替代品,比如朋友送的,比如自己做的笔记。如果说今天一定得有些什么仪式感,那其中之一就是挑一些能带走的东西,让以后还能从这堆行李中还原出一段历史来。

阅读全文→

B站1000多集的柯南,该怎么追?

2020 年 05 月 08 日 | 分类于 生活R

在当前这个人均B站大会员的时代,上B站刷弹幕已经成了很多90后中老年前浪们日常的消遣娱乐生活。前不久B站买下了《名侦探柯南》的版权,一次性更新到了1031集(实际上暂缺942到993集,所以实际上更新了979集)。现在问题来了,1000多集的《柯南》肯定没法一集一集地看,那么应该如何科学摸鱼规划时间,做到劳逸结合呢?显然,下图给出的建议肯定是不可取的。弹幕里这些一口气肝1031集的同学,你们真的是认真的吗?

Conan danmu

其实既然是在B站,那么必不可少的一项体验就是跟着弹幕一起吐槽越来越飘逸的剧情,比如为什么柯南越来越明目张胆,连麻醉枪都不用就开始推理了,比如为什么过了一千多集小兰还是命案现场第一个发出惊呼的人。既然很多剧情已经看过了,那么现在重新追剧的动力似乎就变成了弹幕主打、剧情辅助的观影模式了。于是我有了一个大胆的想法,能不能直接找出弹幕最多的那些剧集,以此作为观影指南呢?

阅读全文→

自搭评论系统

2020 年 04 月 27 日 | 分类于 Blog学习中

在家宅久了很容易滋生拖延症,具体表现就是明明还有很多活堆着,但就是不想动手去做,导致最后浪费了很多时间在发呆上。最近一篇论文审稿快要到期,但审稿意见死活写不出来,于是昨天终于弃疗,索性给自己放个假,做点以前想做但没精力去折腾的事,其中之一就是试着搭一个能自己管理的博客评论系统。

在最早用 WordPress 写博客的时候,评论是直接整合进数据库的,不需要特别操心。后来改用静态博客,省掉了管理服务器的烦恼,但评论就成了一个麻烦。从那以来长时间用的是 Disqus 评论系统,虽说一直是免费服务,拿别人手短,但不得不说 Disqus 想力推的“社交元素”可能是这个博客最不需要的东西了。用 Disqus 总有一种“长恨此身非我有”的感觉:评论数据都是 Disqus 掌握,而且没法轻易导入导出,这对数据管理有执念的人来说是很难受的一点。

后来在网上看到了一个开源项目 Isso,其目标就是替代 Disqus,利用它可以把评论系统架在自己的服务器上,方便数据备份和管理。这个系统是用 Python 写的,而且存储评论的数据库是 SQLite,非常轻便,不需要动用 MySQL+PHP 这样的大型武器,要备份数据只需要复制一下数据库文件就行。之前注意到这个项目大概是两年前 COS 转静态网页需要找评论解决方案的时候,但那时候 Isso 功能还不是很完善,所以没有采用。昨天再次看的时候感觉已经差不多了,至少在我自己小流量的博客上可以先来测试一下效果。

阅读全文→

MCMC 探秘(一)

2019 年 12 月 28 日 | 分类于 学习中

最近在看一些跟 MCMC 有关的研究,发现有很多东西是以前在学校里没有接触过的,所以想稍微整理一下,方便自己、也方便读者未来对 MCMC 进行更深入的了解。这里我先立个 Flag,计划写成一个系列,虽然以很大的可能最后会鸽掉。本文是这个系列的第一篇,将引入一个重要的概念,几何遍历性(Geometric ergodicity)。

MCMC 的内容非常广,我们先从一个典型的算法开始,即 Gibbs 抽样(Gibbs sampler)。我们的目的是从一个联合分布 \(p(x,y)\) 抽取 \(X\) 和 \(Y\) 的样本,但通常 \(p(x,y)\) 的形式比较复杂,很难直接抽样。但如果两个条件分布,\(p(x\vert y)\) 和 \(p(y\vert x)\),具有某些特殊的形式,使得从条件分布抽样很简单,那么 Gibbs 抽样就可以派上用场。我们任意指定一个初值 \(X_0\),然后进行下面的迭代:

  1. 抽样 \(Y_i\sim p(y\vert x=X_i)\)
  2. 抽样 \(X_{i+1}\sim p(x\vert y=Y_i)\)

那么在一定的条件下,\((X_i,Y_i)\) 的分布会随着迭代次数 \(i\) 的增大而逐渐逼近 \(p(x,y)\)。

阅读全文→

尬聊

2019 年 08 月 22 日 | 分类于 生活

今天机缘巧合下和一位刚认识不久的朋友约了个午饭,其间他说看过我的中文博客,于是我心血来潮上来一看,发现博客今天停更了整好两年。仔细想想这两年,其实发生了很多事,也有很多东西应该记录下来的,但最后都默默沉了下去,一半是这期间确实没时间没精力,而另一半则是刻意保持了某种沉默。其中细节暂且不提了。

但今天决定上来补一篇,是我发现最近跟一个动词一直扯上关系,就是标题所说,尬聊。我回顾读博的经历,发现有一项技能是我觉得非常必要但一直没学会的,就是跟陌生人尬聊的能力。如果说得更通俗一点,就是在一个相对陌生的场合跟周围的人打开第一个话题的能力。之所以想到这个,是因为今年在外面跑了好几个会,而在这些场合你都有一段时间被圈在一个封闭的空间里(比如餐桌、游船、报告厅等),然后你不得不跟周围的人产生一些互动。但我是属于那种没有特别明显的共同兴趣就聊不下去的人,所以简单的问候过后就突然失去了话题,而且更糟的是这个世界大概存在某种尬聊第一定律——你尬聊不下去的人,对你也有尬聊不下去的反作用。当你经历过几次尬聊之后,大脑就给你释放出一个保护讯号:与其尬聊不下去,不如压根就别聊了,所以最后的结果就是干脆也别打开话匣子,这样好歹免去了进一步的尴尬。

阅读全文→

为什么统计学家也应该学学TensorFlow

2017 年 08 月 22 日 | 分类于 学习中

(先啰嗦一句:本文的标题和内容牵涉到 TensorFlow,只是因为它是可用的工具之一,我相信很多其他的框架都可以做到文中我想要实现的功能。我自己并没有工具上的偏好,所以就当是拿 TensorFlow 举一个例子。)

对于学统计做统计的人来说,这可能是最好的时代,也可能是最坏的时代。好的地方我就不多说了,基本上关键词包括“大数据”、“数据科学”等,自行搜索可以列举出无数多激动人心的字眼。为什么会坏呢?因为统计的很多传统优势正在逐渐被众多机器学习算法取代,因此许多统计的核心元素,要么因为适应不了新形式的数据而被边缘化,要么因为在机器学习中有广泛应用而被有意无意地同化到了机器学习当中。

面对机器学习,或者进一步缩小范围,面对当前火热的深度学习,我陆陆续续找了一些做统计的老师和朋友聊过这个话题,发现有两类观点比较明显。第一类是深度学习“威胁论”,主要的意思是统计学被蚕食得非常严重,很多原来统计的阵地,不管是方法论上的还是现实案例中的,都被深度学习取代了。另一类是“否定论”,认为深度学习大部分是在炒作,在一些特定的行业(例如制药),传统统计依然处于核心地位,因此无需过于担心。

每次聊完之后我都会觉得“哇,对啊对啊,好有道理”,但转念一想总觉得哪里不对劲——为什么没有一种“学习论”呢?我觉得在很多情况下,人们对于新生的事物都有一种天然的抵触感,但如今面对深度学习的火热趋势,你可以支持它,也可以批判它,但惟一做不到的就是去忽视它。相反,当你试着去了解这些新的事物,你会发现它给你带来的好处可能要远远高于其坏处。

当然,这篇文章并不想过多讨论这类高层次的问题。之所以写这一篇,是想以一些自己的经历和体验来说明为什么我们应该去尝试了解和学习一些新生的事物。

阅读全文→

所有文章列表→