主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol
基本上就是(S(n+1)-S(n))/t, 甚至可以就简化为S(n+1)-S(n),S(n)是在第n个月时的总积分。如果有历史数据,可以把每个月的增速算一个平均值,这样比较合适反映一个人的水平。如果有历史数据,用excel就可以实现。
不过我觉得用一个最高增速可能更好,因为很多ID在自己熟悉的领域可以爆发一次,但是过后往往就很少写主题贴了。
5 西西河通胀问题之研究
上一节提到鲜花的贬值问题,也就是,前期注册用户的声望是不是和后期注册用户的声望等价?早期的很好的文章可能也就是十来多几十朵花,后期发表的文章则动辄上百朵几百朵,连前些年很少见到的上千朵花的帖子现在也都出现了。这是否意味着近些年的文章就比前些年好呢,显然不是。我想随着人数的增多,河里鲜花的“贬值”应该是个不争的事实。就这个问题,我试图根据数据,来讨论一下西西河鲜花贬值的情况。
上面用词可能是不准确的,因为鲜花并不是货币,鲜花本身作为一个用户对文章作者的赞赏是没什么太多变化的,变化的是鲜花作为衡量帖子受欢迎程度的功能。这个功能的“贬值”,可能有河友数量的增加,河友对文章水平的要求严格程度的变化,河里通宝等政策变化等影响。究竟哪种影响是主导因素,我也做了一些简单的分析。
需要说明的是,以下的这些分析都基于一个可能不太正确的假设,即每个帖子(无论是主题帖还是回复帖),所得到的大部分花,都是在发表后的较短时间内得到的,(比如3个月)。针对绝大多数帖子,这个假设我还是有信心的,因为帖子的生命力,我们这些老网虫心里都有数。但是对于非常经典的帖子,可能会产生失真。另外西西河不像绝大多数论坛禁止挖坟,而是鼓励翻经典老帖的,甚至不知什么时候还推出了深挖河泥的小栏目(汗),给我的分析带来了更大的不确定性。
不管怎么说,先来看一下944名核心用户随西河历时间的得花情况:
其中横轴是时间,以月份为单位,但坐标标示的是年份,纵轴是944名用户在对应月份得花的数量。从上图来看,8年期间,月得花数毫无疑问是上涨的,特别是近一年月发帖量有所下降(见第2节)的情况下,得花数仍然攀上了新高。得花数上涨的原因是什么?
从直观上讲,帖子变多,自然得花的基数也会变大;用户越多,不仅发帖的人变多,看帖的人也会变多,给每个帖送花的人也会变多;此外,如果用户送花的意愿变得更强,改变了送花/阅读比,花也会变多。从下面的分析中,我认为,这三个方面基本是河里得花数随时间上涨的原因。
考虑到月发帖量在2010年7月以前和注册用户人数为线性关系,(见上一节图2),有:
所以,我调查了从开河到2010年7月,月得花数和注册用户人数平方的关系:
其中横坐标是当月的已注册人数的平方,纵轴是当月的得花数。可以看到,在2010年7月前,月得花数和注册人数的平方是线性关系 (p<2.0e-62,t-test)。也说明了从开河至2010年7月,送花/阅读比所代表的用户平均送花意愿基本保持了不变。
上面简单分析了得花数增长的原因,但得花数的增长并不一定意味着花的贬值。如果我可怜的经济学常识没有错误的话,有实体商品和产品所对应的货币增发不是通胀,所以文章数量的增加对得花数量增加的影响是完全正常的。因此花作为衡量文章水平的单位,随时间变化的贬值情况,和文章数量导致的得花增长是无关的。在这种想法的基础上,我调查了每个月的文章平均得花数随西河历时间的变化情况:
其中,横轴还是时间,以月份为单位,但坐标以年份来标记,纵轴是当月平均每篇文章的得花数量。蓝线是944名核心用户的平均月得花数和时间的关系,红线是我选取的27名参考用户的平均月得花数和时间的关系,后面详述。直线分别是蓝线和红线在2010年8月以前的回归线。
由图可见,从开河到2010年8月以前,每个月的文章平均得花的增长是线性的,(p<3.75e-51,t-test),斜率约为0.5,这意味着,从开河到2010年8月,得花的含金量和时间成反比,04年5月的帖子的3朵花,只相当于03年五月的帖子的2朵花,到10年5月,9朵花只相当于开河时的2朵花了。
考虑到河里水质的变化和核心用户的不断增加,我还选取了一些长期稳定发帖的河友,作为“文章水平恒定”的标准来对上面的结论加以验证。
为了确保“长期”,我引入了“活跃时期”的概念。很多老河友可能早已离开,或者个把月才能偶尔冒个泡;还有后期注册的一些活跃河友,比如忙总,因为跨越的时间较短,无法反映河里的许多政策和事件的影响;所以均不采用。我定义“活跃时期”为从第一次发表主题帖到最后一次发表主题帖的时间。以此筛选了活跃时间跨度在4年以上的河友,作为能够代表西西河鲜花贬值长期趋势的参照系。
此外,这些河友还需要较多、较稳定地发帖,以减少不同月份之间,因热点话题差异带来的误差。所谓较多,就是活跃期内,月发帖量均值超过100帖,所谓较稳定,就是在活跃期内,月发帖量标准差小于均值。这样的河友,我一共找到了27人,他们是:
注:第一、四列是id,第二、五列是月发帖均值,第三、六列是月发帖标准差。
从图中可以看到,这些河友的每月文章平均得花的趋势和944名核心用户基本一致,还是大概在314事件以后,曲线开始偏离平均水平上翘。受此影响,开河至2010年8月,斜率大约是0.6 (p<6.71e-31, t-test)。这种现象有两种可能的原因,其一是314以后的新增用户,文章平均水平有所下降,这又包括两种小情况,一种是原创文质量下降,另一种是无营养回复变多;其二是314以后的新增用户,有更多的“大牛崇拜”倾向,倾向给以这27名河友为代表的大小河牛们多送花。但可以确定的是,这期间文章平均得花的增长,主要是由用户人数的增加导致的。
在第4节中我们提到过,2010年7月以后,由于40000积分门槛的因素,注册人数的估计产生了失真,几乎没怎么增加;而无论是944名核心用户的平均得花情况,还是27名参考河友的平均得花情况,在2010年7月以后月发帖量减少的大背景下,都发生了跳升并一直延续到现在,这是很不正常的现象,说明其他因素产生了主导作用。
为此,我到老铁的家园博客查阅了2010年8月左右的公告,果然发现,河里的经验换通宝改革,正是在2010年8月实行的:铁手:【通报】不再记录经验,全以通宝为衡量。 。老铁在这个公告里提到:“不再使用经验值……其中一个原因是减小一些系统的负担……总的目的,是尽可能鼓励发好帖,尽可能鼓励多送花……”。
说实话,这项改革出台的时候,我是没怎么在意的,至少它并没有改变我的送花习惯。甚至直到做完了这项分析的现在,我仍然想不明白这项改革怎么就如此超额地完成了“鼓励多送花”的任务,因为在我印象里反而是有好多人哭穷说没有通宝送不起花了。但是事实就是这样,老铁的政策调整在鼓励多送花方面,起到了太好甚至过头的效果。以至于从此项政策颁布之日起,作为文章受欢迎程度的一个衡量,鲜花立即又贬值了近一倍,仅相当于开河时的不到八分之一。
或许因为政策实行时间尚短,改革后12个月的鲜花贬值趋势虽然也可以计算一个斜率 (~0.4),但是并不显著 (p>0.27,t-test)。关于27名参考河友在上个月(2011年7月)的平均得花突然跳至15左右,我分析主要原因是老铁喜得小铁的那篇帖子带动的,该列表中的其他河友可能在上个月发言较少。
综上,我们可以基本确定,2010年7月以前鲜花贬值的主要原因是用户人数的增加;2010年8月以后的鲜花贬值,主要受到通宝改革所导致的河友送花意愿显著增加的影响。
本帖一共被 3 帖 引用 (帖内工具实现)
当初送花消耗经验值,经验值要靠下河的有效时间来换,所以送花就比较慎重。
实行通宝本位制后,送花从概率上看,消耗的铢钱小于送花得宝,换而言之,这生意做得!这花就贬值了!
铁手改制以后,宝推的份量和改制前的送花差不多!肯做赔本生意啊!
花是05年初有的,当时是下河浏览20分钟,积累的经验值,才送得起一朵花,所以,很金贵。就因为太金贵了,后来,改为下河浏览10分钟的经验值,能送一朵花。但因为对浏览时间计时的算法,正常浏览一小时,也就够送3~4朵花。所以,05年以后的帖子,可以统计;05年以前帖子,所得的花都是后来翻河泥的,补送的,统计意义应该不很大。
通宝是06年才有的,开始和花也没什么兑换关系,送花、得花的时候有一定得宝的概论,通宝只能用来宝推帖子。
后来,因为河友数量和帖子量的增加,以及不少河友用程序挂在河里刷经验值等行为,给服务器带来的负担比较重。终于,老铁改革,2010年8月左右实行铢钱制,通宝、花、铢钱挂钩,1通宝=16铢、1花用1铢、发帖回帖用铢钱等,但送花得宝是赚钱的,不再受经验值的限制,可以大把送花了(开始半年多是完全不受限制的,现在应该是2小时只能送50花),所以,那以后送花就完全是另一回事情了,和前面不好比较。因此:
你这帖子给了大家一个前后得花的转换标准,但直觉来讲比例可能还要大,尤其是对一些受欢迎的河友来说,比如老萨,开始的帖子也就20、30朵花而已。
(BTW,积分换通宝是有个通报,但一直就没有真正兑现。后面,因为送花得宝本身一直是良性循环的,而且又陆续走了不少积分高的老河友,就没人关心这事情了)
在春节发红包(好像是4个,真抠)以后,我有一百二十多个通宝,然后很大手大脚的送花宝推,到中秋发红包的时候,就只剩下八十多个通宝了,少了三十多个呢!还好这次发了16个,够折腾一阵子了
新用户注册送通宝,不排除有人在没钱时注册马甲来砸花或者直接给主ID送通宝。
可以肯定的是花确实没以前值钱了,夸张点说,早期的花和现在的宝推差不多。
还是老河友在这个问题上有发言权。
不过这样一来,我的假设就有问题了:通宝改革前,月得花数和注册人数的平方成正比。
修正的假设可能是:把2010年通宝改革之前的时期分为两段,有花之后,维持原假设,有花之前,可能的因素是越老的帖子越不容易翻出来送花?这个可以讨论。
无论怎样,如果不考虑形成线性关系的原因,我所希望的是,至少我对鲜花含金量与时间成反比的估计仍然是有效的,这关系到后面一节的许多结论。
通宝的存在,以及兑换率问题,我倒没有考虑过,统一都是按照得花数来计算的,但是掉宝率和兑换率,肯定是比送花数更高的。其实这样是合理的,因为帖子总是在增加的,而且不仅送花、宝推需要花钱,发帖本身也花钱。这种慢慢通胀的趋势,对应河里日益增长的帖子数量,我觉得是可以的,如果搞紧缩的话,大家发帖和送花都变得不积极,经济就要下滑了。不知道老铁的掉宝率,过节送通宝等货币政策对西西河帖子经济的繁荣是不是一个灵敏的调控工具。或许为了鼓励原创和回好帖,应该让送花的掉宝率略高于送花花销,而被送花者的掉宝率,更高一些。
此外,直觉上觉得鲜花贬值更厉害,是对的,后面一节我也会说到,之所以没修正,是有其他的考虑,主要是1、各个板块的热闹程度不同,修正的太厉害,更是只剩下政经板块的帖子了,2不同声望的人也不同,同样水平的帖子,大牛发出来得花大概也会比较多。但是如果没有修正完全,得到的结果仍然会偏向后期的帖子以及河友,我后面的一些结论,就存在这些问题。
最后,积分换通宝是我笔误了,我的意思是,经验换通宝。我记得经验换通宝是兑现了的,某一天我的经验就没有了,然后大概多出了三十个通宝吧,再加上以前攒的,能有一百出头,现在数量还有所增加。
当年发帖数量暴增,第一波浪潮是因为争论窃明.
现在回想起来,有点好笑----大家吵来吵去,是因为一本小说,而且是一本架空小说.....
看来以后宝推一定要慎重,非好贴不宝推
6 西西河之最
本版有一篇置顶帖子,统计了2006年左右的西西河之最,那个时候鲜花还没怎么贬值,河友、帖子也都比现在少,夏翁河友统计了许多很有趣的结果,本节我来做一些很相似的事情。
在上一节分析的基础上,我把每个帖子的得花数按发帖时间进行标准化。采用如下的策略:以三个月为单位,认为每三个月鲜花数的贬值程度增加0.125(每年0.5)。即,2003年5-7月的文章得花数保持不变,8-10月除以1.125,11-1月除以1.25,……,2010年5-7月除以4.5,最后,通宝改革后的2010年8月至2011年7月的得花数除以8。经过标准化之后,每三个月的文章平均得花情况如下:
上图横轴是时间,以季度(三个月)为单位、标记年份,纵轴是对所有帖子的得花数按发帖时间标准化之后,对应月份的平均每篇文章得花的数量。可以看到,标准化后鲜花的贬值基本得到了控制,但8年下来,大约仍然贬值了0.5倍,其中,对于27名参考河友的效果略差一些,但也在1以内。所以,下面的统计结果,仍然将偏向后期的帖子以及河友。此外,第一季度平均得花数较多,推测是因为第一季度中开河河友们搬运的经典老帖比较多的因素。
之所以没有通过调整参数来使得标准化的结果更完美,是因为得花数作为评价文章水平的功能,本身就有着局限性,一篇文章的得花和文章的真实水平,也不是那么精确的关系,只是作为笼统的一种衡量,具有一定统计上的意义。
事实上,包括作者的声望、文章的题材、送花的从众心理、甚至偶然性在内,一篇文章得花多少的因素是十分复杂的。我们可以从统计角度说,100朵花的文章比10朵的要好,但是100朵和90朵,便不能这么比较。
再比如,我们都知道,西西河不同版块的人气也是不一样的,那么对不同板块的文章,单独拿得花相差十朵八朵来精确地比较哪篇好,是没有任何实际意义的。而且不同板块上不同种类的文章,也不是都具有可比性。所以,下面的结果,只能一般性地找出一些“更受欢迎”的文章,并不是说,这些文章一定比其他文章水平要高。
西西河得花最多的20篇帖子:
这便是西西河最受欢迎的一些帖子了,本来我只想选前10个,后来还是扩展到了20个。可以看到220朵“西河标准花”附近的帖子已经比较密集,类似数量级的帖子还会有很多,但是由于篇幅的原因,只列出了这些。
这些帖子受到了很广泛的认同,在很大程度上体现了西西河的主流价值观。我姑且僭越总结一番:
首先,西西河最欢迎既讲感情,又讲道理的帖子,特别是用道理来支持感情,使读者类似的却又表达不好的心境共鸣起来;
其次,如果没法做到情理并重,那么感情比道理重要;
第三,如果主要讲道理,那么重实例,重证据,重亲身经历,轻虚浮飘渺的理论;
第四,各行各业的知识来者不拒,也很重视能够带来知识的人;
第五,西西河是讲正直、正义和正气的,是推崇付出、奉献、奋斗、自强和其他各种优秀品德的,不是每个人都能做到,但是每个人都会敬重能够做到的人,不欢迎道德虚无主义;
第六,西西河对于民族独立和经济发展都有着坚定的基本态度和荣誉感,不欢迎历史虚无主义或国家虚无主义;
第七,要客观、平衡的观点,不要主观,极端的观点。
以上都是单贴得花数量,下面来看看西西河得花最多的20篇主题,其中发表时间是主题帖的发表时间,得花数是换算为标准花后、主题帖作者在本楼得花的总数,作者回帖是作者本人在此主题下回帖的个数:
这些主题实际上由两部分组成,一部分是超级高楼,基本在300帖以上,得花较多,都是优秀的超长篇连载或写在一个帖子下面的多个优秀主题,这样的高楼有9个。另一部分就是比较经典的单一主题连载,考虑到之前的9个超级高楼,我补充9个排名仅次于它们的单一主题连载(限制作者回帖数在100以下),如下:
这些都是十分经典的主题帖,但并不是全部。原因有二,其一,我简单使用“限制作者回帖数小于100”作为筛选“单一主题”的条件,这是根据上表的经验数字,可能会筛掉许多热心回帖的河友,比如有问必答的忙总就是一例,他几乎会回复每个回复贴,所以他的主题里自己的回帖很多;其二是有一些河友的习惯,以及有一段时间河里鼓励不要写太长的主题,因此不少经典的单一主题/系列实际上分布在不同的主题帖当中,而在首帖中以链接互相引用,目前的筛选方式也会漏掉这些主题。
说完了帖子和主题,再来说河友,再一次说明:之前标准化的方法只是一般性地消除了大部分通胀因素,并不是全部,也不很精确;并且得花的数量也不是评价河友的唯一标准。
注:原创率,跟帖在自己主题下的帖子占全部发帖的比例;原创得花率,鲜花在自己主题下帖子所得的比例;送花/回复比,送花数量(乐善)与回复数量(含回复自己的主题)的比例。上面几个表的花数都是西西河标准花数。
本帖一共被 3 帖 引用 (帖内工具实现)
看来我一起沉迷的板块太少了
经常是在公告上看到“某某出走”、“要求如何如何某某”,才知道又一场地震刚刚发生过
楼主列的几条,在楼主的贴实现了近乎完美的拟合度啊,你是不是根据自己的分析结果生成的帖子,数据和结论拟合的这么好!
尤其是第七条,简直客观的无以复加
还有第三条,有那个帖子“讲道理,那么重实例,重证据,重亲身经历,轻虚浮飘渺的理论”能超过这个贴
其次,如果没法做到情理并重,那么感情比道理重要;
第三,如果主要讲道理,那么重实例,重证据,重亲身经历,轻虚浮飘渺的理论;
第四,各行各业的知识来者不拒,也很重视能够带来知识的人;
第五,西西河是讲正直、正义和正气的,是推崇付出、奉献、奋斗、自强和其他各种优秀品德的,不是每个人都能做到,但是每个人都会敬重能够做到的人,不欢迎道德虚无主义;
第六,西西河对于民族独立和经济发展都有着坚定的基本态度和荣誉感,不欢迎历史虚无主义或国家虚无主义;
第七,要客观、平衡的观点,不要主观,极端的观点。
Asol太牛了,整理整理都可以当论文发了。
分析论坛一类里面,见过牛的,没见过你这么牛的。呵呵。