淘客熙熙

主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

共:💬52 🌺415 🌵5
分页树展主题 · 全看首页 上页
/ 4
下页 末页
      • 家园 非常有道理,这种方法很有局限性,但是也有一点用处

        这种方法只能用于估计发帖人所生活作息的时区:

        这一点还是比较准确的,虽然由于生活作息不同,可能产生误差,但是误差也就在几个(~2)小时之内.

        这次分析这些存疑ID有点说服力也是因为:

        1. 部分ID 自己宣称生活在国内,和分析出来的他们作息时区差10个小时以上,证实他们撒谎。;

        2. 所有我分析过的这些存疑ID不论何种人设,分析出来他们都生活在大概1-2时区内,集聚了。

      • 家园 单一指标确实没有多大参考意义,辨别需要多个维度一起作用

        菜根谭提出了两个维度

        1. 发帖时间的相关性分析

        2. 发帖人的人设、自称所在地的作息习惯,与发帖时间不符。

        增加一个维度后的研究,可靠性会大大增加。

        而那位匿名的小弟玩了个断章取义的把戏。

        我在东八区,东八区的人多了,我和几亿人作息时间差不多,即使在河里估计也有几百大陆河友,作息时间也差不多。按照那位匿名河友的逻辑,这几百人都是我的同党。

        通宝推:金银鑫,菜根谭,

        本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 不必多费心,明辨是非更重要

      如果能明辨是非,无须辨认马甲。

      如果不能明辨是非,更无意义。

      沉默的是大多数,绝大多数,在这个方向多努力。

      通宝推:翼德,
    • 匿名 你莫非真的是团委学工干部?完全没有学术训练的痕迹啊

      此帖显示你果然不具备普通理工科研究生的水平中,对你的职业估计在这个帖子里被完全印证了。虽然你可以请他人帮你分析数据,但是你完全缺乏正确理解这些结果的能力。你的职业习惯让双标已经深深植入你的骨髓,导致你完全不理解科学或者工程中的对照的概念。

      作为一个学术老兵,虽然我没有能力掌握爬取数据这些新技术,但起码我有解读数据的能力。我先按你的逻辑走一遍,推断一下荒谬之处,再给其他旁观者讲一下正确的思路。

      1. 你现有逻辑的延伸导致的悖论

      1.1 你首先是试图采取一个对照,假定你和达雅不是互为马甲,然后以你们相关系数较高来反证你和大胖子也不是互为马甲。但是这个逻辑如果成立,那就证明了这个所谓的时间指纹或者时间戳的方法根本无效,后续所有的分析都失去了基础。你可以删掉从第一个帖开始的所有数据分析了。

      1.2 所谓时间偏差的分析。你试图用发帖时间分布的时间差来代表ID所在时区。比如你捡取的国内网友比燕人早若干小时,而你捡取的美洲网友比他晚几个小时。然后在另一个帖子,你指出若干网友比燕人晚若干小时所以是马甲或者有什么特殊关系云云。但是如果延续你的逻辑,这些网友应该存在于美洲和英国之间,即大西洋正中。玩过大航海时代的网友,知道确实大西洋中有某些有人小岛。但是这个有点太匪夷所思了。

      我觉得 @假日归客 网友的分析这些共识没有出现在你的主贴里,即这些网友有着非体制内工作的假说更加符合他们发帖时间分布的现实。更广义的说,虽然这个时间差可能由时区差异和生活差异造成,但对这几个网友,用后者解释数据更可信。

      1.3 至于对所谓时间差异校正后的相关性,更是离谱。如果把你的两个帖子对着看,发现你怀疑的燕人马甲群,这个数据的分布范围很广。其中有些低于0.7,而你和燕人的这个指标反而高于0.7,也就是说,如果相信这个数字标准,你自己难道是燕人拿来捧哏的吗?而那些网友此数值最高的不过0.9,和假日归客相当。那西西河绝大多数网友都是燕人的马甲或者什么团伙。西西河已经不是铁手的,而是燕人的了。这怎么可能呢?

      所以可以看出你的脑子一团浆糊,完全不知道自己在说什么。如果是受过研究生,或好大学的做过本科毕业设计的大学生,都不能犯你这样的错误。

      2. 我给大家解释一下可能的背后逻辑。

      2.1 这个【讨论】受某网友启发,关于马甲的简单分析和讨论匿名网友的分析会比较依赖时间分辨率。一个极端情况,时间分辨率为24小时,那所有的人互相都是强相关,因为数据都是一个点1。随着分辨率逐渐提高,相关系数整体会下降。真正相关的ID下降较慢,而不真正相关的下降较快。所以存在某两个ID在较低分辨率下相关强,另一个较高分辨率下相关弱的情况。那个文中作者把所有分析放在同一个参数下,并且有公开承认马甲(高)和无关网友(低)的对照,才比较可信。即使在那样条件下,也只能说AB相关性高于CD,所以AB互为马甲概率高于CD,而不是给出绝对的判定。如原文中提及的青春、机会两网友相互或和燕人网友相关低于菜和胖。但菜和胖未必是互为马甲,也可能隔壁工位一起上班打卡的同志。

      2.2 和 2.3 可以放到一起说。对于一个分布,我们可以找分布中心,和分布形状来描述。如正态分布的均值和方差。但是对于真实生活数据解读,两者是不能随意分割去解释的。如前所述,分布中心的差别,可能是生活习惯和时差等多个因素造成,而分布形状也依赖于生活习惯,所以把这两个分开讲本身就缺乏客观理性,或者说缺乏物理意义。更何况楼主两个方向的解释都在事实面前遇到难于逾越的困难,却不知悔改,也是奇葩。属于张三锯掉脚,赵二穿上高跟鞋,都能跟李四差不多高,所以他们和李四一定有关系这种完全驴唇不对马嘴的栽赃。

      另外,还有一个数据的诚信问题。虽然分布中心和分布形状不能严格倒推原始数据,但看到在你第二个帖中,以燕人为参照,达雅的数据分布中心和分布形状和你数据的差别,都远大于你和大胖子的数据差别,却能在第一个帖中,和你的相关性与你和大胖子相关性非常接近。这是不符合现实数据规律的。这个需要能够读取数据的网友去验证。

      你急吼吼列出一些ID,生啦硬凑非要去和燕人网友扯上关系,还不断找 @铁手 告状,在我们旁观的人看来,就是你和同伙多次吵架吵不过人家,被全方位压制,所以才要把一群不同观点的人一起封为燕人马甲或者什么M16团体。准确的说,就是熊孩子心态。打架不过,希望有一个亲爹来帮自己摆平。和普通院系的政工干部去书记那里告状若干任课老师背习主席语录组团打瞌睡有什么区别?但是你这样的一个天天满嘴脏话骂街的ID,不要说 @铁手 ,就是多数网友也要爱惜羽毛和你保持距离。

      国内高校教师,若上课要面对聪慧的大学生,若科研要面对挑剔的审稿人,都不会犯你这里犯得这么多低级错误。只有那些团委、学工的人,只要会拍领导马屁,对学生甚至正牌老师都颐气指使惯了,才会为了箭头画靶子,处处双标而不自知。

      通宝推:onlookor,翼德,史料推理,河蟹,西安笨老虎,Swell,
      • 匿名 其实,即使楼主找老铁祭起IP大法也证明不了谁谁谁的马甲

        但菜和胖未必是互为马甲,也可能隔壁工位一起上班打卡的同志。

        这是一种情况;

        还有就是菜和胖同为室友,用一个Wi-Fi路由器。老铁查了IP都不会认为他们是马甲;

        等等等……还有其他各种情况,艾特老铁是没用的

      • 家园 我考虑承认是菜根谭的马甲

        我们气人宗,一向是看热闹不嫌事儿大滴。

      • 家园 学工干部评价太高了,何必匿名,你的数据分析部分实质很有道理

        你的数据说明部分挺有道理,匿名很没有必要。我已经被燕人一伙批评到连大学都没毕业了,您这个学工干部对我的评价太高了,受不起。要不你们统一下说法?

        大数据本来就是个观察而已,单维度信息本来就很难搞,只有suggestive的结果就不错了。

        你后续的数据分析建议我会仔细考虑下,感谢建议。

        我真正要证明的是这个帖子里:

        继续讨论与回复:他们完全可能在欧洲,但是他们宣称是在国内的!

        所谓的生活习惯不同是解释不了接近10个小时的作息偏差的。那些ID有相当部分是宣称生活与中国时区的。

        在这个帖子里:

        这几位河友宣称自己在国内或者台湾高雄的。这和他们活跃的时区不符合。

        这些被我屏蔽的IP相当部分都在撒谎。

        这个事情的起因在哪儿?

        是铁手开放送花名单,有些奇怪的事情被注意到:

        这个ID比较特殊

        铁手的新功能,看看给这个帖送花的是谁

        燕人给亚细亚的孤儿骂毛主席的帖子送花;

        开拓新思路,换个角度看个新数据,某自称只看内容送花的ID

        通宝推:凤城,
      • 家园 我的做法就是不理不睬

        上网写字就是一件浪费时间的事情。不是什么好事。这是前提。但是作为成年人,特别是海外的成年人,有时候使用一下汉语都不容易。而谈一些类似政治,军事的话题更难。朋友,家人哪怕聚会,谁没事说这个,显得很二啊。 所以有这么一个地方消遣消遣。 特别好的是这个地方还非常的小众,来的人不多。否则一顿瞎写,圈子就这么大,过两天被熟人认出来了不是很尴尬。

        我能理解大家观点不同,甚至有时候恶语相向。 有些人不用脏话,冷嘲热讽一下;有些人直接上傻X之类的语言。在我看来并无高低之分。后者多少让人感到不适,但也还好。

        我隔着屏幕都感觉尴尬的抠脚的就是一些所谓XX进驻了,拿钱发帖了,控制舆论了。年轻的时候觉得自己挺重要,自己挺牛逼,虽然现在想起来还隐隐有些尴尬,但毕竟还有借口,年轻嘛。 这么大岁数,自己几斤几两还不清楚? 你能随意发言的地方能有多重要?钱是那么好挣的,随便敲几个字就有钱拿? 谁有办法麻烦介绍个路子给我。

        我深恶痛绝的就是一帮ID追着另几个ID谩骂。不针对具体的帖子,具体的内容,就是看见了就骂,连信息交流都没有。你们骂的殖人,阉人起码可以转载几个英语的新闻,我看他就知道有这么个新闻,不看他可能还得自己少。你们除了骂他,连转载个新闻,哪怕国内新闻的能力都没有。你们骂的汉奸起码写东西前后通顺,图文并貌。辛辛苦苦我估计怎么也得写个个吧小时,你们上来20多个字还加上一堆脏话。不喜欢别看就是了。难道你在生活中也是某太子党,出门看什么不顺眼直接骂就完了?

        我一般看见了就躲,不让你那几十个字浪费我5秒钟。但是确实这种东西越来越多了。过去是饭里有沙子,现在是沙子里有饭。希望不要未来变成河水里面淘金矿。

        通宝推:onlookor,为什么不可以,卡路里,翼德,史料推理,本嘉明,广宽,
        • 家园 既然装理中客就不要拉偏架嘛

          殖人固然不好听,也就是个政治标签,类似你为之辩护的那几个ID经常使用的小红粉,五毛,颂圣党.....还有你为了理中客装得逼真用XX代替的名词,有啥区别?

          “阉人“算是是骂人了,但有几个ID我只记得的翼地,西安笨老虎这俩吧也总喜欢在对我投草时骂”这厮“,”那厮“什么的。我也一点不介意,只会好笑有话要说为什么不回帖辩,要投草时骂人,而且是经常性的,颇有泼妇在大街上追着屁股后面骂的那种架势(哈哈,我又骂人了)。

          你要拉偏架就拉,立场相近的人抱团取暖也正常,怀疑或者被人怀疑是五毛或CIA外围1450拿钱水军.....都正常。

          但装理中客拉偏架,装得过头了恶心人

          通宝推:心远地自偏,
          • 家园 你这是觉得我写的太抽象啊

            帮我加了一个注解。

            你大概写了200多个字吧。你说看你这200个字是不是浪费了看帖的人10几秒钟。

            我本来也没想装理中客。网站上素质低的数不胜数,沙子里面挑饭,这就是现状。立场是左是右有什么了不起?这又不是文革,难道还有那一派是天然正义那一派需要被批判?

            这个网站是有初衷的:弘扬中华文化,交流有趣有益。 你自己把你自己所有写的东西翻出来,那个对得起这四个字? 我看你倒是专门喜欢骂对得起这四个字的那几个ID。

            我也不想拉架。作为东北人,更喜欢打架。 当然这岁数早就打不动了,也不想打了。人蠢自有生活去教育,我不欠谁的,连教育自己孩子都是尽力而为,还教育什么网友?所以我觉得国内喜欢颂圣的/厉害的我的国的,国外喜欢说美帝无敌/民主万岁的,都是应该鼓励的,起码你挑不出毛病。因为知行合一啊。 但是反过来的就值得警惕了。有这么个交流的平台不易,且用且珍惜。

            我写的的确就是帮@燕人,@本嘉明,@拜登等一帮人助拳(没加上名字的勿怪)。他们写的很多东西,我也没仔细看。很多内容观点和过去的类似,就不耽误时间了。但是看着反胃的是一帮在下面留言的,几十个字,一堆脏话,让我有种“我怎么堕落到上这个档次的网站”的感觉。 最近又升级成什么抓马甲抓特务之类的。我看着都有点尴尬的不行:你是谁啊/这个破网站是谁啊,值得弄个特务来影响你。你不知道特务也是很忙的吗。

            通宝推:卡路里,
            • 家园 铁手同学每折腾一次,这个网站就下行一段

              我算是十几年里眼睁睁看着这个网站下行到目前这个状态的。前几年好像是污蔑某ID被盗号,然后人家干脆不来了。现在是水军来抓特务,更神。

              自从去年加入认可机制不让人发言,实际效果是助长了水军们的群体语言暴力。基本上上站就是看见那么十几个人的谩骂贴,没有任何营养。。。 搞笑的是铁老大好像又要有2024年的网站建设目标了。不知道还要继续下行到哪里。

              其实最后无非就是不来了,也无所谓的。

            • 家园 你有没有拉偏架,送花的宝推的那几个ID目光如炬 ,我说了不算

              他们的一致行动正好给对立面提供了各种猜测的依据。但只要你承认拉偏架不好就成。

              我认同你说哪几个ID是特务没有靠谱的依据,不过人家也就是猜测,也犯不着你动怒连写远超200字的雄文耽误大家的时间。

              互联网上没有人知道网线对端跟你对话的是人还是狗嘛,除非你有他们不是特务的确切证据。

              都是主观感受和猜测,你可以别人不可以,这不行。

              通宝推:绝望坡前,心远地自偏,
        • 家园 【讨论】普通人活到最后,也就是给自己一个答案

          所谓修行,就是无时无刻都训练着放松自己,最终要面对答案时比较平静,期待不必太高。

          如果给出的这个解释和定论,自己觉得还过得去,那就上对得起父母,下对得起后代,这辈子差不多可以了。至于横向比不比,各人丰俭随意。

          怕就怕老来后悔,深觉以前哪一步走岔了,怨天尤人放不下。头顶三尺有黑气,闻名方圆数百里;一入悔门深似海,拖人下水耍无赖。反正我不好了,凭什么你们还能好好过?

          物质不灭,戾气也不灭。人是很难渡过自己给自己设的坎的,因为随着外部的压力/内心的焦虑,这坎天天在增高。我们每个人都如此,所以要紧的是童子功,如果以前修为尚可,身体也好心理也好,还OK,那等到老来焦虑时,这坎原先比较低矮,再长也高不到哪里去,等高过喜马拉雅那天,我都嗝屁了。

          其实哪一步对,哪一步错,都是幻象泡影------当然唯物主义者不认这个理儿。

          通宝推:脑袋,翼德,Swell,
    • 匿名 动这么大阵仗,是不是有点高看燕人了?

      他有那么大能耐吗?能造成多大的破坏?感觉也就是写的食谱和电影可以看看,其它的基本没注意过。

      通宝推:翼德,
分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河