主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭
共:💬52 🌺415 🌵5
你要从语言特征找出同一个人,起码要有大量的数据确定某些是同一个人,另一些不是同一个人。但是这个数据是不容易得到的。同一个人好说,同ID文本数据可以任意劈两半。但是对于不同一个人,就难说了。特别是你不知道多大比例是马甲发帖的时候。
另外
因为发帖类型不同,可能还得分类(Classification),当年我们作新闻时,分为八大主类、N个小类,比如政治新闻用语肯定与商业、体育等类完全不同(如何有效分类,则是另一个专业技术范畴,这里略过不谈)。
吃力不讨好。这个完全是浪费人力算力。只靠语言本身就够了。语言习惯才是变化中的不变量。
- 相关回复 上下关系8
压缩 2 层
🙂马甲只是表面现象 9 唐家山 字178 2024-04-15 20:26:08
🙂确实如此!即使原来不是,马甲用时间久了,也会趋向精神分裂的 凤城 字0 2024-04-15 23:01:22
🙂专业。 雨楼 字0 2024-04-15 14:36:49
🙂你这个方案,缺点在于训练标注不够
🙂不是只有监督学习才是机器学习 恩少 字63 2024-04-16 04:31:32
🙂没有标注,你聚几个类? 既然青春留不住 字90 2024-04-16 08:38:44
🙂还有一个可能,符合我的懒人做法 5 桥上 字102 2024-04-15 01:09:03
🙂完全有可能 1 凤城 字90 2024-04-15 13:57:48