主题：【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭

你这个方案，缺点在于训练标注不够

你要从语言特征找出同一个人，起码要有大量的数据确定某些是同一个人，另一些不是同一个人。但是这个数据是不容易得到的。同一个人好说，同ID文本数据可以任意劈两半。但是对于不同一个人，就难说了。特别是你不知道多大比例是马甲发帖的时候。

另外

因为发帖类型不同，可能还得分类（Classification），当年我们作新闻时，分为八大主类、N个小类，比如政治新闻用语肯定与商业、体育等类完全不同（如何有效分类，则是另一个专业技术范畴，这里略过不谈）。

吃力不讨好。这个完全是浪费人力算力。只靠语言本身就够了。语言习惯才是变化中的不变量。

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友