
Bravo! Exactly I would like to do if I got time ~ /thumbs up!
Great approach! That's really the users' level for mitbbs or bbs.mit.edu, i.e. their intelligence can never hide in their wordings, thoughts and actions.
Hereby some of your algorithms, e.g. 错词鉴别法 is very reasonable one!
Did your check the algorithms for 马甲 & 小圈子 at weiming.info? Maybe those can enhance your assumptions and conclude more findings.
BTW: Could you tell me what software r u using for this analysis?
TrumpFan 写了: 2023年 7月 25日 00:05 “或许”,因为证据不充分,只是一个初步判断。
我用Python把这两个id的所有发言和日期都下载导入到数据库。初看,发言风格差异大,但这看不出太多端倪,如果一个人要经营一个马甲,可以故意把语言风格弄的很不同。
我的依据主要是这三点:
1. 发帖时间。甜妈说她回国几个月,她4月2日-5月18日期间,没有发帖;从她前后发帖内容判断,她应该是在中国。
狼人4月份经常发帖,而且有时在中国的凌晨2点发帖。如果狼人是甜妈,很难想象一个带着娃的妈妈会在这个时段发帖。
2. 男女之别的关键信息。我尝试用几个区分男女的关键词测试这两个Id是否靠近。比如“b”大部分男生不在乎,“傻x”挂嘴里,但女生会比较敏感。
甜妈明确禁止版面用带“x”的字眼,比如傻x,左x,右x之类的
而狼人把x挂在嘴边,同时他如果当版主,表示“"我在网上查了一下。二x这个词约定俗成的意思是缺心眼。如果我是版主,不会对用这个词的ID封禁"
前面说了,一个人可以在养马甲的时候,可以故意说自己平时不说的词,把语言风格变得很不同。但是从甜妈对“美新版的执着来看,如果狼人是她,她应该不会允许让“x”成为一个版面政策。
3. 错词鉴别法。如果你打字的时候偶尔输出,那么下次输入法也有可能自动会把这个组合放到最前,对于一些无关紧要的词,我们经常将错就错。这些错词是一个人语言风格的独特标志,很多专业的文本鉴别方法之一就是错词鉴别。我试了几个,发现这两个id的错词重合度很低。比如狼人会把stillwandering叫“浪美”,不同日期叫过好几次,而甜妈就从来没有这么叫过。
--------------------
下面是他们的发帖时段,供大家参考
![]()