狼人和甜妈或许是两个人

在这个辞旧迎新的日子里,建立一个全新的“美国新闻”版,以确保所有对美国新闻感兴趣的ID,在尊重彼此的基础上都可以畅所欲言。

版主: alexwlt1024

版面规则
左也行,右也行,文明发帖就欢迎;粉也罢,黑也罢,互相尊重别谩骂。
Hof
论坛点评
论坛点评
Hof 的博客
帖子互动: 228
帖子: 2088
注册时间: 2022年 8月 15日 03:09

Re: 狼人和甜妈或许是两个人

帖子 Hof »

:lol:
Bravo! Exactly I would like to do if I got time ~ /thumbs up!

Great approach! That's really the users' level for mitbbs or bbs.mit.edu, i.e. their intelligence can never hide in their wordings, thoughts and actions.

Hereby some of your algorithms, e.g. 错词鉴别法 is very reasonable one!

Did your check the algorithms for 马甲 & 小圈子 at weiming.info? Maybe those can enhance your assumptions and conclude more findings.

BTW: Could you tell me what software r u using for this analysis?
TrumpFan 写了: 2023年 7月 25日 00:05 “或许”,因为证据不充分,只是一个初步判断。

我用Python把这两个id的所有发言和日期都下载导入到数据库。初看,发言风格差异大,但这看不出太多端倪,如果一个人要经营一个马甲,可以故意把语言风格弄的很不同。

我的依据主要是这三点:
1. 发帖时间。甜妈说她回国几个月,她4月2日-5月18日期间,没有发帖;从她前后发帖内容判断,她应该是在中国。

狼人4月份经常发帖,而且有时在中国的凌晨2点发帖。如果狼人是甜妈,很难想象一个带着娃的妈妈会在这个时段发帖。

图片


2. 男女之别的关键信息。我尝试用几个区分男女的关键词测试这两个Id是否靠近。比如“b”大部分男生不在乎,“傻x”挂嘴里,但女生会比较敏感。

甜妈明确禁止版面用带“x”的字眼,比如傻x,左x,右x之类的

图片

而狼人把x挂在嘴边,同时他如果当版主,表示“"我在网上查了一下。二x这个词约定俗成的意思是缺心眼。如果我是版主,不会对用这个词的ID封禁"

前面说了,一个人可以在养马甲的时候,可以故意说自己平时不说的词,把语言风格变得很不同。但是从甜妈对“美新版的执着来看,如果狼人是她,她应该不会允许让“x”成为一个版面政策。

图片


图片


3. 错词鉴别法。如果你打字的时候偶尔输出,那么下次输入法也有可能自动会把这个组合放到最前,对于一些无关紧要的词,我们经常将错就错。这些错词是一个人语言风格的独特标志,很多专业的文本鉴别方法之一就是错词鉴别。我试了几个,发现这两个id的错词重合度很低。比如狼人会把stillwandering叫“浪美”,不同日期叫过好几次,而甜妈就从来没有这么叫过。

图片

--------------------

下面是他们的发帖时段,供大家参考


图片
上次由 Hof 在 2023年 7月 27日 15:21 修改。
HBBH
著名点评
著名点评
帖子互动: 617
帖子: 4727
注册时间: 2022年 10月 28日 22:09

Re: 狼人和甜妈或许是两个人

帖子 HBBH »

据说缅甸的杀猪盘8个手机操盘,8个手机都是一个人设?
trieste
著名点评
著名点评
帖子互动: 175
帖子: 3611
注册时间: 2022年 8月 22日 05:59

Re: 狼人和甜妈或许是两个人

帖子 trieste »

HBBH 写了: 2023年 7月 25日 08:13 据说缅甸的杀猪盘8个手机操盘,8个手机都是一个人设?
难怪某人会登错ID。
HBBH
著名点评
著名点评
帖子互动: 617
帖子: 4727
注册时间: 2022年 10月 28日 22:09

Re: 狼人和甜妈或许是两个人

帖子 HBBH »

我发过一个贴, 说天马培训再上岗, 一个顶两, 看来回国的杀猪盘培训(也许不只是杀猪盘)还是很成功的。

这个TRUMPFAN 在天马暴露之前就发帖说 天马和狼人互为马甲, 参考 “剧情还可以这么发展.....”. 这种脑补只有 TRUMPFAN 和 狼人互为马甲才好理解。 TRUMPFAN 那红红的 MAGA 和 红红的满地红还是很配的。

viewtopic.php?t=242980
HBBH 写了: 2023年 7月 25日 08:13 据说缅甸的杀猪盘8个手机操盘,8个手机都是一个人设?
头像
YouHi
论坛元老
论坛元老
YouHi 的博客
帖子互动: 2475
帖子: 35229
注册时间: 2022年 7月 22日 22:36

Re: 狼人和甜妈或许是两个人

帖子 YouHi »

HBBH 写了: 2023年 7月 25日 09:35 我发过一个贴, 说天马培训再上岗, 一个顶两, 看来回国的杀猪盘培训(也许不只是杀猪盘)还是很成功的。

这个TRUMPFAN 在天马暴露之前就发帖说 天马和狼人互为马甲, 参考 “剧情还可以这么发展.....”. 这种脑补只有 TRUMPFAN 和 狼人互为马甲才好理解。 TRUMPFAN 那红红的 MAGA 和 红红的满地红还是很配的。

viewtopic.php?t=242980
这这这这是明白人。
著名网友名单
🇺🇸 NC CHINESE AMERICANS FOR TRUMP 🛩️
你也是Trump U毕业的吗???
HBBH
著名点评
著名点评
帖子互动: 617
帖子: 4727
注册时间: 2022年 10月 28日 22:09

Re: 狼人和甜妈或许是两个人

帖子 HBBH »

YouHi 你自称在机房工作, 把我那板斧的顶贴权限给加回来, 要不然我好帖不能顶。
YouHi 写了: 2023年 7月 25日 09:53 这这这这是明白人。
头像
YouHi
论坛元老
论坛元老
YouHi 的博客
帖子互动: 2475
帖子: 35229
注册时间: 2022年 7月 22日 22:36

Re: 狼人和甜妈或许是两个人

帖子 YouHi »

HBBH 写了: 2023年 7月 25日 10:29 YouHi 你自称在机房工作, 把我那板斧的顶贴权限给加回来, 要不然我好帖不能顶。
好的。
著名网友名单
🇺🇸 NC CHINESE AMERICANS FOR TRUMP 🛩️
你也是Trump U毕业的吗???
头像
TrumpFan(巨巨粉)楼主
知名作家
知名作家
帖子互动: 130
帖子: 1006
注册时间: 2023年 1月 3日 18:30

Re: 狼人和甜妈或许是两个人

帖子 TrumpFan(巨巨粉)楼主 »

shanghaibaba 写了: 2023年 7月 25日 00:47 有心人手里,这都不是事儿。
以前老军版抓马甲,都是从标点符号,“的”等虚词在所有文字中的占比等等。
虚词分析曾经很流行,但是现在forensic authorship attribution基本转向实词了,虚词仅仅是很次要的一个辅助。

原因有两点:1. 大部分人用虚词的方式其实差不多,个人痕迹并没有那么明显。比如你提到的“的”比重,你和甜妈的并没有统计意义上的显著性差异(我刚刚用python下载了你所有的发言,做了个Chi-squared test)
2. 就个人而言,虚词用法并不consistent,会因不同场合、不同时间而变化,并不具备持续的标志性

现在作者鉴定大部分都依赖具体内容、具体背景,个案分析,并没有一个标准化的流程,需要像侦探一样,根据个人特征制订分析方案

"Restricting our feature set to function words alone diminishes accuracy in each of our experiments by 5-10%.) The content features that prove to be most useful for gender discrimination are words related to technology (male) and words related to personal life or relationships (female)."
头像
TrumpFan(巨巨粉)楼主
知名作家
知名作家
帖子互动: 130
帖子: 1006
注册时间: 2023年 1月 3日 18:30

Re: 狼人和甜妈或许是两个人

帖子 TrumpFan(巨巨粉)楼主 »

Hof 写了: 2023年 7月 25日 03:20:lol:
Thank you for your message!

In terms of the tracking tool 马甲追踪 by 未名观察, it relied on "IP similarity" and "similar posting boards", which only proved useful before the old MITBBS underwent a system update to conceal users' IP addresses. Previously, it only hid the host ID but revealed the network ID. After the update, just the first number of the network ID was disclosed. Consequently, tracking user pseudonyms based on IP addresses became futile after this upgrade.

As mentioned before, traditional forensic linguistics placed considerable emphasis on computational techniques with the goal of crafting universally applicable tools. However, the outcomes were somewhat unconvincing because these digital methodologies didn't delve into the text's content and often overlooked the unique nuances each case presented. Currently, forensic linguistics leans towards adopting a mixed methods approach, evaluating on a case-by-case basis. The focus has shifted from focusing on the text exclusively to understanding its authors more deeply, incorporating larger context into their assessments.

My approach is a blend of both quantitative and qualitative strategies. For the quantitative part, I leverage Python, which houses the most extensive ecosystem—you'll find numerous libraries for data cleaning, statistics, and natural language processing.
x1 图片 x1 图片
回复

回到 “美国新闻(USA News)”