狼人游戏 & Social network Profiling

台海/港澳/印太区域重大事件和社会新闻,兼顾海外华人热门话题

版主: GiantHawkID

回复
Hof楼主
论坛点评
论坛点评
Hof 的博客
帖子: 2089
注册时间: 8月 15, 2022, 3:09 am

狼人游戏 & Social network Profiling

帖子 Hof楼主 »

The article by TrumpFan attached below, is for me the most valuable post since I stepped into this BBS. Hereby please @TrumpFan allow me to copy here in order to bring up further extensive and meaningful discussion with other intellectuals.

It is not just to identify whether the IDs/BMs of langrener1 and sweetsister are MaskMen to each other or not, more importantly, it is a up-to-date topic around the world, about people profiling at social media, propaganda/manipulation, and counter-strike measurements for normal people. In fact, I have been long thinking of this topic, incl. social network virtual build-up strategy & psychological tactics. Those topics & research works must be long on top of agenda at CIA's state security or at Elon Musk's now to-be-called X-Company. Besides, I am even thinking about if the so-called "Butterfly Effect" can be predicted.

Warning: Any nonsense off-topic/nonsense replies will be deleted.

---------------------------------------------------------------

狼人和甜妈或许是两个人


TrumpFan

ref. https://newmitbbs.com/viewtopic.php?t=245204
.
.
---------- viewtopic.php?p=1665669#p1665669 ----------
.
“或许”,因为证据不充分,只是一个初步判断。

我用Python把这两个id的所有发言和日期都下载导入到数据库。初看,发言风格差异大,但这看不出太多端倪,如果一个人要经营一个马甲,可以故意把语言风格弄的很不同。

我的依据主要是这三点:
1. 发帖时间。甜妈说她回国几个月,她4月2日-5月18日期间,没有发帖;从她前后发帖内容判断,她应该是在中国。

狼人4月份经常发帖,而且有时在中国的凌晨2点发帖。如果狼人是甜妈,很难想象一个带着娃的妈妈会在这个时段发帖。

图片


2. 男女之别的关键信息。我尝试用几个区分男女的关键词测试这两个Id是否靠近。比如“b”大部分男生不在乎,“傻x”挂嘴里,但女生会比较敏感。

甜妈明确禁止版面用带“x”的字眼,比如傻x,左x,右x之类的

图片

而狼人把x挂在嘴边,同时他如果当版主,表示“"我在网上查了一下。二x这个词约定俗成的意思是缺心眼。如果我是版主,不会对用这个词的ID封禁"

前面说了,一个人可以在养马甲的时候,可以故意说自己平时不说的词,把语言风格变得很不同。但是从甜妈对“美新版的执着来看,如果狼人是她,她应该不会允许让“x”成为一个版面政策。

图片


图片


3. 错词鉴别法。如果你打字的时候偶尔输出,那么下次输入法也有可能自动会把这个组合放到最前,对于一些无关紧要的词,我们经常将错就错。这些错词是一个人语言风格的独特标志,很多专业的文本鉴别方法之一就是错词鉴别。我试了几个,发现这两个id的错词重合度很低。比如狼人会把stillwandering叫“浪美”,不同日期叫过好几次,而甜妈就从来没有这么叫过。

图片

--------------------

下面是他们的发帖时段,供大家参考


图片

---------- viewtopic.php?p=1669204#p1669204 --------
.
虚词分析曾经很流行,但是现在forensic authorship attribution基本转向实词了,虚词仅仅是很次要的一个辅助。

原因有两点:1. 大部分人用虚词的方式其实差不多,个人痕迹并没有那么明显。比如你提到的“的”比重,你和甜妈的并没有统计意义上的显著性差异(我刚刚用python下载了你所有的发言,做了个Chi-squared test)
2. 就个人而言,虚词用法并不consistent,会因不同场合、不同时间而变化,并不具备持续的标志性

现在作者鉴定大部分都依赖具体内容、具体背景,个案分析,并没有一个标准化的流程,需要像侦探一样,根据个人特征制订分析方案

"Restricting our feature set to function words alone diminishes accuracy in each of our experiments by 5-10%.) The content features that prove to be most useful for gender discrimination are words related to technology (male) and words related to personal life or relationships (female)."

---------- viewtopic.php?p=1682207#p1682207 ---------
.
In terms of the tracking tool 马甲追踪 by 未名观察, it relied on "IP similarity" and "similar posting boards", which only proved useful before the old MITBBS underwent a system update to conceal users' IP addresses. Previously, it only hid the host ID but revealed the network ID. After the update, just the first number of the network ID was disclosed. Consequently, tracking user pseudonyms based on IP addresses became futile after this upgrade.

As mentioned before, traditional forensic linguistics placed considerable emphasis on computational techniques with the goal of crafting universally applicable tools. However, the outcomes were somewhat unconvincing because these digital methodologies didn't delve into the text's content and often overlooked the unique nuances each case presented. Currently, forensic linguistics leans towards adopting a mixed methods approach, evaluating on a case-by-case basis. The focus has shifted from focusing on the text exclusively to understanding its authors more deeply, incorporating larger context into their assessments.

My approach is a blend of both quantitative and qualitative strategies. For the quantitative part, I leverage Python, which houses the most extensive ecosystem—you'll find numerous libraries for data cleaning, statistics, and natural language processing.
I would recommend all to write in English, in order to make it a bit difficult for MaskMan to manipulate this community.
Hof楼主
论坛点评
论坛点评
Hof 的博客
帖子: 2089
注册时间: 8月 15, 2022, 3:09 am

Re: Social network profiling & 狼人游戏

帖子 Hof楼主 »

To join the discussion, yesterday I wrote also a post:

海外中文网站 = 大数据时代的一粒沙
cf.: viewtopic.php?t=245308
...
当然,正如我早就提醒大家的: 对于一般人来说,在这个大数据和AI分析的时代,任何网站,你的一言一行都被Google记录在案,建立了每一个人的数字档案Digital fingerprinting/Identity (自己goolge 一下是什么), 包括这个站(即使删除)几个月前的内容都可以在Google搜到!而这每个人的Digital Identity会与全球所有Google jscript内核的程序或是app,包括淘宝/微信/iOS/Android共享Adsence/cookie tracking, 这就是为什么你在这里讨论周杰伦,微信的视频号就会给你推周杰伦的歌的原因!而这不仅仅是一个推视频号的问题,这些大数据,包括你的上网时间,地理位置,性取向,政治偏好,包括你的Linkedin, Facebook, Twitter, Instagram。。。全都联系起来了。。。e.g.:全球各大企业HRM(人事/招聘系统)全部外包并共享大家的简历了!它正在影响大家的工作/升学/家庭,乃至你的疾病和生存!
.
.
.
全球企业间共享的人事管理库

SAP SuccessFactors Company Login


看看你你的yearly performance review在不在里面
看看你的简历,大学的成绩
看看明年是涨5%的工资还是被裁:


https://www.readycontacts.com/target-ac ... ssfactors/
https://www.appsruntheworld.com/custome ... ee-central
图片
图片
图片
I would recommend all to write in English, in order to make it a bit difficult for MaskMan to manipulate this community.
Hof楼主
论坛点评
论坛点评
Hof 的博客
帖子: 2089
注册时间: 8月 15, 2022, 3:09 am

Re: Social network profiling & 狼人游戏

帖子 Hof楼主 »

这里是常见/网站广泛使用的机器人:(包括本站内核phpBB)

AdsBot [Google], Alexa [Bot], Alta Vista [Bot], Ask Jeeves [Bot], Baidu [Spider], Bing [Bot], Exabot [Bot], FAST Enterprise [Crawler], FAST WebCrawler [Crawler], Francis [Bot], Gigabot [Bot], Google Adsense [Bot], Google Desktop, Google Feedfetcher, Google [Bot], Heise IT-Markt [Crawler], Heritrix [Crawler], IBM Research [Bot], ICCrawler - ICjobs, MSN NewsBlogs, MSN [Bot], MSNbot Media, Majestic-12 [Bot], Metager [Bot], Nutch [Bot], Online link [Validator], SEO Crawler, SEOSearch [Crawler], Sensis [Crawler], Seoma [Crawler], Snappy [Bot], Steeler [Crawler], Telekom [Bot], TurnitinBot [Bot], Voyager [Bot], W3 [Sitesearch], W3C [Linkcheck], W3C [Validator], YaCy [Bot], Yahoo MMCrawler [Bot], Yahoo Slurp [Bot], Yahoo [Bot], YahooSeeker [Bot], ichiro [Crawler],
I would recommend all to write in English, in order to make it a bit difficult for MaskMan to manipulate this community.
Hof楼主
论坛点评
论坛点评
Hof 的博客
帖子: 2089
注册时间: 8月 15, 2022, 3:09 am

Re: 狼人游戏 & Social network Profiling

帖子 Hof楼主 »

看看,这是微信的视频号给我推的 (看了狼人/天马夫妻的乌龙事件之后)

图片

还有这个,注意,我根本不知道刀郎是谁,也没点开“书歌影”版的刀郎的贴子参与讨论:


图片
I would recommend all to write in English, in order to make it a bit difficult for MaskMan to manipulate this community.
Hof楼主
论坛点评
论坛点评
Hof 的博客
帖子: 2089
注册时间: 8月 15, 2022, 3:09 am

Re: 狼人游戏 & Social network Profiling

帖子 Hof楼主 »

---------- viewtopic.php?p=1692088#p1692088 ----------
.
还在看微信视频号“搔首弄姿的美女”的福利?
我不知道屏蔽了多少,还有那些恶搞/怪笑的,有些视频号,既然没有屏蔽选项?!
可是微信还在不停给我推荐这些,而且我也subscribe了许多知识/艺术/读书/科技的视频号。。
这已经不是AI 推送算法的问题了。。。
这微信evil得很,就像我这里提到的,时刻探测你其他app的使用,乃至浏览网页的内容,甚至我怀疑它窃听我播放的音乐和对话。。。

而且,进入iPhone Setting/Storage: WeChatQQmusic 是占用空间的榜首!

其中App本身(不含私人数据/ Documents & Data):
App NameApp Size (MB)
WeChat 627.3 MB
QQMusic 401.9 MB
----- 相比之下 -----
iOS Music16.6 MB
Google Maps209.7 MB
淘宝261.4 MB
Alipay/支付宝265.8 MB
Youtube274 MB
Amazon183.7 MB
WhatsApp151.9 MB
Sportify132.3 MB

微信治国,防民于川,国之重器啊!
I would recommend all to write in English, in order to make it a bit difficult for MaskMan to manipulate this community.
Hof楼主
论坛点评
论坛点评
Hof 的博客
帖子: 2089
注册时间: 8月 15, 2022, 3:09 am

Re: 狼人游戏 & Social network Profiling

帖子 Hof楼主 »

而微信的邪恶/evil 不仅如此:

本来以为看国内的视频号,公众号可以看到国内的热点新闻,但是这些天,全世界都在报道的北京大水,街道涌淹! 可是微信的视频号/公众号,一个都没有推给我,净是搔首弄姿的女人/心理专家/心灵鸡汤/环球旅游。。。直到今天早上听Alexa, 我的全球新闻联播,才听到世界各地(不同语言)对北京洪水的报道。。

是的,当你越来越沉迷于微信,它就会给你构建一个与世隔绝的牢笼!让你在它(所谓的人工智能 & 大数据)里一步步被桎梏,被洗脑,被左右。。。

这又一次,应验我我一直以来的conclusion: AI 是人类自相残杀直至自我毁灭的工具!

可惜,许多人还没有醒悟~~,甚至乐在其中。
I would recommend all to write in English, in order to make it a bit difficult for MaskMan to manipulate this community.
回复

回到 “台海风云(TaiwanStrait)”