一个科研项目正在通过推特词汇来判断人们的幸福指数
“你幸福吗?”
这是一个深不可测、无比玄妙的问题。影响“幸福”的因素有很多,如果是在虚拟世界中,问题会简单很多。因为它会被类似“饥饿度”、“娱乐值”或者“心情指数”这样的系统衡量,反馈到玩家的眼里,就是一张张“笑脸”或者“哭脸”。
但是很遗憾,现实中没有这么方便的设定,一张微笑的脸蛋除了能代表“你好”,还很有可能暗含“呵呵快滚”的意思,如果没有学习专门的知识,哪怕是身经百战的骨干教师,都有可能闹出误会:
现实太复杂!
既然还有如此多单身狗在今天,这个特殊的日子被榨干钱包,正说明了想看透一个人的内心是一件多么困难的事情,更不用说准确判断一群人,或者一整个国家的人到底“幸不幸福”了。
不过有这么一群科研人员,正试图通过社交网络来衡量人们的“幸福指数”。
上面这张图片取自数据网站“hedonometer”,这张统计表记录了今年1月1日到现在,社交网站推特上“用户幸福指数”。
根据该图的信息,可以看到今年的“新年”、“情人节”、“母亲节”都是一个阶段内人们心情最愉悦的时候;而当“新冠疫情爆发”、“乔治·弗洛伊德身亡”以及“美国总统大选”这些事情发生时,人们的心情值一度跌落到了谷底。
这是美国佛蒙特大学的一个长期研究项目,科研人员们试图通过分析推特上出现各种关键词语的频率来推断当前用户的整体幸福程度。
这个网站的基本逻辑是这样的:当推特上频繁出现一些正面词语,比如“爱”、“开心”、“健康”、“美丽”时,就会提高系统判断的幸福值;而一些负面单词,比如“谋杀”、“死亡”、“灾难”、“毒品”则会降低系统的幸福值。
当然,这只是最基本的规则。根据介绍,“hedonometer”网站每天都会在推特的上亿条新推文中随机抽取10%,再对照给定的词汇表,分析样本推文究竟是表达积极含义还是消极信息。
如果当天检测出了更多的积极词汇,则会提高相应的心情指数,反之亦然,不过想要界定词汇的真正含义同样是一件困难的事情,在双关语和抽象话泛滥的网络尤为如此。
该系统的研究人员曾举过一个例子:“Thirsty”(口渴)是一个不那么愉快的单词,但在推特的某个时间段内,更多的人会用这个单词来表达自己“饥渴”(通常指性方面)的含义,这就会给最终的结果带来一定的误差。
所以研究人员需要不断地修改词汇表和词汇的权重,以求反应美国人真实的心情水平。
虽然该系统的准确率有待考证,但我们也能从一些特殊的日子中找到些有趣的信息。比如2016年11月9日,特朗普赢得美国总统选举时,网站显示当天推特用户的幸福值跌到了最低谷:
当天“对抗”、“怨恨”、“种族主义”等关键词的出现频率大幅提高。
而当四年后,拜登赢得总统选举时正好相反,当天的幸福值是近一个月来的最高点,出现的关键词变成了“胜利”、“祝贺”、“伟大”(当然我很好奇他们怎么区分真人用户和可能存在的Bot)。
如果你对这个“推特幸福指数”网站也感兴趣,不妨点击看看电子游戏式的情绪量表是如何实现的。