机器学习从用户社交媒体资料中窥得的五种秘密

译文
人工智能 机器学习 新闻
大型数据企业正在积极利用机器学习技术判断人类社会中的种种行为趋势。利用一系列数据点,包括购物习惯、所订阅杂志、Facebook关注乃至多达其他5000种关注取向,Cambridge Analytica等数据企业为美国的2.2亿成年人建立起了预测性个性模型。

【51CTO.com快译】目前,大型数据企业正在积极利用机器学习技术判断人类社会中的种种行为趋势。他们利用社交媒体中的个人资料推断人格特质,并将结果交付至第三方厂商以进行广告宣传甚至辨别舆论导向。利用一系列数据点,包括购物习惯、所订阅杂志、Facebook关注乃至多达其他5000种关注取向,Cambridge Analytica等数据企业为美国的2.2亿成年人建立起了预测性个性模型。

当然,他们并不是采取这种分析举措的惟一厂商。事实上,财富五百强企业的营销人员、数字广告客户以及各类分析厂商皆在采取此类途径,旨在更好地对消费者进行引导。早期研究表明,个性化目标在Facebook广告活动中获得的点击比例高达63%。

机器学习从用户社交媒体资料中窥得的五种秘密

因此,如果您同样乐于在社交媒体上积极活动,那么以下五项机器学习方案从您社交资料中窥得的五种秘密显然值得关注。

1.年龄与性别

女性来自金星,男性来自火星。在社交媒体所使用的语言表达层面,两性之间的区别更为突出:

男性往往大量使用“xbox”等游戏词汇并在表达中不自觉地发誓。他们同时会频繁使用“我老婆”及“我女朋友”这种表述。女性则仅使用“丈夫”及“男朋友”,而不常加上“我的”这种修饰。年龄段也对表达方式产生巨大影响。对于“精彩”或者“激动人心”这类表达,则会随着年龄段的不同而产生多种表达方式。

在此次名为MyPersonality项目的调查中,Ungar团队对7万5千条Facebook个人资料进行了分析。如果大家感兴趣,也可以点击此处访问Ungar的网站,体验分析结果对您的年龄与性别预测是否准确。

2. 性格特征

在此次研究中,Ungar提出了开放、自觉、外向、兼顾与神经质(简称OCEAN)五大性格特征,且确实表现出对实际行为的较高预测价值。性格不属于精确的物理属性,我们无法通过计算小数点后多位来获得确切答案。事实上,研究人员发现的往往是这些特征对于预测结果的弱正或者弱负相关性。

同样的,感兴趣的朋友可以点击此处通过IPIP-300测试了解自己在OCEAN测试中的分数。

与性别与年龄一样,性格特征也会影响我们的上述语言表达。外向者们往往迫不及待地参与各类派对活动,而内向者则痴迷于动画、漫画、互联网,当然还有《宠物小精灵》。

另外,个人资料中的头像图片也能够表达我们的性格特征。开放程度较高的人可能采用艺术风格浓郁及较特立独行的头像。他们也拥有更好的审美意识,会选择高对比度、锐度及饱和度的高品质照片。自觉型用户则倾向于做出符合一般性预期的判断:正统的面部照片。外向型用户倾向于通过生活照展示自己。

3. 从事工作

如果未在领英上与他人建立联系,您可能无法查看对方的个人资料及当前职业。然而事实证明,用户在推特上的表达词汇中可能隐含着重要的线索性信息。

很明显,管理人员通常会讨论商业或者财务类新闻,而级别较低的员工则用更多时间讨论个人兴趣,而非工作相关的话题。

4. 自恋与精神病倾向

另外,大家也可以利用社交媒体上的表达过滤掉那些“怪人”。自恋者往往会努力吸引他人的关注,渴望得到地位与崇拜。精神病患者则缺乏悔意、过分敏感且不具备道德观念。再有,权谋型用户会有意操纵并利用他人。人类行为中的这些黑暗方面在结合之后,即构成了所谓的“黑暗三性格”。

与预期一致,精神病患者往往会使用“死亡”或者“愤怒”等更加激进及暴力的语言,同时表现出消极的情绪状态。权谋型用户则贡献了大部分垃圾或者广告型内容。

另外,行为与性格特征之间亦存在着可分析的关联。自恋者往往更倾向于发送配合地理位置的推文,且很少发布重复的内容或者主题标签,这证明他们会认真策划自己的发布内容。

5. 罹患心脏病的机率

在2015年的一篇研究论文中,Ungar团队描述了一种仅适用于推特的数据模型,其可较传统因素(包括人口统计学、社会经济学以及吸烟与糖尿病等健康危害性因素)更准确地预测心脏病死亡率模型。

心脏病的诱发往往源自敌对关系与慢性压力。Ungar及其团队追踪了各类反映于社交活动内的负面情绪,包括愤怒、反社会乃至辞去工作等言论。这些迹象被证明能够更好地预测心血管疾病的发生及致死率。

原文标题:5 secrets machine learning knows about you from your social media posts

原文作者:MARIYA YAO

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:王雪燕 来源: 51CTO
相关推荐

2010-01-20 10:12:23

搜索资料IP地址微软

2009-12-22 16:11:30

Fedora 8资料

2022-12-09 08:00:00

深度学习人工智能机器学习

2013-11-25 11:35:44

产品设计社交化用户心理

2019-12-10 13:37:07

大数据社交媒体

2022-04-06 15:48:46

机器学习大数据工具

2021-12-30 11:30:13

人工智能机器学习技术

2012-12-26 12:43:49

社交媒体FaceBookTwitter

2017-04-25 16:45:11

2020-05-11 11:03:47

漏洞信息泄露网络安全

2020-11-17 09:47:33

安全机器云计算

2020-11-16 10:33:04

机器身份危机

2017-04-05 08:39:20

机器学习模型梯度下降法

2020-08-21 10:35:17

机器学习IT领导者人工智能

2012-11-19 10:13:26

社交媒体用户尼尔森

2009-10-22 16:38:09

Oracle用户

2024-10-18 07:10:43

2014-08-06 10:52:26

机器学习编程语言

2022-02-04 21:17:27

机器智能应用

2019-03-12 14:51:40

社交媒体黑客恶意软件
点赞
收藏

51CTO技术栈公众号