七夕：大数据分析看如何成为美人-大数据分析如何实现

这篇文章探讨的是女性吸引力，但没有通常看到的照片分析之类的东西。相反，我们采用过去的女人图片，分析她在男同胞们头脑里产生的反应。我们将展示以下显著的现象：

公正性警告：我们将把女性作为客观对象来讨论，不惜笔墨。本文的目的是分析OkCupid网站的数据，没有一点点客观对象化是不可能的。不久会轮到把男性作为客观对象来分析展示给大家。按照惯例，本文中没有任何分析(名人的例子除外)是我个人的观点。所有数据均是从实际用户活动中收集的。

1. 咱们从头开始。

所有的人，尤其是男人们花费大量精力搜索、浏览和联系我们最热门的用户。正如以前提到的，受欢迎女性收到的交友信息大约是相貌平平女性的4倍(备注：原文用 4X表示)，是丑女收到的25倍(备注：原文用25X表示)。深陷信息中会把网站用户，尤其是女性吓跑。因此，我们必须分析和重新指导这个趋势，以免 OkCupid成为sausageparty那样的网站。

几乎每隔一段时间，我们都会运行下面这样的分析图，显示以5000名女性为例，按吸引力排序，在上一个月中能收到多少信息。

这些图按种族、位置、年龄、档案完整程度、登录活跃程度等做了调整——这些人之间唯一有意义的不同点是她们的长相。运行许多这样的图之后，我们开始问自己：还有什么原因导致X广泛分布，尤其是占了图中一半数量的“长相高于平均水平”人收到的信息量有多有少。难道仅仅是随机现象?

下面是这个女性的分析：

她得到的关注比下面的女性要高:

尽管根据我们的用户反馈，她们都是美人。

2. 美丽(7分)并不相同

为了解释这种现象，第一步就是用数学方法来区分吸引力的程度。比如，采用经典的10点分来作为“长相”的满分，如果一个人的评分为7，这可能是因为每个看到她的人都会这样想：她非常可爱。

但是极有可能出现的却是下面这种情况:

如果我们只知道她的评分为7，是没法看出她属于上面哪一类的。也许对于有些人来说假设的满分美女是不同凡响、引领潮流的，而其他人认为美女是享乐主义的。谁知道呢? 事实证明，这种分布的观点非常重要。

3. 名人照片：抛砖引玉和说明

让我们来看看一些著名人物的评分的分布情况是什么样的。我猜想，比如说女演员克里斯汀.贝尔的长相评分大致是这样的：

贝尔小姐被大众认为是美女，但她的分数看上去并不像是一个超级名模或者什么顶尖人物。她可能在“非常美”的评分范围只能得到几票，大多数的票数在“非常有吸引力”左右，没人把她的票投在图表左端的“不吸引人”上。

相比较而言，梅根·福克斯可能得到这样的评分：

图表最右边，可能有很多的帅哥觉得她是最性感的。在最左边，少数人看过她的电影。

与贝尔小姐不同，福克斯女士让人们产生了强烈的反应，即使有时这种反应不是正面的。

4. 现实生活的人们

现在让我们回头再来看前面的两个真实用户，这一次用她们的图表。 OkCupid网站按从1到5星级评价长相，所以其它讨论都以此为根据。本文展示的所有用户都是慷慨的女性，她们有足够信心允许我们在网站上做分析，感谢她们。好了，这里有：

正如你看到的，尽管上面这两名女性的吸引力评分非常接近，她们收到的投票模式却有所不同。左边的评分显示人们有所共识，右边的评分显示了意见分歧。

再细致一点说来就是：

当我们开始用其他”长相和侧脸相似，但收到的交友信息数不同”的人来配对时，这种模式一次又一次呈现。收到消息少的女性通常被认为有一贯的吸引力，而收到消息多的女性往往在男人看来吸引力有分歧。下面再举几个例子：

男人对女性长相越有分歧，就有越多的人喜欢她。我们感觉似乎能发现什么，所以，作为数学书呆子，穿上运动裤。然后做了一些分析。我们的第一个结论是：对女性评分数和她收到的交友信息数量做标准差比较，发现，男人们对女性长相评价的分歧越多，就有越多人喜欢她。对此绘制的喜好偏差与收到的交友信息的关系曲线如下，再举一些例子。

图中沿曲线标识的女性在吸引力排名中大约为前80%。

这得用一点算术，而且很难用简单的折线图来解释。基本原理是：根据女性得到的投票数，用一个公式来预测女性能得到多少关注量，关注量的计算是基于曲线上的投票数。用这个公式，我们可以把“男人认为女性长得怎么样”翻译成“她能得到多少关注”。

我们得出的公式看上去不透明，但是用它计算，就会看到人们有趣的观点，以及男人们会向哪些女性示好。

如果你对代数感兴趣

我们以43000名女性的数据作为样本用回归法分析。为保证前提一致，所有这些女人是异性恋，年龄介于20和27岁之间，而且住在同一个城市。本文中给出的公式是降低m3，使其p值非常接近1后，第二次回归得到的最佳结果。

Msgs是观察期内女性收到消息数量。常数k反映了她在整个网站的活动水平。对于这个方程, R2 = .28, 这在实验或问题研究中并不是一个大数字，但应用在真实的社会环境中非常好。

需要搞明白，最重要的是ms代表男人对她长相评价的投票，以此算出她收到的交友信息数曲线，譬如：

那些前面带正号的投票数(ms)：表示男人会发信息给女性，前面带负号的：说明要减去信息数量。这个公式告诉我们的有以下信息：认为你火辣(hot)的男人越多，你收到的信息就越多。

我们怎么知道此原理的——m5前面的0.9是最大的正数，也就是说，认为你很迷人(投票给你一个满分’5′)的家伙们是给你发信息最多的贡献者。这当然是个预测结果，提示给我们:公式是能讲得通的。觉得你可爱(cute)的男人，实际上应从你收到的信息中减掉。我们怎么知道此原理的——因为m4前面的系数0.1是负数。这就说明，给你投票为’4′ 的人，认为你长相高于平均水平的那些人，实际上应从你收到的信息中剔除。非常令人惊讶。事实上，当你把它和m1前面的正数一起看，我们的公式从统计上看能说得通：

如果有人认为你不火辣(hot)，那么最好接下来他们认为：你丑。

这是一个非常疯狂的结论，但我们每次计算——通过变换约束值，尝试不同的数据样本等，这个理论都会显现生效。

5. 我们的想法是怎么回事

所以这便是我们的悖论：当有些人认为你丑时，其他人更有可能发消息给你。而当有些男人觉得你很可爱时，其他男人对你倒是缺乏兴趣。为什么会出现这种情况?也许得用点博弈论来解释：

假设你是个男人，并真地对某人感兴趣。如果你怀疑其他男人都不感兴趣，就意味着更少人来竞争。因此，此想法会激励你给她发送消息。你可能会想：也许她很孤单……也许她恰好在等待一个欣赏她的人……至少我不会埋没在人群里……也许这些小心思，加上事实上你真地觉得她漂亮，会促使你行动。发给她你精心考虑过的完美的开场词。

“最近好吗”

另一方面，’4′票占多数的女人，通常被认为可爱，但并不火辣，看上去的情形可能比实际上更受欢迎。一般男人会这样考虑：她的魅力明显足以吸引其他人和她交往。但不足以使男人不顾一切地给她发交往信息。这就是可爱的矛盾之处。

整个情形看起来是这样：

6. 最后：这对你意味着什么?

我不认为每个女人都关心是否其他人关注她。但是如果你关心的话，上面的分析有什么实际意义呢? 好吧，从根本上，改变你的整体吸引力很难(也就是开篇我们讨论的长相评分)。但是你创造出来的差别是掌控在自己手中的，很简单，即：把差别最大化:

采用任何你认为有些人不喜欢的方式，突出展示出来。

正如你可能已经注意到的，带纹身和穿孔的女性似乎凭直觉把握了这个原则。她们炫耀自己与众不同之处，才不管人家喜不喜欢呢。而且她们得到很多人的关注。

但我们的建议可以适用于任何人。浏览OkCupid网站时，我发现众多照片显然在尽可能减少一些不具吸引力的特征——一个可能超重的人从生活照中剪切出来的头像就是典型的例子。我们有些算法表明：消减你的“瑕疵” 达到的效果会是相反的。如果你有点小胖，展示出来。如果你有一个大鼻子，展示出来。如果你有一个奇怪的暴牙，展示出来：从统计学上来说，不喜欢它的男人只会帮到你，那些喜欢它的人会更兴奋。