大数据告诉你:10年漫威,到底有多少角色

大数据 数据分析
最近正值复联4上映,小F也发现了一个有趣的网站。主要是关于漫威人物、漫威电影的图谱。网站是基于Graph技术开发的。其实之前小F也利用了有关Graph的库实现了一波人物的关系分析。只不过分析结果比较粗糙而已~

最近正值复联4上映,小F也发现了一个有趣的网站。

主要是关于漫威人物、漫威电影的图谱。

https://graphics.straitstimes.com/STI/STIMEDIA/Interactives/2018/04/marvel-cinematic-universe-whos-who-interactive/index.html(复制到浏览器打开)

网站是基于Graph技术开发的。

其实之前小F也利用了有关Graph的库实现了一波人物的关系分析。

只不过分析结果比较粗糙而已~

下面是网站的概况,大家可以一览。

大数据告诉你:10年漫威,到底有多少角色

 大数据告诉你:10年漫威,到底有多少角色

那么人家能做出这么酷炫的关系图,我们自己能不能实现呢?

这一期就利用网站提供的数据,使用Neo4j(NOSQL图形数据库)进行实战一波。

一、获取分析

人物及人物关联信息从网站上获取,具体接口如下。

大数据告诉你:10年漫威,到底有多少角色

数据为json格式,分别在「characters」和「relationship」中。

大数据告诉你:10年漫威,到底有多少角色

这里的信息是分别指托尼·斯达克,关系「0」为朋友,斯蒂文·罗杰斯。

大数据告诉你:10年漫威,到底有多少角色

二、 数据获取

具体代码如下。

  1. headers = { 
  2.     'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' 
  3.  
  4. url = 'https://graphics.straitstimes.com/STI/STIMEDIA/Interactives/2018/04/marvel-cinematic-universe-whos-who-interactive/data/marvel-data.json' 
  5. response = requests.get(url=url, headers=headers) 
  6. result = json.loads(response.text) 
  7.  
  8. num = 0 
  9. names = [] 
  10. item = {0: 'friend', 1: 'enemy', 2: 'creation', 3: 'family', 4: 'work', 5: 'love'
  11.  
  12. for i in result['relationship']: 
  13.     subject = result['relationship'][i]['id'
  14.     object = result['relationship'][i]['target_id'
  15.  
  16.     if subject not in names: 
  17.         names.append(subject) 
  18.     if object not in names: 
  19.         names.append(object) 
  20.  
  21.     relation = int(result['relationship'][i]['relationship']) 
  22.     with open('relation_message.csv''a+'as f: 
  23.         f.write(subject + ',' + object + ',' + item[relation] + '\n'
  24.  
  25. for j in names: 
  26.     num += 1 
  27.     with open('names_message.csv''a+'as f: 
  28.         f.write(j + ',' + str(num) + '\n'
  29.  
  30. for k in result['characters']: 
  31.     id = result['characters'][k]['id'
  32.     name = result['characters'][k]['name'
  33.     status = result['characters'][k]['status'
  34.     species = result['characters'][k]['species'
  35.     with open('message.csv''a+'as f: 
  36.         f.write(id + ',' + name + ',' + status + ',' + species + '\n'

***成功获取数据。

大数据告诉你:10年漫威,到底有多少角色

人物名为简称,共计182个人物。

大数据告诉你:10年漫威,到底有多少角色

1144条人物关系数据,4大类型。

下面是182个人物的一些详情信息。

大数据告诉你:10年漫威,到底有多少角色

包含了人物的名字及简称,存活状态,人物属性。

三、数据可视化

下面通过Neo4j对人物关系进行可视化。

Neo4j的安装这里就不细说了,大家可以自行百度。

开启Neo4j服务后,登陆Neo4j网站,初始化界面如下。

大数据告诉你:10年漫威,到底有多少角色

先加载***个文件。

大数据告诉你:10年漫威,到底有多少角色

具体代码如下。

  1. LOAD CSV WITH HEADERS FROM 'file:///names_message.csv' AS data CREATE (:people{name:data.name, id:data.id}); 

下面加载第二个文件。

大数据告诉你:10年漫威,到底有多少角色

具体代码如下。

  1. LOAD CSV  WITH HEADERS FROM "file:///relation_message.csv" AS relations 
  2. MATCH (entity1:people{name:relations.subject}) , (entity2:people{name:relations.object}) 
  3. CREATE (entity1)-[:rel{relation: relations.relation}]->(entity2) 

点击1144按钮处,取消限制数,再点击全屏。

大数据告诉你:10年漫威,到底有多少角色

 大数据告诉你:10年漫威,到底有多少角色

 大数据告诉你:10年漫威,到底有多少角色

这里大致能看出来漫威的人物聚集情况。

***大反派灭霸(thanos),原来这么孤立的。

这里由于人物太多,造成观察不便,所以对结果进行一些筛选。

比如筛选托尼·斯达克的朋友,运行下面的代码。

  1. match p=(n:people{name:"tonys"})-[:rel{relation:"friend"}]->() return p; 

得到下图结果。

大数据告诉你:10年漫威,到底有多少角色

其中「thor」为「雷神」,「stever」为「美队」,「blackw」为「黑寡妇」,「vision」为「幻视」,「peterp」为「蜘蛛侠」,「bruceb」为「绿巨人」。

下面再来看一下美队的女友吧。

大数据告诉你:10年漫威,到底有多少角色

佩吉·卡特和她的侄女莎朗·卡特,据说两人样貌极为相像。

四、总结

本次只是对Neo4j的一些简单操作,后期或许会去深入了解。

此外漫威的这些人物信息,还可以玩出很多花样的。

也希望大家能去动手尝试尝试,做一枚硬核铁粉~

责任编辑:未丽燕 来源: 法纳斯特
相关推荐

2021-07-26 11:02:29

郑州暴雨河南

2018-05-15 09:24:19

硬盘网络CPU

2012-08-23 15:10:44

Facebook

2012-08-23 14:21:47

大数据

2016-08-31 09:48:07

体验

2018-09-21 11:58:59

大数据

2022-09-27 09:43:08

物联网设备物联网

2011-06-07 10:15:38

GNULinux

2021-09-26 20:22:58

5GAI技术

2016-10-25 09:25:36

大数据楼市走势

2016-09-25 09:15:27

大数据数据分析

2021-01-22 08:13:58

Java日期时间API

2012-12-26 11:04:14

2018-07-24 15:22:30

区块链数字货币比特币

2020-12-21 13:42:59

大数据大数据应用

2021-08-02 14:27:18

大数据杀熟人工智能网络投诉

2010-08-26 09:08:04

Google数据中心

2016-07-01 14:49:09

人工智能大数据

2024-04-12 00:00:00

localhost计算机机制

2022-05-17 08:41:41

协程I/O模式
点赞
收藏

51CTO技术栈公众号