故事数最多的99个英雄/团体的关系图:
Data provided by Marvel. 2014 Marvel数据由 Marvel 提供来源:http://marvel.com意料之外但情理之中,蜘蛛侠是出现故事最多的角色。这还只是主线角色,没算上各个平行宇宙和衍生角色。事实上,小蜘蛛在漫威迷中一直有着超高的人气,或许是因为他的故事更接近于现实中的每一个平凡人,也或许是他那份“能力越大,责任越大(With great power comes great responsibility)”的坚持。而在国内观众熟知的漫威系列电影中,蜘蛛侠似乎戏份不多,这是由于蜘蛛侠的电影版权很早就卖给了索尼(X战警和神奇四侠也是类似)。钢铁侠、美队、金刚狼是紧随其后的角色,X战警是故事最多的团体。关系图上的颜色不是我们手动标注的,而是 Gephi 通过聚类自动划分的。文字标签的大小则体现故事数的多少。X战警、神奇四侠、复仇者联盟,这三个团体垄断了漫威绝大部分的故事。神奇四侠虽然人物和故事不算多,但相关关联很紧密(大多同时出场),相反典型是雷神(Thor),虽然故事很多,但大多独来独往。
最后来说说这个关系图的实现过程。主要是两大块:
从 Marvel API 获取数据。首先是获取所有角色,然后获取角色相关的故事,再根据这些故事信息将角色进行关联统计,最终得到节点(角色、故事数)和边(关联故事数)的数据。通过可视化分析工具 Gephi 将节点和边的数据进行可视化展示,生成关系图表。Gephi 的功能很强大,可以调节不同的展示效果,各位可以自行体会下。
其他需要注意的:
我们没有直接通过网络请求 Marvel API,而是使用了上次文章中提到的 marvel 模块来实现。(使用示例见前文)中间的临时数据,因为是 JSON 格式,于是我们用 mongodb 进行了存储,便于后续整理分析。如果你自己运行,也可以通过其他方式(比如文件)进行存储。经过处理后的节点、边数据我们保存成了 csv 文件,你可以在项目中获取,直接放进 Gephi 使用。仅供学习,请勿商用。Marvel API 需要申请秘钥、有请求速率限制,使用时需标注数据出处和来源网址。