全球亿万富豪们的财富密码
作者:媒体转发 时间:2019-01-04 16:54
世界财富的分布是一个倒金字塔形状的,来自71个国家的2212人共同拥有9.1万亿美元的财富。他们中的大多数人是白手起家,在科技、金融、时尚和体育行业建立起了自己的“帝国”。有一些人事业刚起步时就处在领先位置上,因为他们从自己的家族企业继承了一大笔财产。这个项目就是要通过数据可视化,分析这些富豪们。
▍项目介绍在数据源方面我选择了福布斯富豪榜(福布斯杂志于1917年发起的富豪排名的榜单)的数据,我用Selenium工具进行了数据爬取。

至于为什么是福布斯?因为它是一家聚焦商业、投资、科技、企业家、领导艺术以及生活方式的超过百年历史的媒体。他现在有超过3800万的社交网络粉丝。重要的是它维护着一个富豪数据库,并且一直进行着及时更新。
▍项目目标我的项目是为了回答下面的所有问题:
● 哪个国家的亿万富豪最多?
● 男女比例如何?
● 哪个国家的富豪拥有的财富比例最高?
● 他们的钱都是哪来的?
● 谁是最年轻和最老的亿万富翁?
● 目前他们的身价有何变化?
● 每个国家的首富分别是谁?
▍数据爬取爬取数据的过程如下:
● 进入福布斯亿万富翁专题首页
● 找到页面的URL地址
● 爬取每个人的细节信息(排名、姓名、身价、年龄、收入来源、国籍、性别)
● 在过程中寻找X path时遇到一些麻烦,因为有时候扫描全网页会发现并没有什么独特的X path
● 对于性别和最新身价的信息,我单独进行了爬取,因为它们和其他信息不在同一页面
▍数据清洗在得到初步的数据后,新的挑战是如何清洗数据并不丢失重要信息。我使用了Python Numpy、Pandas、正则表达式以及其他方法。我利用我拥有的另一组数据框架,给我的数据增加了两列。之后我增加了一列数据,它显示的是年初的身价和最新身价相比的变化。
清洗后的数据长这样:

在制作数据可视化图表时,我使用了Matplotlib和Seaborn文库包。
● 哪个国家亿万富翁数最多?
从下图可以看到,美国最多,有585名亿万富翁,其次是中国,有373名。之后是德国、印度和俄罗斯。

● 男女比例
男性1972人,占比89.2%,女性240人,占比10.8%。我自己是觉得有点吃惊,我本来以为女性占比会更多一些。


● 哪个国家亿万富翁们的财富占整体的比例最高?
如我们所期待的那样,美国排名第一,而且由于数据和其他国家情况差别很大,所以没有在图中展示。第二是中国。第三到第五比较有意思,分别是巴西、加拿大和澳大利亚。

● 最主要的收入来源?



