Python爬取3万+条球员记录,看看中国和其它国家的差别
来源:急速奔跑中的蜗牛     阅读:533
源码超市
发布于 2019-06-11 05:24
查看主页

一直想做一篇和足球数据分析相关的文章,结合python的爬虫和数据分析,这里和大家分享一篇直播吧3万多足球运动的数据分析,数据内容挺多的,只是从其中提取部分进行比较和分析。可视化部分用到的是pyechart。

1、分析直播吧球员数据页面:

image

1)从域名看(https://data.zhibo8.cc/html/player.html?player_id=1),player_id这个参数代表了每个球员的编号,这里看了一下,最高编号大概到9万多,中间会有断层。爬虫的基本步骤就是循环获取每个球员页面的数据就可。

2)而后再查看每个球员页面的数据如何获取,一般这类数据都是通过json格式传入的,所以只要要获取该域名的json数据就可。通过右键copy该json的域名是:https://db.qiumibao.com/f/index/player?pid=1,好了,下一步就是直接跑代码了。

image

2、运行爬虫代码:

image

就短短十几行代码,就把3万+条球员记录存到DataFrame里面:


image

注:假如某条记录报错,可以直接从下一条记录再开始运行就可

3、数据分析

3.1 通过年龄分析球员

爬取到的数据有33102条,通过查看这批球员的年龄分布,查看能否都是现役球员。


image

通过图表可以发现,球员主要集中在20-30岁之间,非常符合现役职业球员的分布。

当然了,最主要还是看我们中国球员的年龄分布:

image

如同有点反规律哦,为什么23岁以下的球员芳儿比23,25的球员多呢?是不是由于U23政策,哈哈。

3.2 哪个国家的球员最多

image

排名前15位的国家,令人意外的是日本球员居然排名第五。这个数量只能代表各个国家的顶级联赛职业球员数量,无法代表实际足球人口,这个比较可惜。

3.3 分析球员的进球数据

image

其中,梅西598,C罗600,可见梅罗独一档有多恐怖,排名第三的伊布只有428,而且伊布比他们还大好几岁。

3.4 三大球王数据比照

image
image

假如你对Python编程感兴趣,那么记得来小编的Python学习扣群:556370268,这里有资源共享,技术解答,大家可以在一起交流Python编程经验,还有小编整理的一份Python学习教程,希望能帮助大家更好的学习python。

免责声明:本文为用户发表,不代表网站立场,仅供参考,不构成引导等用途。 系统环境 服务器应用
相关推荐
Android Architecture Components——LiveData和ViewModel
建造者模式
Kubernetes中的Configmap和Secret
Redis实践之复制的原理与优化
利用Python制作王者战力查询以及皮肤查看软件
首页
搜索
订单
购物车
我的