Crossin的编程教室
标题:
求助Crossin老师,批量处理(检索,排序,统计运算等)Excel文件
[打印本页]
作者:
wytdw
时间:
2017-5-18 11:38
标题:
求助Crossin老师,批量处理(检索,排序,统计运算等)Excel文件
Crossin老师,我目前学环境的,研究室老师给的一个项目,要分析一个地区的气象情况,前一段时间在中国大学Mocc上学了一点Python爬虫的入门,上周刚用Python爬取了8500个左右大约8GB大的Excel文档数据(.csv格式的),目前正在处理Excel文件,想分析气象(年降水量,年降水天数,平均气温等)与自然环境(光照量等)数据,有850个点(每个点大概爬去了10个Excel文件)从1970年到2017年每天的数据(每个Excel差不多18000行),
下面是某个点的其中一个Excel文件,
Date Year DOY Min Temperature (C) Max Temperature (C) Rainfall (cm) Cumulative Rainfall (cm) Solar Radiation (Ly)
1970/1/1 1970 1 -26.73 -16.6 0 0 105.981
1970/1/2 1970 2 -30.11 -26.98 0.007 0.007 59.28007
1970/1/3 1970 3 -32.05 -25.95 0.011 0.018 83.31619
1970/1/4 1970 4 -35.31 -28.66 0.072 0.09 87.62205
1970/1/5 1970 5 -27.67 -7.71 0 0.09 152.9772
1970/1/6 1970 6 -21.31 -6.45 0 0.09 133.0762
1970/1/7 1970 7 -24.04 -10.28 0 0.09 129.1638
1970/1/8 1970 8 -26.84 -12.66 0 0.09 132.3126
1970/1/9 1970 9 -29.88 -13.42 0 0.09 143.9113
1970/1/10 1970 10 -24.51 -10.62 0 0.09 133.5144
1970/1/11 1970 11 -30.21 -10.15 0 0.09 162.1114
1970/1/12 1970 12 -29.33 -17.6 0 0.09 125.2958
1970/1/13 1970 13 -27.01 -21.03 0 0.09 90.45665
1970/1/14 1970 14 -30.3 -24.24 0 0.09 92.1054
1970/1/15 1970 15 -31.34 -21.85 0 0.09 116.6249
1970/1/16 1970 16 -30.92 -17.56 0 0.09 140.0604
1970/1/17 1970 17 -33.41 -21.46 0 0.09 134.1184
1970/1/18 1970 18 -34.17 -22.53 0 0.09 134.062
1970/1/19 1970 19 -25.21 -14.94 0 0.09 127.5748
1970/1/20 1970 20 -20.07 -14.3 0 0.09 96.90313
1970/1/21 1970 21 -25.41 -17.53 0.009 0.099 114.7882
1970/1/22 1970 22 -23.84 -15.26 0 0.099 121.4421
1970/1/23 1970 23 -24.91 -19.8 0 0.099 95.04499
1970/1/24 1970 24 -29.82 -21.64 0 0.099 121.9787
1970/1/25 1970 25 -32.55 -25.26 0 0.099 116.8287
1970/1/26 1970 26 -37.36 -28.8 0 0.099 128.4649
1970/1/27 1970 27 -36.42 -20.86 0 0.099 175.7893
1970/1/28 1970 28 -31.74 -27.02 0 0.099 98.28125
1970/1/29 1970 29 -32.82 -17.78 0 0.099 178.1158
1970/1/30 1970 30 -28.71 -20.19 0 0.099 136.1251
1970/1/31 1970 31 -28.9 -17.09 0 0.099 162.7568
1970/2/1 1970 32 -33.14 -18.14 0 0.099 186.2972
1970/2/2 1970 33 -28.73 -24 0.001 0.1 106.2633
1970/2/3 1970 34 -34.61 -18.21 0 0.1 201.005
1970/2/4 1970 35 -29.32 -16.25 0 0.1 182.3017
........
2016/12/16 2016 351 -13.45 -9.15002 0 14.68882 67.00952
2016/12/17 2016 352 -10.9 -7.65002 0 14.68882 58.14937
2016/12/18 2016 353 -11.75 -9.5 0 14.68882 48.32103
2016/12/19 2016 354 -13.55 -7.70001 0 14.68882 77.8579
2016/12/20 2016 355 -14.45 -10.25 0 14.68882 65.95843
2016/12/21 2016 356 -19.55 -14.9 0 14.68882 69.42779
2016/12/22 2016 357 -15.7 -12.95 0 14.68882 53.44103
2016/12/23 2016 358 -19.1 -14 0 14.68882 72.88447
2016/12/24 2016 359 -16.8 -10.85 0 14.68882 78.88395
2016/12/25 2016 360 -26.8 -21.45 0 14.68882 74.99372
2016/12/26 2016 361 -21.05 -16.3 0 14.68882 70.88403
2016/12/27 2016 362 -19.7 -16.7 0 14.68882 56.5392
2016/12/28 2016 363 -21 -17.1 0 14.68882 64.73514
2016/12/29 2016 364 -21.8 -17.1 0 14.68882 71.40097
2016/12/30 2016 365 -17.9 -12.3 0 14.68882 78.34694
2016/12/31 2016 366 -18.2 -12.55 0 14.68882 79.14934
想从这些Excel数据中:
1.快速查找每个点每年的降雨天数,每个点每年的降雨总量
2.从Excel已有的每个点每天最高最低温平均值,标准差
求助Crossin老师怎么做?Pandas库吗?
用Python的Pandas库可以解决上述问题吗?
希望得到您的指导和建议......
作者:
crossin先生
时间:
2017-5-18 19:53
图挂了
按你的描述,pandas可以做。
先用少量数据,实现功能。再用所有数据去跑,看会不会有性能瓶颈,再逐步优化
欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/)
Powered by Discuz! X2.5