将对意大利北部沿海地区的气象数据进行分析与可视化。我们在实验过程中先会运用 Python 中 matplotlib 库的对数据进行图表化处理,然后调用 scikit-learn 库当中的的 SVM 库对数据进行回归分析,最终在图表分析的支持下得出我们的结论。
气象数据是在网上很容易找到的一类数据。很多网站都提供以往的气压、气温、湿度和降雨量等气象数据。只需指定位置和日期,就能获取一个气象数据文件。这些测量数据是由气象站收集的。气象数据这类数据源涵盖的信息范围较广。数据分析的目的是把原始数据转化为信息,再把信息转化为知识,因此拿气象数据作为数据分析的对象来讲解数据分析全过程再合适不过。
写作本章时,虽正值夏初,却已酷热难耐,住在大城市的人感受更为强烈。于是周末很多人到山村或海滨城市去游玩,放松一下身心,远离内陆城市的闷热天气。我常常想,靠海对气候有什么影响?这个问题可以作为数据分析的一个不错的出发点。我不想把本章写成科学类读物,只是想借助这样一种方式,让数据分析爱好者能够把所学用于实践,解决 “海洋对一个地区的气候有何影响” 这个问题。
研究系统:亚得里亚海和波河流域
既然已定义好问题,就需要寻找适合研究数据的系统,提供适合回答这个问题的环境。首先,需要找到一片海域供你研究。我住在意大利,可选择的海有很多,因为意大利是一个被海洋包围的半岛国家。为什么要把自己的选择局限在意大利呢?因为我们所研究的问题刚好和意大利人的一种典行为相关,也就是夏天我们喜欢躲在海边,以躲避内陆的酷热。我不知道在其他国家这种行为是否也很普遍,因此我只把自己熟悉的意大利作为一个系统进行研究。但是你可能会考虑研究意大利的哪个地区呢?上面说过,意大利是半岛国家,找到可研究的海域不是问题,但是如何衡量海洋对其远近不同的地方的影响?这就引出了一个大问题。意大利其实多山地,离海差不多远,可以彼此作为参照的内陆区域较少。为了衡量海洋对气候的影响,我排除了山地,因为山地也许会引入其他很多因素,比如海拔。
意大利波河流域这块区域就很适合研究海洋对气候的影响。这一片平原东起亚得里亚海,向内陆延伸数百公里(见图 9-1)。它周边虽不乏群山环绕,但由于它很宽广,削弱了群山的影响。此外,该区域城镇密集,也便于选取一组离海远近不同的城市。我们所选的几个城市,两个城市间的最大距离约为 400 公里。
第一步,选 10 个城市作为参照组。选择城市时,注意它们要能代表整个平原地区(见图 9-2)。
如图 9-2 所示,我们选取了 10 个城市。随后将分析它们的天气数据,其中 5 个城市在距海 100 公里范围内,其余 5 个距海 100~400 公里。
选作样本的城市列表如下:
有了计算两城市间距离这样的服务,我们就可以计算每个城市与海之间的距离。
你可以选择海滨城市 Comacchio 作为基点,计算其他城市与它之间的距离(见图 9-2)。使用上述服务计算完所有距离后,得到的结果如表 9-1 所示。
该网站提供以下功能:在请求的 URL 中指定城市,即可获取该城市的气象数据。我们已经准备好了数据,不需要大家再去调用该网站的 API。 下面,就先下载气象数据。
这时候,我们通过 tree 命令应该能够再 WeatherData 中间看到 10 个城市的天气数据文件(以 .csv 结尾)
如果你想用本章的数据,需要加载写作本章时保存的 10 个 CSV 文件。
我们把这些数据读入内存,完成了实验准备的部分。
从数据可视化入手分析收集到的数据是常见的做法。前面讲过,matplotlib 库提供一系列图表生成工具,能够以可视化形式表示数据。数据可视化在数据分析阶段非常有助于发现研究系统的一些特点。
导入以下必要的库:
举例来说,非常简单的分析方法是先分析一天中气温的变化趋势。我们以城市米兰为例。
执行上述代码,将得到如图 9-8 所示的图像。由图可见,气温走势接近正弦曲线,从早上开始气温逐渐升高,最高温出现在下午两点到六点之间,随后气温逐渐下降,在第二天早上六点时达到最低值。
我们进行数据分析的目的是尝试解释是否能够评估海洋是怎样影响气温的,以及是否能够影响气温趋势,因此我们同时来看几个不同城市的气温趋势。这是检验分析方向是否正确的唯一方式。因此,我们选择三个离海最近以及三个离海最远的城市。
上述代码将生成如图 9-9 所示的图表。离海最近的三个城市的气温曲线使用红色,而离海最远的三个城市的曲线使用绿色。
如图 9-9 所示,结果看起来不错。离海最近的三个城市的最高气温比离海最远的三个城市低不少,而最低气温看起来差别较小。
我们可以沿着这个方向做深入研究,收集 10 个城市的最高温和最低温,用线性图表示气温最值点和离海远近之间的关系。
先把最高温画出来。
结果如图 9-10 所示。
如图 9-10 所示,现在你可以证实,海洋对气象数据具有一定程度的影响这个假设是正确的(至少这一天如此)。进一步观察上图,你会发现海洋的影响衰减得很快,离海 60~70 公里开外,气温就已攀升到高位。
用线性回归算法得到两条直线,分别表示两种不同的气温趋势,这样做很有趣。我们可以使用 scikit-learn 库的 SVR 方法。
然后绘图
上述代码将生成如图 9-11 所示的图像。
如上所见,离海 60 公里以内,气温上升速度很快,从 28 度陡升至 31 度,随后增速渐趋缓和(如果还继续增长的话),更长的距离才会有小幅上升。这两种趋势可分别用两条直线来表示,直线的表达式为:y=ax+by=ax+b 其中 a 为斜率,b 为截距。
你可能会考虑将这两条直线的交点作为受海洋影响和不受海洋影响的区域的分界点,或者至少是海洋影响较弱的分界点。
执行上述代码,将得到交点的坐标 [x,y]=[53,30][x,y]=[53,30] 并得到如图 9-12 所示的图表。
因此,你可以说海洋对气温产生影响的平均距离(该天的情况)为 53 公里。现在,我们可以转而分析最低气温。
在这个例子中,很明显夜间或早上 6 点左右的最低温与海洋无关。如果没记错的话,小时候老师教给大家的是海洋能够缓和低温,或者说夜间海洋释放白天吸收的热量。但是从我们得到情况来看并非如此。我们刚使用的是意大利夏天的气温数据,而验证该假设在冬天或其他地方是否也成立,将会非常有趣。
10 个 DataFrame 对象中还包含湿度这个气象数据。因此,你也可以考察当天三个近海城市和三个内陆城市的湿度趋势。
上述代码将生成如图 9-14 所示的图表。
乍看上去好像近海城市的湿度要大于内陆城市,全天湿度差距在 20% 左右。我们再来看一下湿度的极值和离海远近之间的关系,是否跟我们的第一印象相符。
我们把 10 个城市的最大湿度与离海远近之间的关系做成图表,请见图 9-15。
再来把 10 个城市的最小湿度与离海远近之间的关系做成图表,请见图 9-16。
由图 9-15 和图 9-16 可以确定,近海城市无论是最大还是最小湿度都要高于内陆城市。然而,在我看来,我们还不能说湿度和距离之间存在线性关系或者其他能用曲线表示的关系。我们采集的数据点数量(10)太少,不足以描述这类趋势。
在我们采集的每个城市的气象数据中,下面两个与风有关:
例如,每一条测量数据也包含风吹来的方向(图 9-17)。
为了更好地分析这类数据,有必要将其做成可视化形式,但是对于风力数据,将其制作成使用笛卡儿坐标系的线性图不再是最佳选择。 要是把一个 DataFrame 中的数据点做成散点图
就会得到图 9-18 这样的图表,很显然该图的表现力也有不足。
要表示呈 360 度分布的数据点,最好使用另一种可视化方法:极区图。
首先,创建一个直方图,也就是将 360 度分为八个面元,每个面元为 45 度,把所有的数据点分到这八个面元中。
histogram() 函数返回结果中的数组 hist 为落在每个面元的数据点数量。[0 5 11 1 0 1 0 0]
返回结果中的数组 bins 定义了 360 度范围内各面元的边界。[0. 45. 90. 135. 180. 225. 270. 315. 360.]
要想正确定义极区图,离不开这两个数组。我们将创建一个函数来绘制极区图,其中部分代码在第 7 章已讲过。我们把这个函数定义为 showRoseWind(),它有三个参数:values 数组,指的是想为其作图的数据,也就是这里的 hist 数组;第二个参数 city_name 为字符串类型,指定图表标题所用的城市名称;最后一个参数 max_value 为整型,指定最大的蓝色值。
你需要修改变量 colors 存储的颜色表。这里,扇形的颜色越接近蓝色,值越大。定义好函数之后,调用它即可:
运行上述函数,将得到如图 9-19 所示的极区图。
由图 9-19 可见,整个 360 度的范围被分成八个区域(面元),每个区域弧长为 45 度,此外每个区域还有一列呈放射状排列的刻度值。在每个区域中,用半径长度可以改变的扇形表示一个数值,半径越长,扇形所表示的数值就越大。为了增强图表的可读性,我们使用与扇形半径相对应的颜色表。半径越长,扇形跨度越大,颜色越接近于深蓝色。
定义 RoseWind_Speed 函数,计算将 360 度范围划分成的八个面元中每个面元的平均风速。
这里 df_city[(df_city['wind_deg']>(deg-46)) & (df_city['wind_deg'] 获取的是风向大于 deg-46度和风向小于deg` 的数据。
RoseWind_Speed() 函数返回一个包含八个平均风速值的 NumPy 数组。该数组将作为先前定义的 showRoseWind() 函数的第一个参数,这个函数是用来绘制极区图的。
图 9-21 所示的风向频率玫瑰图表示风速在 360 度范围内的分布情况。
本章主要目的是演示如何从原始数据获取信息。其中有些信息无法给出重要结论,而有些信息能够验证假设,增加我们对系统状态的认识,而找出这种信息也就意味着数据分析取得了成功。