天气预报我们每天都会关注,我们可以根据未来的天气增减衣物、安排出行,每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。本次使用python中requests和BeautifulSoup库对中国天气网当天和未来14天的数据进行爬取,保存为csv文件,之后用matplotlib、numpy、pandas对数据进行可视化处理和分析,得到温湿度度变化曲线、空气质量图、风向雷达图等结果,为获得未来天气信息提供了有效方法。
1、数据获取
请求网站链接
提取有用信息
这里采用BeautifulSoup库对刚刚获取的字符串进行数据提取,首先对网页进行检查,找到需要获取数据的标签:
可以发现7天的数据信息在div标签中并且id=“7d”,并且日期、天气、温度、风级等信息都在ul和li标签中,所以我们可以使用BeautifulSoup对获取的网页文本进行查找div标签id=“7d”,找出他包含的所有的ul和li标签,之后提取标签中相应的数据值,保存到对应列表中。
这里要注意一个细节就是有时日期没有最高气温,对于没有数据的情况要进行判断和处理。另外对于一些数据保存的格式也要提前进行处理,比如温度后面的摄氏度符号,日期数字的提取,和风级文字的提取,这需要用到字符查找及字符串切片处理。
下面爬取当天的数据
下面爬取7天的数据
tem_low = inf[1].find('i').string # 找到最低气温
return final_day,final
方法获取当天的数据,进而对当天的天气信息进行提取。
保存csv文件
2.可视化分析
当天温度变化曲线图
分析可以发现这一天最高温度为33℃,最低温度为28℃,并且平均温度在20.4℃左右,通过对时间分析,发现昼夜温差5℃,低温分布在凌晨,高温分布在中午到下午的时间段。
当天相对湿度变化曲线图
分析可以发现一天的温度和湿度具有强烈的相关性,他们呈负相关,这就说明他们时间是负相关关系,并且进一步分析,当温度较低时,空气中水分含量较多,湿度自然较高,而温度较高时,水分蒸发,空气就比较干 燥,湿度较低,符合平时气候现象。
空气质量指数柱状图
上面这张是南方珠海的控制质量图,可以看出空气质量指数最大也是在健康范围,说明珠海空气非常好,分析可以发现这一天最高空气质量指数达到了35,最低则只有14,并且平均在25左右,通过时间也可以发现,基本在清晨的时候是空气最好的时候(4-9点),在下午是空气污染最严重的时候,所以清晨一般可以去外面呼吸新鲜的空气,那时污染最小。
而下面这个空气质量图是选取的北方的一个城市,可以看到这里的环境远远比不上珠海。
风向风级雷达图
统计一天的风力和风向,由于风力风向使用极坐标的方式展现较好,所以这里采用的是极坐标的方式展现一天的风力风向图,将圆分为8份,每一份代表一个风向,半径代表平均风力,并且随着风级增高,蓝色加深,最后结果如下所示:
分析可以发现这一天西南风最多,平均风级达到了1.75级,东北风也有小部分1.0级,其余空白方向无来风。
未来14天高低温变化曲线图
统计未来14天的高低温度变化,并绘制出他们的变化曲线图,分别用虚线将他们的平均气温线绘制出来,最后结果如下所示:
分析可以发现未来14天高温平均气温为30.5℃,温度还是比较高,但是未来的第8天有降温,需要做好降温准备,低温前面处于平稳趋势,等到第8天开始下降,伴随着高温也下降,整体温度下降,低温平均在27℃左右。
未来14天风向风级雷达图
统计未来14天的风向和平均风力,并和前面一样采用极坐标形式,将圆周分为8个部分,代表8个方向,颜色越深代表风级越高,最后结果如下所示:
分析可以发现未来14天东南风、西南风所占主要风向,风级最高达到了5级,最低的西风平均风级也有3级。
未来14天气候分布饼图
统计未来14天的气候,并求每个气候的总天数,最后将各个气候的饼图绘制出来,结果如下所示:
分析可以发现未来14天气候基本是“雨”、“阴转雨”和“阵雨”,下雨的天数较多,结合前面的气温分布图可以看出在第8-9天气温高温下降,可以推测当天下雨,导致气温下降。
3、结论
1.首先根据爬取的温湿度数据进行的分析,温度从早上低到中午高再到晚上低,湿度和温度的趋势相反,通过相关系数发现温度和湿度有强烈的负相关关系,经查阅资料发现因为随着温度升高水蒸汽蒸发加剧,空气中水分降低湿度降低。当然,湿度同时受气压和雨水的影响,下雨湿度会明显增高。
2.经查阅资料空气质量不仅跟工厂、汽车等排放的烟气、废气等有关,更为重要的是与气象因素有关。由于昼夜温差明显变化,当地面温度高于高空温度时,空气上升,污染物易被带到高空扩散;当地面温度低于一定高度的温度时,天空形成逆温层,它像一个大盖子一样压在地面上空,使地表空气中各种污染物不易扩散。一般在晚间和清晨影响较大,而当太阳出来后,地面迅速升温,逆温层就会逐渐消散,于是污染空气也就扩散了。
3.风是由气压在水平方向分布的不均匀导致的。风受大气环流、地形、水域等不同因素的综合影响,表现形式多种多样,如季风、地方性的海陆风、山谷风等,一天的风向也有不同的变化,根据未来14天的风向雷达图可以发现未来所有风向基本都有涉及,并且没有特别的某个风向,原因可能是近期没有降水和气文变化不大,导致风向也没有太大的变化规律。
4.天气是指某一个地区距离地表较近的大气层在短时间内的具体状态。跟某瞬时内大气中各种气象要素分布的综合表现。根据未来14天的天气和温度变化可以大致推断出某个时间的气候,天气和温度之间也是有联系的。
4、代码框架
附源代码
tem_low = inf[1].find('i').string # 找到最低气温
html1 = getHTMLtext(url1)data1, data1_7 = get_content(html1) # 获得1-7天和当天的数据
if __name__ == '__main__':main()
tem_high_ave = sum(tem_high)/14 # 求平均高温tem_low_ave = sum(tem_low)/14 # 求平均低温
def wind_radar(data):"""风向雷达图"""wind1 = list(data['风向1'])wind2 = list(data['风向2'])wind_speed = list(data['风级'])wind1 = change_wind(wind1)wind2 = change_wind(wind2)
if __name__ == '__main__':main()
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.