基于机器学习的水厂短期供水量预测模型构建

徐 东,张 曾,周 迅,周伏虎

(中国水利水电第七工程局有限公司,成都,610213)

随着信息技术的蓬勃发展,智慧城市理念的提出,智慧水务已成为智慧城市建设的重要一环[1],其要求建设精细化、动态化、高效化的水务系统。短期供水量的精准预测可为科学供水提供指导,提高资源利用率。在市政管网中不利点水压达标的前提下,通过模型预测的供水量数据对供水模式进行优化。使得泵组在总功率相对较小的工况下工作,实现节能降耗的目的。目前,已有不少学者在此领域引入人工智能模型。如高赫余等[2]基于时间、气象、节假日等多种维度使用Adaboost技术来训练短期供水量预测模型;王盼等[3]考虑了产业结构、人口、GDP等数据,使用随机森林相关技术来对城市需水量进行预测;郭冠呈等[4]使用了BiLSTM神经网络进行了常州市15分钟粒度的供水量预测;王圃等[5]在BP神经网络的基础上,提出了多分辨BP神经网络的建模新思路;鞠佳伟等[6]基于多元线性回归法进行日供水量预测模型的构建。以上各种方案也取得了较好的预测效果。然而,由于气象差异、地域用水习惯差异等客观条件,上述解决方案无法直接推广应用。为更好地对时供水量进行预测,本文尝试使用ARIMA、随机森林、XGBoost、LSTM等算法进行建模,应用四川省乐山市夹江县城区小时粒度供水量数据对模型的推理能力进行验证。对物联网采集到的数据进行预处理,并从天气、日期、统计等角度进行人工特征的构造,使得模型具备良好的泛化能力。

图1 日供水量曲线

城市供水主要是自来水厂为城市的正常运转提供必要的水资源。由图1可见,水厂每日供水量有着明显的变化。时供水量有明显的周期性变化(早高峰、晚高峰),且与天气状况、节假日等诸多因素密切相关[7]。供水量的变化大致有周、季节、年的一些时序性规律。同时,由于一些极端天气、大型活动、社会热点事件等状况的发生,供水量也有一些随机的波动。

原始数据只包括供水总量及对应的时间戳,特征比较单薄。本文对初始特征进行了相应的特征变换。对时间戳数据按照峰、平、谷、节假日等维度进行特征扩展。另外,使用网络爬虫爬取了对应时间段的气象数据,并构建特征作为补充。

1.2.1 异常数据识别

异常值检测方法有很多,如周志华团队提出的孤立森林法、3倍标准差检测法、箱线图法等[8]。孤立森林属于无监督学习范畴,它将所有数据按照某个特征的随机值划分为两部分,对于每棵子树来说,针对数据集的不同特征值,会随机挑选特征值取值范围就可以逐渐将正常值和异常值分开。3倍标准差检测法是假定数据服从高斯分布,通常将3倍标准差的误差认为是数据的极限误差,因其理论简单和可靠的校验结果被广泛应用。本文主要采用3倍标准差的思路来对异常值进行识别。

1.2.2 异常数据处理

本文用ARIMA、随机森林、XGBoost、LSTM长短期记忆神经网络四种预测模型来对夹江水厂供水量进行预测并比较结果。

随机森林是一种集成算法,它由多个弱学习器组成。归功于随机的数据抽取和特征抽取,该算法有很强的泛化能力。

它的主要步骤如下:

(1)使用自助抽样法对原始数据集进行数据的抽取。

(2)无放回地随机抽取一定数量的特征,并在这些特征中选择最佳的分割[10]。自上而下地生成决策树并重复多次类似的操作。

(3)最终使用投票法决定决策结果。

(4)使用袋外理论来评估误差[10]。

XGBoost是由陈天奇提出的一种分布式的算法框架。它是对传统的梯度提升算法的一个改良,核心思想是基于残差的训练[11]。

XGBoost有如下优点:①对于缺失数据采用稀疏感知策略可以直接处理;②对训练的每个特征排序并且以块的结构存储在内存中,方便后面的重复利用;③算法自带了L1和L2正则项,可以有效防止过拟合;④损失函数包括了一阶导数和二阶导数;⑤在每次节点分裂前进行列随机采样,降低过拟合风险。

LSTM神经网络是RNN的一个变种,RNN与传统的神经网络相比,它最大的优势是带有动态的记忆性。它的结构如图2所示。

图2 RNN结构示意

RNNs在训练时采用了反向传播算法。在遇到长序列时,信息和残差在RNN神经元中传递会随时间逐步损耗而造成梯度消失。为此,人们在RNN的基础上提出了LSTM神经网络。该算法的结构如图3所示。

图3 LSTM结构示意

LSTM主要引入了三个经典的门结构,分别为遗忘门、输入门和输出门[12]。相对于RNN它有如下优点:具有长期记忆能力、改善RNN中的长时依赖问题,能够缓解梯度消失的情况。

数据和特征对模型的预测能力有着直接的影响。如何将原始数据衍生出多种维度,进而提高模型对未知数据的预测精度至关重要。

3.1.1 挖掘日期信息

日期的变化、四季的更替都和供水量息息相关[13]。例如夏季气温普遍较高,生活用水激增,而冬季的用水量会相对较少;在春节、国庆等长假中,由于人们的出行习惯等因素的影响,也会对用水量产生较大的波动。因此,对日期信息做了进一步细化,得出日期所属的季节、月份、年内第几天、月内第几天、周内第几天等信息。

日期按照类型又可分为节假日、双休日、调休日和工作日。日期的不同,居民的用水习惯会有所差异。为了使日期类型作为模型的输入项,需要对这几种不同的日期类型进行处理并转化为数值类型。由于春节、端午、中秋节等节假日的特殊性,会给传统的时间序列算法预测精度造成很大影响。因此,本文采用将不同节假日打不同标签的方法,这样的处理方法可以提高供水量预测的精度。

用水量峰、平、谷的变化和时间因素密切相关。通过分析数据发现,可按时段分为早高峰、晚高峰、平谷、低谷时段。并且有较强的周期,与居民的活动有较强的相关性。在早晚时间段,用水量会出现用水高峰。而在午夜后,会出现低谷期。基于建模的需要,本文对早高峰、晚高峰、平谷及低谷等时段进行数据映射。

3.1.2 挖掘气象数据

气候因素也会在很大程度上影响用户的用水行为。其中温度的影响最为突出。如遇到持续的高温天气会导致用水量的加大[14]。另外,还要考虑天气状况,风力大小也会影响到城市的生产生活。本文将天气状况按照晴天、阴天、降雨级别等维度进行分解。将气温按照多个区间进行分箱。

3.1.3 挖掘统计特征

由于城市供水是一个持续不断的过程,过往一段时间的供水量会对当前的供水量产生一定影响。为了深入挖掘时序变化所引起的供水量变化,笔者将上周同一天同一小时、昨天同一小时、最近一天平均供水量、最近三小时平均供水量等统计特征加入到模型之中。

综上所述,本节主要目标是建立时供水量预测模型,根据预测结果指导供水调度。所以有必要找出对供水量有影响的因素。本文考虑了季节、月份、星期、高峰、低谷、平谷、时间、平均气温、天气状况、风力、节假日等因素。同时,对供水量数据进行了统计特征的构造,经过对日期信息的特征扩展,可以得出该日期所属周的第几天、月的第几天、年的第几天等信息。通过以上的特征扩展,将原始数据构造出多维特征。

模型构建完成后,需要对它的推理能力做出评估。如果经过评估后达不到预期效果,还需要对模型进行不断迭代优化。对于本文中的时供水量预测模型,主要采用平均绝对百分比误差(MAPE)和平均绝对误差(MAE)作为评估依据,数学定义如式(1)和(2)。

(1)

(2)

本文构建出了如3.1所述的多维特征。但并不是需要将每个特征都要加入模型,大量的特征加入既会耗费大量的资源、又会影响模型的最终效果。因此,在建模时需要对特征进行筛选。

特征选择的方法有多种多样,如PCA、特征重要度排序、相关系数法、方差法。本文采用方差法结合Pearson相关系数来进行特征的初步筛选。首先将方差接近于零的变量进行过滤,在此基础上使用相关系数进行变量的二次过滤。如果变量之间相关系数的绝对值太小,则认为它们之间相关性较弱,本文将阈值设定在0.15。图4展示了各特征之间的相关性矩阵。

为了尽可能地让机器学习模型有更好的效果,有必要对超参数进行调优,不同的调参策略会使得模型的训练和预测效果不尽相同。常见的调参方式主要有手工调参、网格搜索、随机搜索、贝叶斯优化法[15]。

手动调参相对原始,需要人工大量的尝试,进而消耗宝贵的时间,且很难得到最佳的超参数。而网格搜索会穷举每一种可能的超参数组合来寻找最优值,调参过程也相对缓慢。随机搜索是一种随机采样的调参方式,往往可以获得近似最优解。贝叶斯优化可以用非常少的步数就能找到比较好的超参数组合。本文采用python结合相应的bayes_opt包来完成超参数的调优。

表1 模型预测效果对比

如表1所示,在同样的测试集上,使用XGBoost模型误差评估值MAPE为4.7,MAE为82.1,远低于其他几个模型,与其他模型相比预测效果有较大的提升。采用不同模型对时供水量的预测效果见图5-图8。

图5 采用ARIMA对时供水量的预测效果

图6 采用随机森林对时供水量预测的效果

图7 采用XGBoost对时供水量预测的效果

图8 采用LSTM对时供水量预测的效果

供水量预测建模采用特征工程、相关性分析和模型训练三大步骤。其中,特征工程构建了与天气状况、日期、时间等与供水量息息相关的因子。在此基础上,描述了用时间序列模型ARIMA、随机森林、XGBoost、长短期记忆神经网络LSTM四种算法对夹江城区供水量进行一个小时的短期预测。模型具有自动、实时、准确、方便等优点,与其他模型对比后发现使用XGBoost模型进行短时供水量预测有明显优势。XGBoost模型在数据集上有最高的精度,而其他几种模型的预测效果相对较差。

在对四种算法进行比较之后选择基于XGBoost算法建立水厂的短时供水量预测模型。将天气、日期等数据传入模型后,模型可以将数据进行特征扩充并快速、准确推理未来一小时的供水量。依据模型的推理结果,再结合调度人员的历史经验对城区的供水量进行合理调度,达到用科学技术提高管理经验的目的,实现节能降耗、减少水量损失的效果。

THE END
0.特征工程(III)特征构造特征工程(III)--特征构造 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。 特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤jvzquC41dnuh0lxfp0tfv8vsa6763A7991gsvrhng1jfvjnnu1748>:::98
1.特征选择与特征构造:结合使用的实践本文详细介绍了特征选择与特征构造在数据挖掘和机器学习中的重要性,涵盖了核心概念、算法原理、操作步骤及实际应用案例,包括信息增益、Lasso回归、生成树和PCA等方法。同时探讨了未来的发展趋势和挑战。 1.背景介绍 在数据挖掘和机器学习领域,特征选择和特征构造是非常重要的。特征选择是指从原始数据中选择出与目标变量相jvzquC41dnuh0lxfp0tfv8zpkxksu|p{42761jwvkerf1mjvckrt1:87:2>649
2.闲鱼搜索相关性——体验与效率平衡的背后特征构造 搜索相关性的特征这里分为三个维度:基础特征、文本匹配特征以及语义匹配特征。基础特征主要包括 query 和 item 的统计特征,以及结构化相关的匹配特征,如类目是否匹配、关键属性(品类、品牌、型号等)是否匹配。文本匹配特征主要是字面上的匹配特征,如 term 匹配数、匹配率、带同义词策略的匹配、带 term weighjvzquC41yy}/kwkqs0io1jwvkerf1VrcSk{:vP6U{6LJZT;cK
3.Python机器学习应用之工业蒸汽数据分析篇详解python#%%对训练集和测试集进行特征构造 train_data2, test_data2 = auto_features_make(train_data,test_data,func_dict,col_list=test_data.columns) 四、对特征构造后的训练集和测试集进行主成分分析 1 2 3 4 5 6 7 8 9 10 11 12 #%%PCA from sklearn.decomposition import PCA #主成分分析法 #PCA方法jvzquC41yy}/lk:30pku1jwvkerf1;86;7
4.机器学习特征工程3自动特征构造(FeatureTools)Featuretools是一个执行自动特征工程的框架。它擅长于为深度学习把互相关联的数据集转换为特征矩阵。我们可以将特征构造的操作分为两类:「转换」和「聚合」。我们通过下面的例子来了解FeatureTools使用方法。 代码示例地址: https://github.com/scottlinlin/auto_feature_demo.git jvzquC41yy}/lrfpuj{/exr1r1=29A7fdg8f3n
5.建议收藏机器学习数据预处理(四)——特征构造(内附代码)本文介绍了特征构造的方法,包括类别特征的编码、独立热编码、频率编码和目标编码;数值特征的二值化和交互特征;时间特征的基础周期特征、特殊周期特征和时间差。通过实例展示了如何对数据进行有效处理。 📌特征含义类型 非匿名特征:此部分的特征一般都带有特定的意义,我们可以根据不同的意义来挑选特征,构造特征。 jvzquC41dnuh0lxfp0tfv8|gkzooa=92576::8ftvkimg8igvcomu86487::8@9
6.特征工程实战特征工程-特征构造 1 特征构建引言 如下数据如何放入机器学习算法中 可以看出数据中有分类数据,还有缺失值,非数值型的数据,目前的大部分机器学习算法是不能处理有缺失值的数据,机器学习使用的都是数学和统计学的方法,所以需要对这份数据进行特征构建,使它能够放入到机器学习中去。jvzquC41dnuh0lxfp0tfv8r2a7823A<851gsvrhng1jfvjnnu1734?62:39
7.基于对称注意力机制的视觉问答系统显示缩略图 本文结构 1 引言 2 相关工作 2.1 视觉问答 2.2 注意力机制 3 视觉问答方法模块介绍 3.1 基于LSTM和RCNN的特征构造 3.2 对称注意力模型 3.3 新模型整体架构 3.4 总结 4 实验 4.1 数据集和实验细节 4.2 实验细节 4.3 实验分析 5 结论与展望 参考文献 jvzquC41e/y.c7tti0io1qyon1814:4719?377mvon
8.湘东新元古代沉积岩的地球化学和碎屑锆石年代学特征及其构造意义27 努尔喀纳提·马达依普;湘东新元古代沉积岩的地球化学和碎屑锆石年代学特征及其构造意义[D];新疆大学;年 28 徐文平;内蒙古达青牧场一带二叠系碎屑锆石年龄及其地质意义[D];中国地质大学(北京);年 29 柏治安;湘东新元古代沉积岩的地球化学和碎屑锆石年代学特征及其构造意义[D];桂林理工大学;年 30 任晓锋;东天jvzquC41yy}/ewpk0eun0ls1Ctzjeuj1ELLEVxycn/_TZK72347329:0jvs
9.东秦岭北部富碱侵入岩带岩石地球化学特征及构造意义的岩石学和地球化学,关于岩石类型、岩石组合及时空分布方面的成果,已有另文阐述[9],本次工作选择塔山、鱼池、双山、乌烧沟、磨沟、张士英、太山庙、龙王幢、草庙、三合等富碱侵入体,在区域上研究各类岩石的主元素组成、痕量元素和Nd,Sr和Pb同位素,探讨这些岩石的化学成分空间分布变化规律、形成构造环境与源区特征jvzq<84yyy4hnxgcnikprjwm0qxh0ls1vjktk|46929/j}r
10.读《金赛性学报告》学到的一些性学知识日记一、女性生理构造特征 女性阴道的感受力很低,这我已经在豆瓣上看到过科普的帖子了,几十年前的解剖学研究也早已揭示了这一点。这本书也提到,“大多数女人的阴道内壁缺乏触觉感受器官…只是极靠近阴道开口处才会有所反应”,性交合中的插入引起的更多是心理上的满足感,还有此动作附加的对小阴唇、阴蒂和阴道前庭的挤压jvzquC415i4eq~gcp0ipo8sqvg592@>363981HktqoCbw}mqt
11.机器学习中的特征工程机器学习特征工程4、寻找高级特征(特征构造) 四、特征工程降维 一、特征工程概述 特征工程是数据分析中最耗时间和精力的一部分工作。数据和特征决定了机器学习的上限,而模型和算法则是逼近这个上限。因此,特征工程就变得尤为重要了。特征工程的主要工作就是对特征的处理,包括数据的采集,数据预处理,特征选择,甚至降维技术等跟特征有关jvzquC41dnuh0lxfp0tfv8fukcrfghgktf5bt}neng5eg}fknu596A;5636