图1 基于TA-LSTM的时间序列预测框架
纸质出版日期:2024-06-20,
网络出版日期:2023-12-27,
收稿日期:2023-07-26
扫 描 看 全 文
引用本文
阅读全文PDF
时间序列预测即利用历史时间序列数据,预测未来一段时间内的数据信息,以便提前制定相应策略。目前,时间序列的类别复杂繁多,而现有的时间序列预测模型面对多种类型数据时无法取得稳定预测的结果,进而难以同时满足对现实中多种复杂的时序数据预测的应用需求。针对上述问题,提出了一种基于时间注意力机制双向长短期记忆网络的时间序列预测方法。笔者提出的网络模型采用改进的正向和反向传播机制提取时序信息并通过自适应权重分配策略推理未来的时序信息。具体来说,设计了一个改进的双向长短期记忆网络,通过结合双向长短期记忆和长短期记忆网络提取深度时间序列特征,挖掘上下文的时序依赖关系。在此基础上,融合所提出的时间注意力机制,实现对深度时间序列特征进行自适应加权,提升深度时序特征的显著性表达能力。通过与同类代表性方法在多个不同类别数据集上的客观定量对比,实验结果表明,该方法能够在多种类别的复杂时间序列数据上更优的预测性能。
Time series prediction means the use of historical time series to predict a period of time in the future,so as to formulate corresponding strategies in advance.At present,the categories of time series are complex and diverse.However,existing time series prediction models cannot achieve stable prediction results when faced with multiple types of time series data.The application requirements of complex time series data prediction in reality are difficult to simultaneously meet.To address the problem,a time series prediction method is proposed based on the Bidirectional Long and Short-term Memory(BLSTM) with the attention mechanism.The improved forward and backward propagation mechanisms are used to extract temporal information.The future temporal information is inferred through an adaptive weight allocation strategy.Specifically,an improved BLSTM is proposed to extract deep time series features and explore temporal dependencies of context by combining BLSTM and Long Short-term Memory(LSTM) networks,on the basis of which the proposed temporal attention mechanism is fused to achieve adaptive weighting of deep time series features,which improves the saliency expression ability of deep time series features.Experimental results demonstrate that the proposed method has a superior prediction performance in comparison with some representative methods in multiple time series datasets of different categories.
随着大数据时代的到来,复杂时序数据的数量呈指数级增长[
针对时间序列的预测,国内外学者已开展了大量研究。最早,YULE[
近年来,随着深度学习方法在各领域取得的成功应用,基于深度学习的时间序列预测方法得到了广泛重视。早期,MEDSKER等[
随后,KAUSHIK等[
针对上述问题,笔者提出了一种基于时间注意力机制双向长短期记忆网络的时间序列预测方法。基于改进的双向长短期记忆网络提取深度时间序列特征,挖掘深度时间序列特征的上下文时序依赖关系,并融合时间注意力机制,对深度时间序列特征进行自适应加权,提升深度时序特征的显著性表达能力。通过在多个时间序列数据集与同类代表性方法的多指标客观定量对比,验证了该方法的可行性和优越性。
基于已知时间序列数据预测未来时间的数据序列,构建基于时间注意力机制双向长短期记忆网络模型——TA-LSTM,其框架如
图1 基于TA-LSTM的时间序列预测框架
文中通过自回归生成方法,使用历史观测数据,迭代预测未来的状态空间。设原始时间序列长度为l+p,取前l项历史数据为模型输入I1={X1,X2,…,Xl},后p个数据为预测结果的真实值O={Xl+1,X l+2,…,Xl+p}。其中,Xl∈Rm,m为特征维度。经过一次TA-LSTM时间序列预测网络模型后,输出未来时刻的数据信息为X'n+1,将输出结果添加至原始输入时间序列I的尾部,并相应去除X1,以得到下一时刻的输入时序序列I2={X2,X3,…,X'
框架中TA-LSTM网络模型结构的详细预测过程,如
图2 TA-LSTM网络结构示意图
LSTM通过引入控制门(Gate)和记忆细胞(Memory Cell),获取时间序列数据的时序依赖,其网络结构如
图3 LSTM网络结构示意图
LSTM网络结构中,Xt和Yt分别代表在t时刻模型的输入信息和输出信息,Ct和Ht则分别代表LSTM模型的细胞状态(Cell State)和隐藏状态(Hidden State)。ZfZi和Zo分别代表遗忘门(Forget Gate),输入门(Input Gate)和输出门(Output Gate),采用矩阵乘积和激活函数运算得到各个控制门的状态。Zc则是将输入Xt经过tanh函数非线性激活后得到的临时细胞状态,代表历史输入信息的累积。bf,bi,bo和bc分别代表偏置项。其中,Zf,Zi,Zo,Zc以及Ct的计算公式如式(1)所示:
| (1) |
其中,×为矩阵乘积,+为矩阵相加,σ(·)为sigmoid激活函数,tanh(·)为tanh激活函数。
LSTM模型通过当前输入Xt和之前输入对本次输入所产生的影响Ht-1决定序列的输出Yt,并通过训练学习细胞状态Ct决定输入Xt对下次输出影响程度Ht。其中,LSTM模型的输出Yt可表示为
$\boldsymbol{Y}_{t}=\boldsymbol{H}_{t}=\boldsymbol{Z}_{o} * \tanh \left(\boldsymbol{C}_{t}\right)$, | (2) |
其中,*为Hadamard积。
为获取更多的相关性信息,将输入序列同时输送到正向传播和反向传播的两个LSTM单元中,再将两个单元的输出结果拼接得到BLSTM的输出结果Y't,可表示为
,![]() | (3) |
其中,和$\overleftarrow{\boldsymbol{Y}}_{t}$分别代表正向传播和反向传播在t时刻的输出结果。
将Y't作为中间变量输入TA-LSTM中LSTM单元,由式(2)得到LSTM输出的结果Yf。
BLSTM模型虽然可兼顾前后时间信息,但由于时间序列各时刻的特征与当前预测值的关联程度不同,直接将正向和反向LSTM提取到的特征信息拼接作为预测结果,使BLSTM对所有信息的重视程度是相同的,易导致预测结果出现偏差。由于LSTM时序捕捉能力较强,选择在BLSTM提取的特征的同时,通过嵌入LSTM进一步提取时序上的信息,得到更深层次的时序依赖关系。同时,为增强不同时序特征对当前预测序列的显著性表达,基于上述可正向和反向传播的LSTM网络模型,设计基于时间注意力机制的网络模型TA-LSTM,实现对深度时间序列特征进行自适应加权。
针对自适应加权的注意力机制,相关学者在文本分类[
考虑时间序列在时序上的关联性,将经过BLSTM和LSTM网络后的输出特征Yf视作注意力层的输入特征,采用tanh函数激活,使输入序列信息更加平稳,以保证更合理的分配权重。接着,经过归一化后的输入与注意力参数矩阵ωT相乘,加上偏置权重b经Softmax函数非线性激活,得到窗口内时间序列特征的权重得分St。通过矩阵广播机制,将得分St与原输入特征进行Hadamard乘积,得到注意力输出结果H'a。其中,St和H'a的计算公式如式(4)和式(5)所示
$\boldsymbol{S}_{t}=\operatorname{Softmax}\left(\boldsymbol{\omega}^{\mathrm{T}} \times \tanh \left(\boldsymbol{Y}_{f}\right)+\boldsymbol{b}\right)$, | (4) |
$\boldsymbol{H}_{a}^{\prime}=\boldsymbol{Y}_{f} * \boldsymbol{S}_{t}$, | (5) |
其中,Yf∈Rn×d 为TA-LSTM中LSTM层的输出结果,n为输入序列长度,d为隐藏层的输出个数。
参数矩阵ωT在网络模型训练时,通过反向传播算法更新其参数,Softmax函数计算为
Softmax(Xi)= | (6) |
H'a相加求和并经过全连接层得到注意力机制的最终输出结果。
时间注意力在LSTM层提取时序信息后,通过式(4),计算得到可以适应不同时刻的权重得分St。随后,不同的权重得分St对LSTM提取到的时序信息进行加权,自适应地增强不同时序特征对当前预测序列的显著性表达。
为测试TA-LSTM网络模型对时间序列数据的预测性能,选择LightGBM[
羽毛球竞技动作时序数据集由羽毛球领域专业人士通过20位国际顶尖羽毛球运动员在多类国际赛事上的78场完整的羽毛球比赛数据记录而成,包含6 311回合的技术动作时间序列;AirQuality[
由于时间序列预测是在一个序列上的连续预测过程,基于历史数据的一次次迭代捕捉序列间隐藏的时间或顺序上的依赖关系,并依据这种依赖关系对未来未知序列进行预测。因此,文中采用滑动窗口[
数据集名称 | 类型 | 特征数 | 数据集长度 |
---|---|---|---|
Badminton | 国际羽毛球比赛数据 | 4 | 3 155 537 |
AirQuality[ | 意大利空气质量数据 | 12 | 9 538 |
Power[ | 法国家庭用电量数据 | 8 | 2 075 260 |
其中,羽毛球竞技动作时序数据集(Badminton)的每一个序列由一个击打动作文本构成,包含击球位置(pos)、正反手(hand)、击球动作(tec)及击球路径(path)等4个维度特征,如
特征 | 值 | 取值数量 |
---|---|---|
pos | 中中场,中前场,中后场… | 9 |
hand | 反手,头顶,正手 | 3 |
tec | 劈吊,勾,吊,抽,接杀挑… | 19 |
path | 中路,斜线,直线 | 3 |
由于上述4个特征取值较多,导致对应的编码数值波动较大,易造成梯度下降速度变缓,不利于深度学习模型收敛。针对上述问题,对上述特征分别进行归一化操作,将其数据分布缩放到[-1,1]区间内,其算式为
Xi= | (7) |
其中,Xmax为该特征数据的最大值,Xmin为该特征数据的最小值。
为获取合理的TA-LSTM网络模型参数,在TA-LSTM网络模型的训练过程中,采用自监督学习方法。设时间序列总长度为L,以滑动窗口的方式,将训练数据划分(L-l-p)个序列作为训练数据进行使用。以击打动作序列长度即时间窗口长度为5为例,其由原始数据产生经过处理得到击打动作时间序列的过程如
图4 滑动切片为击打动作时间序列示意图
设TA-LSTM网络模型的输出值$\boldsymbol{y}=\left[\boldsymbol{y}_{1}, \boldsymbol{y}_{2}, \boldsymbol{y}_{3}, \boldsymbol{y}_{4}\right]$分别代表击球位置(pos)、正反手(hand)、击球动作(tec)及击球路径(path)等特征的预测值,采用如式(8)中所示的均方误差(Mean Squared Error,MSE)作为训练损失函数。
为获取最优TA-LSTM隐藏层神经元数,以64为步长,基于Badminton数据集,采用LMSE做损失函数在[64,384]区间上讨论隐藏层神经元数目对TA-LSTM网络模型的预测性能,部分实验结果如
图5 基于Badminton数据集不同隐藏层神经元数的均方误差
由
由于羽毛球运动员的击打动作具有强的时序性,且与其已有的击打动作具有强的关联性。为获取最佳的击打动作序列长度,以1为步长,采用均方误差,分别在区间[3,6]上讨论击打动作序列长度对TA-LSTM网络模型的预测性能,部分实验结果如
图6 基于Badminton数据集中不同动作序列长度的均方误差
由
为客观定量评价TA-LSTM网络模型的预测性能,基于上述Badminton数据集,分别采用均方误差、平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)和皮尔逊相关系数(Pearson Correlation Coefficient,PCC)进行综合评估,上述评价指标的计算为
| (8) |
其中,m代表特征维度,n为训练样本个数,
部分实验结果如
网络模型 | 评价指标 | |||
---|---|---|---|---|
MAE↓ | MSE↓ | RMSE↓ | PCC↑ | |
LightGBM[ | 0.438 | 0.558 | 0.491 | 0.704 |
LSTM[ | 0.243 | 0.372 | 0.342 | 0.883 |
BLSTM[ | 0.227 | 0.327 | 0.296 | 0.896 |
BLSTM-L[ | 0.226 | 0.324 | 0.290 | 0.905 |
Transformer[ | 0.232 | 0.387 | 0.305 | 0.887 |
Att-BLSTM[ | 0.228 | 0.326 | 0.297 | 0.899 |
TA-LSTM(文中方法) | 0.223 | 0.323 | 0.281 | 0.904 |
在测试集上,取4组击打时间序列长度为5的数据为一个批量(batch size),得到输入序列、注意力机制的输入特征热力图、注意力机制得分St以及模型标签及预测结果对比,如
图7 部分结果展示
由
为进一步验证TA-LSTM网络模型的预测性能,分别在AirQuality[
网络模型 | AirQuality[ | Power[ | ||||||
---|---|---|---|---|---|---|---|---|
MAE↓ | MSE↓ | RMSE↓ | PCC↑ | MAE↓ | MSE↓ | RMSE↓ | PCC↑ | |
LightGBM[ | 0.649 | 0.727 | 0.693 | 0.803 | 0.450 | 0.534 | 0.478 | 0.716 |
LSTM[ | 0.423 | 0.670 | 0.646 | 0.910 | 0.163 | 0.391 | 0.319 | 0.823 |
BLSTM[ | 0.426 | 0.678 | 0.651 | 0.902 | 0.179 | 0.424 | 0.345 | 0.826 |
BLSTM-L[ | 0.432 | 0.674 | 0.664 | 0.878 | 0.177 | 0.407 | 0.332 | 0.816 |
Transformer[ | 0.461 | 0.809 | 0.708 | 0.901 | 0.184 | 0.390 | 0.350 | 0.824 |
Att-BLSTM[ | 0.488 | 0.867 | 0.766 | 0.837 | 0.174 | 0.381 | 0.320 | 0.827 |
TA-LSTM(文中方法) | 0.397 | 0.596 | 0.626 | 0.922 | 0.166 | 0.370 | 0.318 | 0.832 |
由
在现有的时间序列预测方法上,机器学习方法大多适用于单变量预测,在处理多变量协同的多元时间预测上难以发现时序上的关系;基于Transformer的方法更适用于捕捉多元变量的长期趋势关系,但点稀疏形式的注意力限制了其对上下文时序信息的深度挖掘;而基于LSTM的对比方法存在或多或少的对时序重视程度以及深层次特征提取的问题。因此,这些现有的模型都难以同时满足对现实中多种复杂的时序数据预测的应用需求。TA-LSTM网络模型采用正向和反向传播机制提取时序信息,并经过LSTM进一步得到深度时序特征依赖关系,最终通过自适应权重分配策略,使得TA-LSTM网络模型对于不同时序信息的拟合度高,从而避免了因时间序列上下文不一致导致的依赖信息丢失问题。因此,模型在实验上表现出较优的预测性能和较强的泛化能力。
为了验证TA-LSTM各组件对模型整体贡献,文中继续对模型进行消融实验。分别对文中贡献最大的3个组件:时间注意力机制(Time Attention)、提取深度时序特征依赖关系的LSTM模块以及主干网络BLSTM进行3组不同的消融实验。本次实验在Badminton数据集上进行预测,(w/o)表示去除某个模块后TA-LSTM剩余部分的模型,其实验结果如
方法 | Badminton | |||
---|---|---|---|---|
MSE↓ | MAE↓ | RMSE↓ | PCC↑ | |
(w/o) Time Attention | 0.236 | 0.365 | 0.301 | 0.890 |
(w/o) BLSTM | 0.228 | 0.325 | 0.293 | 0.901 |
(w/o) LSTM | 0.225 | 0.325 | 0.297 | 0.904 |
TA-LSTM | 0.223 | 0.323 | 0.281 | 0.904 |
由
笔者提出了一种基于时间注意力机制双向长短期记忆网络的时间序列预测方法,基于双向长短期记忆网络提取深度时间序列特征,挖掘上下文的时序依赖关系。采用融合时间注意力机制策略,对深度时间序列特征进行自适应加权,提升深度时序特征的显著性表达能力。通过与同类代表性网络模型在多个不同时间序列数据集上的客观定量对比,结果表明该方法可以预测多种复杂的现代时间序列数据任务,具有较强的泛化性和优异的时序预测性能。为提高TA-LSTM的性能,未来将面向更多领域的复杂时间序列数据,对模型做进一步的完善和优化
KOWSARI K, MEIMANDI K J, HEIDARYSAFA M, et al. Text Classification Algorithms:A Survey[J]. Information, 2019, 10(4):150-172. [百度学术]
DURAIRAJ D M, MOHAN B H K. A Convolutional Neural Network Based Approach to Financial Time Series Prediction[J]. Neural Computing and Applications, 2022, 34(16):13319-13337. [百度学术]
CAMASTRA F, CAPONE V, CIARAMELLA A, et al. Predictionof Environmental Missing Data Time Series by Support Vector Machine Regression and Correlation Dimension Estimation[J]. Environmental Modelling & Software, 2022, 150:1043-1053. [百度学术]
刘惠, 董锡耀, 杨志涵. 融合Stacking框架的BiGRU-LGB云负载预测模型[J]. 西安电子科技大学学报, 2023, 50(3):83-94. [百度学术]
LIU Hui, DONG Xiyao, YANG Zhihan. Bigru-LGB Cloud Load Prediction Model Incorporating Stacking Framework[J]. Journal of Xidian University, 2023, 50(3):83-94. [百度学术]
张梦迪, 徐庆, 刘振鸿, 等. 基于动态滑动窗口BP神经网络的水质时间序列预测[J]. 环境工程技术学报, 2022, 12(3):809-815. [百度学术]
ZHANG Mengdi, XU Qing, LIU Zhenhong, et al. Water Quality Time Series Prediction Based on Dynamic Sliding Window BP Neural Network[J]. Journal of Environmental Engineering Technology, 2022, 12(3):809-815. [百度学术]
MOHANTY M K, THAKURTA P K G, KAR S. Agricultural Commodity Price Prediction Model:A Machine Learning Framework[J]. Neural Computing and Applications, 2023, 35(20):15109-15128. [百度学术]
YULE G U. On A Method of Investigating Periodicities Disturbed Series,with Special Reference to Wolfer's Sunspot Numbers[J]. Philosophical Transactions of the Royal Society of London.Series A,Containing Papers of a Mathematical or Physical Character, 1927, 226(636-646):267-298. [百度学术]
WALKER G T. On Periodicity in Series of Related Terms[J]. Proceedings of the Royal Society of London.Series A,Containing Papers of a Mathematical and Physical Character, 1931, 131(818):518-532. [百度学术]
CHO C, KWON K, WU C. On Weather Data-Based Prediction of Gamma Exposure Rates Using Gradient Boosting Learning for Environmental Radiation Monitoring[J]. Sensors, 2022, 22(18):7062. [百度学术]
LIU S, FU B, WANG W, et al. Dynamic Sepsis Prediction for Intensive Care Unit Patients Using Xgboost-Based Model with Novel Time-Dependent Features[J]. IEEE Journal of Biomedical and Health Informatics, 2022, 26(8):4258-4269. [百度学术]
SIŁKA J, WIECZOREK M, WOŁNIAK M. Recurrent Neural Network Model for High-Speed Train Vibration Prediction from Time Series[J]. Neural Computing and Applications,2022,34(16):13305-13318. [百度学术]
HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780. DOI:10.1162/neco.1997.9.8.1735 [百度学术]
HAFEZI L, REZAEIAN M. Neural Architecture for Persian Named Entity Recognition[C]//Proceedings of 4th Iranian Conference on Signal Processing and Intelligent Systems. Piscataway:IEEE, 2018:61-64. [百度学术]
KAUSHIK P, GUPTA A, ROY P P, et al. EEG-Based Age and Gender Prediction Using Deep BLSTM-LSTM Network Model[J]. IEEE Sensors Journal, 2019, 19(7):2634-2641. DOI:10.1109/JSEN.2018.2885582 [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need[J]. Advances in Neural Information Processing Systems, 2017, 30:2171-2184. [百度学术]
KITAEV N, KAISER Ł, LEVSKAYA A. Reformer:The Efficient Transformer[C]//Proceedings of 9th International Conference on Learning Representations. La Jolla: ICLR, 2020:1-12. [百度学术]
ZERVEAS G, JAYARAMAN S, PATEL D, et al. A Transformer-Based Framework for Multivariate Time Series Representation Learning[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. New York: ACM, 2021:2114-2124. [百度学术]
ZHOU H, ZHANG S, PENG J, et al. Informer:Beyond Efficient Transformer for Long Sequence Time-Series Forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI, 2021:11106-11115. [百度学术]
LIU G, GUO J. Bidirectional LSTM with Attention Mechanism and Convolutional Layer for Text Classification[J]. Neurocomputing, 2019, 337:325-338. [百度学术]
PRADHAN T, KUMAR P, PAL S. CLAVER:An Integrated Framework of Convolutional Layer,Bidirectional LSTM with Attention Mechanism based Scholarly Venue Recommendation[J]. Information Sciences, 2021, 559:212-235. [百度学术]
AGARWAL N, BRUKHIM N, HAZAN E, et al. Boosting for Control of Dynamical Systems[C]//Proceedings of International Conference on Machine Learning. New York: PMLR, 2020:96-103. [百度学术]
GASPARIN A, LUKOVIC S, ALIPPI C. Deep Learning for Time Series Forecasting:The Electric Load Case[J]. CAAI Transactions on Intelligence Technology, 2022, 7(1):1-25. [百度学术]
117
浏览量
59
下载量
0
CSCD
相关文章
相关作者
相关机构