LFPLM:基于预训练语言模型的通用灵活负荷预测框架 原创

发布于 2024-7-9 07:29
浏览
0收藏

​摘要——准确的负荷预测对于维持发电机和消费者之间的电力平衡至关重要,特别是在可再生能源日益融合的情况下,这些能源带来了显著的间歇性波动。随着数据驱动方法的发展,基于机器学习和深度学习的模型已成为负荷预测任务的主要方法。近年来,预训练语言模型(PLM)在各个领域表现出色,取得了显著进展。本文提出了一种基于PLM的负荷预测方法,该方法不仅具有准确的预测能力,还具有通用性和灵活性。此外,本文还提出了一种数据建模方法,可以有效地将负荷序列数据转换为自然语言以进行PLM训练。我们还引入了一种数据增强策略,以消除PLM幻觉对预测结果的影响。所提出方法的有效性已在两个现实世界数据集上得到了验证。与现有方法相比,我们的方法在所有验证指标上均表现出最先进的性能。

I. 引言

负荷预测在维持现代电力系统的稳定性中起着重要作用。通过准确的预测结果,电力系统可以最大限度地整合不稳定的可再生能源,如光伏和风能。近年来,基于机器学习和深度学习的方法由于其出色的性能,已成为负荷预测任务的主流方法。各种网络不断被改进以提高预测精度,如极端梯度提升(XGBoost)、随机森林(RF)和长短期记忆网络(LSTM)。

除了模型本身,用于训练这些模型的数据的质量和分布也对预测精度有影响。为了确保模型在一般任务上的最佳表现,通常会为特定模型设计数据建模和特征工程策略。例如,参考文献中,通过增加可用特征数量并将每日电力负荷信息转换为每周负荷信息,提出了一种基于XGBoost的电力负荷预测方案。另一篇文献展示了基于RF的负荷预测与专家选择相结合的灵活性,以适应复杂的客户行为。还有文献描述了一种基于LSTM的住宅负荷预测框架,结合了客户级别的数据分析。

面对来自不同场景的负荷数据的日益多样性,单一模型的有限能力有时难以实现高精度预测。一些研究通过结合多种方法来提高总体性能。例如,参考文献中,将RF和平均生成函数结合使用,设置可调权重参数用于短期负荷预测。另一篇文献提出了一种基于CNN和LSTM网络集成的混合方法来预测短期电力负荷。此外,还有文献通过结合时间卷积网络(TCN)和LightGBM来扩展多种不同类型工业客户的负荷预测应用。

最近,预训练语言模型(PLM)在深度学习领域表现出强大的准确性和灵活性。PLM模型中的注意力机制被证明在捕捉时间序列数据的长程依赖性方面非常有效,这对负荷预测任务很有帮助。一些正在进行的研究已经将PLM应用于时间序列预测。例如,有研究引入了一种基于提示的学习范式,用于时间序列预测,其中用户的数据集直接在模型上训练。另一篇研究通过对提示进行标记,并在保持大语言模型参数静止的情况下完成训练,通过更新重编程层参数完成训练。然而,PLM也有其自身的局限性,即在各种下游研究中普遍存在幻觉现象。在负荷预测任务中,幻觉可能导致极其不准确的预测或输出序列中的缺失值。

因此,本文提出了一种名为LFPLM的负荷预测框架,利用其灵活性和通用性,在多时间尺度和多场景数据集上实现更准确的结果。此外,本文引入了一种数据集建模方法,使PLM能够有效地执行预测。根据作者的知识,这是首个在电力系统负荷预测任务中应用PLM的研究。

本文的具体贡献如下:

1) 提出了一种基于PLM的通用且灵活的电力系统负荷预测方法。该方法可以应用于具有不同时间尺度的各种负荷预测任务。

2) 提出了一种结合语言和统计信息的数据集格式化方法,以更好地利用PLM的预测能力。

3) 提出了一种数据增强方法,通过将数值序列与语言描述分离来解决PLM的幻觉问题。

4) 验证了所提出方法在不同时间尺度的开源和现实世界负荷预测数据集上的有效性。与现有负荷预测方法相比,所提出框架的优越性和适应性得到了明确证明。

II. 数据集描述和建模

在本节中,我们介绍一种创建数据集以训练LFPLM的方法。从将数值数据转换为文本数据开始,我们将详细说明如何通过这些方法有效地微调模型。此外,还介绍了一种解决PLM幻觉现象的技术。需要强调的是,所提出的数据集建模方法适用于所有基于PLM的负荷预测任务。

A. 结合语言和统计信息

在常见的负荷预测任务中,历史负荷数据通常作为预测的输入。输入数据通常被建模为一个连续序列X ∈ RL×d,其中L和d分别表示序列的长度和维度。由于LFPLM需要以文本格式输入数据,我们提出了一种数据集建模方法,将数值序列转换为自然语言表达Xtext,如下所示:

 

LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

其中,xi 是输入序列中的第i个数据,R 表示实数集合,S代表从实数到文本的转换。

此外,为了进一步利用文本表达的优势,我们引入了统计信息 Xstat 来增强输入数据的特征维度,表示为 Xts。统计信息包括最大值、最小值和平均值。具体来说,我们使用预测时间前Nobs步内的最大值和最小值来建模全局特征,并用输入序列的平均值表示局部特征。

 

LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

其中,Xts表示具有统计信息的PLM输入,Xstat是包含最大值、最小值和平均值的统计信息,Xobs表示预测时间前Nobs时间步内的历史负荷数据。

B. 将数值序列与语言分离

负荷预测任务中幻觉现象的原因,如数据缺失或生成多余数据,可归因于两个主要方面:1)在将数值数据转换为文本描述的过程中,以字符串格式存储的数据长度不一致。2)PLM的预训练参数来源于自然语言的训练,因此缺乏有效识别纯数值的能力。

利用PLM对语言描述的敏感性,本节提出了一种数据增强方法,将数值数据与文本信息分离。增强输入数据集 Xets 基于 Xtext* 构建如下所示:

 

LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

其中,Xtext* 是带有时间信息的数值序列的文本表达,ti 是文本表达中与 xi 对应的时间步。

由于LFPLM的输出数据也以文本形式存在,因此在训练过程中需要相应的文本真实值。对于每种输入格式的 X,我们生成对应的真实值 Ygt

C. 预测数据集

为了评估所提出方法在负荷预测任务中的通用性和准确性,我们选择了以下两个不同时间尺度的现实世界数据集进行研究。

1) 电力负荷预测数据集(ELFD):这是一个在Kaggle上可用的开源数据集,涵盖了2015年至2020年间巴拿马地区超过40,000条小时负荷数据。该数据集可通过以下网址访问:kaggle.com/datasets/saurabhshahane/electricity-load-forecasting/data。

2) 工业客户负荷数据集(ICLD):这个现实世界数据集包括了2018年至2021年间10个工业客户约9000条日负荷数据。该数据集来自中国东部一个真实的电力系统。

两个数据集的分布如图1所示。本节中建立的策略下的详细示例数据集如表I所示。上述方法的有效性将在第四节中验证。

表I 基于所提出方法的数据集示例

 

LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区


LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

图1. 负荷预测数据集的分布

III. 提出的框架

在本节中,我们详细介绍了所提出的预测框架的基本结构和用于完成预测任务的PLM。此外,我们还详细说明了不同PLM的训练方法,并列出了用于评估其预测结果的指标。

A. 用于负荷预测的PLM

PLM结构上可以分为三类:

1. 仅编码器模型:以BERT为代表,这些模型通过掩码语言建模学习双向上下文编码器。训练目标包括随机掩码部分文本并预测被掩码的单词。这种架构主要适用于不需要序列生成的任务,而是需要编码和处理输入的任务,如文本分类和情感分析。

2. 仅解码器模型:以GPT和BLOOM为代表,这些模型通常用于序列生成任务,称为生成模型。它们直接从输入生成序列,并执行无监督预训练。然而,它们需要大量的训练数据来提高生成文本的质量和多样性。

3. 编码器-解码器模型:以T5和BART为代表,这些模型使用编码器处理输入序列,提取特征和语义信息,并使用解码器生成相应的输出序列。被称为序列到序列模型,它擅长处理输入和输出序列之间的关系,提高在机器翻译和对话生成等任务中的准确性。

根据负荷预测任务的特点,我们主要考虑基于仅解码器和编码器-解码器架构的PLM,如表II所示。此外,还选择了不同语言训练的PLM,以验证预测结果是否受自然语言表达的影响。


LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

B. 不同PLM的训练策略

我们的工作框架如图2所示。为了充分利用大模型中的预训练参数,我们采用多种训练方法针对不同的PLM,旨在实现最佳预测结果,同时保持训练效率。


LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

1. 全参数训练:在LFPLM下的全参数化训练方法用于训练PLM(除BLOOM外)与所提出的数据集。尽管这种方法牺牲了它们预训练参数的原始问题解决能力,但它可以在负荷预测任务中表现良好。

2. 参数高效微调(PEFT):如BLOOM等大语言模型,针对一般任务预训练,其预训练参数中编码了对知识的全面理解。然而,完全在专用数据集上训练这些模型会破坏预训练参数的分布模式,降低其在文本理解中的可行性。因此,我们采用了LoRA技术的PEFT方法微调模型参数。在此方法中,我们使用低秩分解模拟基于原始模型参数分布的参数变化,从而间接训练一个参数较少的大模型。我们处理来自原始模型的参数矩阵Wd×k如下:

Wd×k = Ud×r · Vr×k   r < d, k

其中r是低秩系数,U和V是低秩矩阵。

在我们的研究中,PEFT选定的参数是自注意层中的WQ、WK和WV指标,可训练参数总量占原始模型的10%。

C. 评估方法和指标

对于模型的预测结果,我们主要关心自然语言中的数值序列的准确性。根据第二节中的真实值格式设置,我们可以轻松从文本中提取数据序列,借此计算预测准确性以分析模型性能。

幻觉率被提出用于评估预测结果中的幻觉现象。我们研究中的三个评价指标分别是幻觉率、平均绝对误差(MAE)和均方根误差(RMSE),其定义如下:

 

LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

其中,N是样本数量,Yi是第i个预测结果,Yi,gt是对应的真实值,H ∈ (0, 1)是幻觉率,nh是幻觉样本的数量。

IV. 案例研究

在本节中,我们将验证所提出方法的有效性。首先,我们将展示训练过程中使用的物理环境和超参数配置。其次,我们将应用LFPLM预测框架到第二节介绍的两个数据集上。作为PLM的代表,Mengzi-T5模型将接受深入评估,并与传统方法的统计结果进行比较。此外,还将测试第三节提到的各种PLM,以确认其在预测任务中的能力。

A. 参数配置

我们的模型使用PyTorch和来自HuggingFace的Transformers实现,所有实验在NVIDIA 4090-24G GPU上进行。所有模型可以通过表II中的访问密钥从HuggingFace Model Hub访问。所提出框架和对比方法的超参数如表IV所示。


LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

B. 不同时间尺度数据集的预测结果

在ICLD和ELFD的验证集(长度分别为860和2670)中,我们计算了预测数据的幻觉率、MAE和RMSE。PLM的幻觉可能导致结果中出现缺失或多余问题。为了确保指标计算的准确性,我们解决这个问题的方法如下:1)用零补充缺失数据,2)移除多余数据以保持所有输出序列长度一致。我们使用Mengzi-T5模型作为LFPLM框架,并与传统方法(包括XGBoost、随机森林和LSTM)进行比较。如表III所示,LFPLM方法相比三种传统预测方法表现出最先进的性能。LFPLM、LFPLM-ts和LFPLM-ets方法仅在输入数据格式上有所不同,分别对应Xtext、Xts和Xets。预测结果表明,将长期统计信息整合到数据中可以提高预测准确性。为了提供直观的展示,LFPLM与其他方法的预测曲线如图3和图4所示。

 

LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区


LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

特别是,表III中的红色数据突出了预测中幻觉问题的影响,尤其是在ICLD数据集中,这导致RMSE显著高于正常值。我们确认这个问题源于预测数据序列中的缺失值。使用Xets作为输入数据时,幻觉率降至零,MAE和RMSE也显著改善。这些结果表明,在未预处理原始数据的情况下,PLM的预测能力尚未充分发挥。使用第二节中提出的方法,LFPLM可以有效消除幻觉并提高预测准确性。

C. 基于不同PLM模型的预测结果

我们验证了所提出方法在表II中给出的不同结构的PLM上的通用性。如表V所示,基于LFPLM的预测框架在不同PLM上始终实现了较低的MAE和RMSE,Mengzi-T5模型在两个数据集上的预测性能最佳。结果还表明,基于中文预训练参数和相应数据集的模型在预测任务中表现更好。我们通过两个中文预训练模型Mengzi-T5和BART-CN实现了更好的预测结果。使用我们提出的数据建模方法结合PEFT,BLOOM和BLOOM-CN模型在负荷预测任务中表现不佳。模型输出不准确,幻觉大量存在,如“电力消耗为1834,133,12699,,- - -,192,,”。尽管其输出的文本部分可以反映一些训练信息,但数值输出显示出显著的扭曲。因此,这两个模型的结果被排除在统计之外。


LFPLM:基于预训练语言模型的通用灵活负荷预测框架-AI.x社区

V. 结论

本文提出了一种基于预训练语言模型的通用且灵活的负荷预测框架,得出以下结论:

1. 建立了一种数据集格式化方法,将序列格式的数据转换为自然语言,以便PLM训练,并整合统计信息的语言描述以拓宽输入特征维度。

2. 针对PLM在负荷预测任务中的幻觉问题,提出了一种数据增强方法。通过适当分离数值序列和语言描述,幻觉率显著降低至0%。

3. 在两个现实世界数据集上验证了LFPLM的综合预测性能。LFPLM的MAE在ICLD和ELFD上分别降至40.6和4.0,显示出相对于现有方法的优越预测准确性。

在未来的工作中,我们旨在将更大的语言模型应用于负荷预测问题。我们将专注于建立适合大语言模型的数据集和开发训练方法,确保可靠的负荷预测,同时最大限度地利用预训练参数。此外,中文预训练模型在负荷预测任务中表现更好的原因尚不明确,我们将继续探究其背后的原因。此外,我们还将探索PLM在其他电力系统任务中的潜力,如故障诊断和电能质量分析。

Gao M, Zhou S, Gu W, et al. LFPLM: A General and Flexible Load Forecasting Framework based on Pre-trained Language Model[J]. arXiv preprint arXiv:2406.11336, 2024.

Southeast University

State Grid Jiangsu Electric Power Co.Ltd

本文转载自公众号AIRoobt ,作者:AIRoobt

原文链接:​​https://mp.weixin.qq.com/s/Fpikk13kncoWo-Lze7CZqg​



©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
标签
收藏
回复
举报
回复
相关推荐