基于深度强化学习的投资组合配置动态优化
投资组合优化是金融中的核心挑战,涉及资金在多个资产间的动态配置,传统方法存在假设限制和适应性不足的问题。本研究探讨深度强化学习在投资组合优化中的应用。结果表明,深度强化学习(DRL)模型在投资组合优化中表现优异,年化平均回报率为19.56%,夏普比率为1.5550,显示出卓越的风险调整回报。
论文地址:https://arxiv.org/pdf/2412.18563
摘要
人工智能正在改变金融投资决策,深度强化学习(DRL)在机器人顾问服务中展现出应用潜力。传统投资组合优化方法在动态资产权重调整中面临挑战。
本文提出一种动态优化模型,利用深度强化学习实现更有效的资产配置。创新点:
- 提出专为Actor-Critic算法设计的夏普比率奖励函数,通过随机采样和强化学习优化投资组合表现。
- 设计符合资产优化目标的深度神经网络。
通过对CSI300指数成分股的实证评估,与传统方法(均值-方差优化、风险平价策略)进行比较。回测结果显示该动态优化模型在资产配置中有效,提升了风险降低、风险回报指标和整体表现。
简介
人工智能(AI)在自然语言处理领域取得显著进展,ChatGPT通过“人类反馈强化学习”(RLHF)提升了语言理解和生成能力。RLHF结合了深度学习和强化学习,显著提高了AI系统的性能和对齐。深度强化学习(DRL)在自然语言处理、游戏AI和机器人控制等领域表现出色,但在金融领域的应用仍处于探索阶段,尤其是在投资组合优化方面。
投资组合优化是金融中的核心挑战,涉及资金在多个资产间的动态配置,传统方法存在假设限制和适应性不足的问题。本研究探讨深度强化学习在投资组合优化中的应用,开发新奖励函数和深度神经网络架构,旨在构建智能动态资产配置模型,推动金融领域的AI应用。
相关工作
马科维茨建立了现代投资组合理论,推动了投资组合优化的定量分析方法。塞缪尔森认为马科维茨模型适用于单期投资,但对多期资产配置不足,提出了财富规划的效用函数。后续研究者(如凯利、默顿等)扩展了效用函数在资产配置优化中的应用,但存在选择函数的主观性和普适性未验证的局限。黑利特曼模型引入主观元素,假设市场存在隐含均衡收益,但对主观预期的置信水平缺乏统一标准。查恩斯等人提出的数据包络分析(DEA)为资产配置优化提供了非参数分析框架。柯克帕特里克将模拟退火算法应用于投资组合优化,阿尔诺等人则使用遗传算法来最小化投资风险。这些模型普遍将投资组合权重调整视为静态,未考虑时间维度及资产配置随交易活动的演变。
经典资产配置模型(如Markowitz框架)通过将资产权重与预期收益相乘来计算投资组合收益,但在动态交易环境中,应使用实际收益而非预期收益。投资组合的终期收益应基于前期资产权重与当前期资产实际收益的乘积,许多金融优化模型(如条件风险价值模型、风险平价模型等)忽视资产权重的时间演变,导致模型在实际交易中的有效性受损。传统金融计量分析方法及复杂算法(如DEA、模拟退火、遗传算法)未能充分捕捉投资组合权重动态调整,难以实现最佳资产配置策略。深度强化学习(DRL)通过深度神经网络提升了传统强化学习(RL)的目标函数近似能力,早期RL主要使用策略梯度(PG)和Q学习算法。Moody等人首次应用PG算法于单资产管理,后续研究多集中于单风险资产管理,如Dempster等的外汇交易模型。Q学习算法在资产管理中的应用也由Neuneier、Gao等人进行,但仍限于单资产管理。一些学者在DRL优化资产配置时忽视了深度神经网络设计和资产权重约束(∑𝜔𝑖,𝑡=1)。近期,Jiang等人提出了针对加密货币市场的DRL资产优化模型,但其交易成本推导存在数学不一致性,需进一步验证模型在其他资本市场的有效性。
当前的深度强化学习(DRL)投资组合优化模型主要基于投资组合回报的奖励函数,但在中国股市表现不佳,导致研究者采用固定投资权重的方式进行回测,违背了DRL模型的初衷。研究者们已提出多种新奖励函数以提升DRL的资产优化性能,如Wu等人使用定制的夏普比率奖励函数,Almahdi等人结合Calmar比率与递归强化学习(RRL)优化美国和新兴市场资产。本研究提出了一种专为Actor-Critic算法设计的夏普比率奖励函数,增强模型稳定性并优化动态投资组合过程。研究还开发了一种专门的深度神经网络架构,结合VGG网络设计原则,优化处理三维结构的时间序列数据,提升模型的泛化能力并降低过拟合风险。本研究在长仓限制下应用DRL模型优化CSI300成分股投资组合,并与多种计量经济学优化模型进行系统比较,验证DRL模型在资产配置优化中的有效性。该研究为学术界提供了新的投资组合优化方法,并为实际投资组合管理提供了有效解决方案,展示了在真实交易环境中动态资产权重变化的潜力。
DRL模型配置
深度强化学习(DRL)可用于交易,表示为轨迹𝜏,符合马尔可夫决策过程(MDP)框架。交易过程可视为MDP,账户启动到结束构成一个episode。本研究将投资组合交易者定义为代理,建立状态、动作和奖励规范。实施DRL算法和深度神经网络进行投资组合优化。
状态空间
状态空间在深度强化学习(DRL)中构成了代理与环境的交互基础,基于有效市场假说,状态空间仅使用每日资产价格数据构建。本研究采用Jiang等人提出的三维状态空间配置,因其适合深度神经网络处理,且视频游戏应用推动了DRL的突破。传统金融计量模型常用主成分分析(PCA)等降维技术,但会导致信息损失,而深度神经网络能有效分析复杂特征关系。状态定义为 ( S_t = X_t ),价格张量 ( X_t ) 包含四个数据特征:开盘价、最低价、最高价和收盘价。
行动空间
模型仅考虑多头头寸,不涉及卖空。投资组合权重表示模型的行动向量,包含风险资产和现金资产的权重。投资组合权重在时间t满足约束条件,且所有权重非负。投资组合初始化时,所有资产权重总和为1。
其他元素的推导和奖励功能的设置
资产组合在时间t的收盘价格用向量𝐏表示,相对价格向量𝐘定义为当前价格与前期价格的比值。组合价格𝜌在时间t的表达式为:
日常对数收益率𝛾𝑡定义为:
平均年化夏普比率作为奖励函数,目标是最大化该函数。
交易成本率𝐶𝑡由公式确定,设定为0.00025。
𝑾′𝒕 表示在t-1期后和t期前的自主价格变动所导致的权重值。公式中使用Hadamard积和内积计算权重更新。
DRL算法的选择和网络结构
Actor-Critic体系结构中平均夏普比奖励函数的设计
深度强化学习(DRL)算法分为在线和离线两类,离线算法计算资源需求高且收敛慢,因此选择了在线算法PPO。PPO结合了多种优化技术,如广义优势估计(GAE)和价值函数裁剪,扩展了信任域策略优化(TRPO)。PPO的Actor-Critic架构结合了基于回合的更新和逐步更新,采用嵌套循环结构进行算法实现。
开发了针对Actor-Critic框架的平均夏普比率奖励函数,利用PPO进行投资组合优化。在每个交易步骤中,Actor网络生成投资组合权重,计算价格变化、交易成本和对数收益,更新收益列表以计算夏普比率。通过归一化年化夏普比率,确保不同回合长度和交易序列的奖励可比性,提升模型训练稳定性。实验结果表明,平均夏普比率奖励函数在PPO算法中有效提升了模型的样本外表现。
神经网络设计
早期人工神经网络在数据驱动理论模型开发中面临功能逼近精度与梯度稳定性之间的平衡挑战,限制了网络深度的增加。深度神经网络的进展推动了强化学习(RL)算法的发展,促进了深度强化学习(DRL)的形成。DRL中的深度神经网络架构对性能至关重要,合理的网络设计能显著提升DRL效果。本研究采用VGG架构处理三维状态空间(价格张量𝑋𝑡),包含5个卷积层和Max Pool层进行特征提取与池化。最后通过Flatten操作将特征数据转为一维向量,接着是两个包含128个神经元的全连接层。Actor网络使用softmax激活函数生成资产权重的动作向量,Critic网络则输出价值函数,无激活函数。Actor网络的softmax输出结构支持11个资产(10个风险资产 + 1个无风险资产)。
实证测试
数据选择,预处理和假设
本研究构建了一个包含1个无风险资产和10个风险资产的投资组合,数据来源于Wind数据库,采用随机选股方法,旨在验证深度强化学习(DRL)模型的适应性和决策能力。资产选择基于单一时间标准:资产需在2012年12月31日前上市,以确保有足够的历史数据进行训练。研究假设风险资产具有足够流动性,交易执行及时,且交易活动对市场影响微乎其微。
性能指标,回测期和比较优化模型
性能指标包括年化平均收益、年化波动率、夏普比率、索提诺比率、最大回撤等,采用六个月的回测期进行模型优化效果评估。回测数据为完全独立的样本,确保模型未接触未来价格信息。比较分析框架包括多种优化模型(如经典均值方差、条件风险价值等),重点关注风险最小化和夏普比率最大化。
历史数据窗口选择遵循EVaR和HRP模型的框架,分别使用4年和1年的数据。4年期包含1,008个交易日,基于252天的年度交易日历。资产权重调整被视为静态过程,采用滚动窗口方法进行权重预测。9月1日的权重预测基于截至8月31日的前4年或1年历史数据。交易成本计算使用DRL模型中设定的参数。
训练结果和奖励收敛
深度强化学习(DRL)结合神经网络与强化学习框架,通过在线统计推断优化决策策略,旨在最大化预期累积奖励。训练过程中,代理在9百万步内获得的奖励与训练步骤呈正相关,显示出系统性改进。奖励值趋于收敛,年化夏普比率稳定在-0.3到0.8之间,大部分奖励值保持在零以上,表明代理在已知环境中具备稳定的回报生成能力,支持模型的稳健性。
回测结果
投资组合价值、资产配置和交易成本
图6上半部分展示了资产相对价格,作为资产价格标准化的方法;下半部分显示了资产权重和交易成本。DRL投资组合在回测期间持续增长,从1.0增至1.1256,总回报率为12.56%。中间经历了9月的轻微回撤,但随后恢复良好。
投资组合包含现金和10只股票,初始权重接近均匀分配,权重标准差稳定在0.031至0.033之间,现金比例保持在0.11至0.12之间。CN002027.SZ和CN002371.SZ的权重调整较为活跃,而CN600029.SH和CN600183.SH的权重较低。交易成本管理有效,初始资本配置时成本约0.22%,后续交易成本维持在0.002%至0.01%之间。PPO算法的投资组合展现出良好的风险收益特征,表明深度强化学习在投资组合管理中的应用潜力。
股票优化模型的性能比较
表2比较了多种股票优化模型的表现,采用“模型类型-优化目标-数据窗口”的命名方式。深度强化学习(DRL)模型在投资组合优化中表现优异,年化平均回报率为19.56%,夏普比率为1.5550,显示出卓越的风险调整回报。DRL模型的Sortino比率为2.9567,最大回撤仅为5.85%,Calmar比率为3.3395,表明其在风险管理方面的优势。传统模型中,CVaR-MinRisk-4yr表现最佳,年化回报为15.08%,最大回撤为5.38%,夏普比率为1.2290。风险平价(RP)和层次化均等风险贡献(HERC)模型表现不佳,RP模型产生负回报,HERC模型最大回撤为11.86%。DRL模型的投资胜率为47.28%,平均盈亏比为1.4204,显示出其在市场机会捕捉和损失缓解方面的能力。DRL模型在回测期间的表现优于传统优化模型,尤其在收益指标和资产配置动态捕捉方面具有明显优势。
DRL模型在CS1300成分股的投资组合优化中表现出色,主要得益于两个因素:
- 回测期内CS1300成分股呈上升趋势,有利于长期策略验证。
- CSI300成分股的投资者构成稳定,机构投资者比例高,导致投资模式更系统化。
相较于中小市值股票,CSI300成分股的价格和交易数据更可靠,能更好地反映市场基本面和投资者情绪,为DRL模型提供了更强的学习环境。这些结构特征提升了DRL模型的学习和市场适应能力,从而增强了其在CSI300成分股投资组合优化中的表现。
总结
传统金融优化模型在资产配置中使用静态框架,无法有效捕捉资产权重的动态变化,且对市场波动适应性不足。深度强化学习(DRL)作为一种数据驱动的动态优化框架,能减少主观偏差,适合实际交易过程中的资产配置优化。
本研究提出了一种针对Actor-Critic DRL算法的平均夏普比率奖励函数,开发了处理三维金融数据的深度神经网络架构,并采用随机采样方法进行模型训练。提出的奖励函数在长期投资策略中表现出优越的优化效果,训练期间奖励值主要集中在正域,显示出强收敛性,并在样本外回测中取得了更高的夏普比率。与主流金融优化模型相比,DRL框架在资产配置优化和风险管理方面具有显著优势。未来研究应关注金融数据的噪声特性、DRL环境建模及重要交易信号提取,以及DRL模型的验证框架和市场条件下的表现一致性。
本文转载自 灵度智能,作者: 灵度智能