南洋理工发布量化交易大师TradeMaster，涵盖15种强化学习算法-51CTO.COM

近日，量化平台大家庭迎来了一位新成员，基于强化学习的开源平台: TradeMaster— 交易大师。

TradeMaster 由南洋理工大学开发，是一个涵盖四大金融市场，六大交易场景，15 种强化学习算法以及一系列可视化评价工具的统一的，端到端的，用户友好的量化交易平台！

平台地址: https://github.com/TradeMaster-NTU/TradeMaster

背景介绍

近年来，人工智能技术在量化交易策略中正在占据越来越重要的地位。由于具有在复杂环境中突出的决策能力，将强化学习技术应用于量化交易中任务存在巨大的潜力。然而金融市场的低信噪比和强化学习算法训练不稳定的特点使得强化学习算法目前还无法大规模部署在真实金融市场中，具体挑战如下:

开发流程复杂，包含极大的工程量，难以实现
算法性能高度依赖于测试时的市场状态，风险较高，难以系统评价
算法的设计，优化，和维护有存在较高的技术门槛，难以大规模部署。

TradeMaster 的发布为这个领域提供了一款软件工具，一个行业基准和一类工业级产品接口以解决上文中的三个挑战。

TradeMaster 对于产学研用深度融合的潜在贡献

TradeMaster 框架

TradeMaster 由六个核心模块组成，包含了用于量化交易强化学习算法的设计，实现，测试，部署的完整流程，下面我们为大家具体介绍：

TradeMaster 平台的框架结构

数据模块：TradeMaster 提供了长周期多模态 (K 线和订单流) 不同粒度 (分钟级到日级) 的金融数据，涵盖四个主要市场：中国，美国股和外汇。

预处理模块：TradeMaster 提供了标准化的金融时序数据预处理的 pipeline，包含 6 个步骤：1. 数据清洗 2. 数据填充 3. 正则化 4. 自动特征发掘 5. 特征嵌入 6. 特征选择

模拟器模块：TradeMaster 提供了一系列的数据驱动的高质量金融市场模拟器，支持 6 个主流量化交易任务：1. 货币交易 2. 资产组合管理 3. 日内交易 4. 订单执行 5. 高频交易 6. 做市

算法模块：TradeMaster 实现了 7 个最新的基于强化学习的交易算法 ( DeepScalper，OPD，DeepTrader，SARL，ETTO，Investor-Imitator，EIIE ) 和 8 个经典强化算法 ( PPO，A2C，Rainbow，SAC，DDPG，DQN，PG，TD3 )。与此同时，TradeMaster 引入了自动化机器学习技术来帮助用户高效的调整训练强化学习算法的超参数。

评价模块：TradeMaster 实现了 17 个评价指标和可视化工具从收益能力，风险控制，多样性，可解释性，鲁棒性，通用型 6 个维度给出系统化的评价。以下是两个例子：