
Finarena:基于大模型智能体的金融市场分析和预测人机协作框架
金融市场复杂且动态,受经济指标、地缘政治事件和投资者行为的影响,传统线性分析方法难以捕捉其非线性特征。传统统计方法(如CAPM、ARIMA)无法有效利用非结构化数据(如新闻、经济报告)进行分析和预测。
本文提出FinArena框架,结合人机协作以改善股票趋势预测和个性化投资决策。人模块通过交互界面捕捉个体风险偏好,制定个性化投资策略。机器模块利用基于大型语言模型的多代理系统整合多种金融数据源。
FinArena在股票趋势预测和交易模拟中优于传统和先进基准,显示出提升投资结果的潜力。
论文地址:https://arxiv.org/pdf/2503.02692
【 扫描文末二维码加入星球获取论文 】
摘要
本文提出FinArena框架,结合人机协作以改善股票趋势预测和个性化投资决策。人模块通过交互界面捕捉个体风险偏好,制定个性化投资策略。机器模块利用基于大型语言模型的多代理系统整合多种金融数据源。采用自适应检索增强生成(RAG)方法处理非结构化新闻数据,解决LLM的幻觉问题。通用专家代理根据提取的特征和投资者风险偏好做出投资决策。实验表明,FinArena在股票趋势预测和交易模拟中优于传统和先进基准,显示出提升投资结果的潜力。
简介
金融市场复杂且动态,受经济指标、地缘政治事件和投资者行为的影响,传统线性分析方法难以捕捉其非线性特征。传统统计方法(如CAPM、ARIMA)无法有效利用非结构化数据(如新闻、经济报告)进行分析和预测。
大型语言模型(LLMs)如GPT系列在金融分析中展现出潜力,能够处理非结构化数据,提取情感和趋势。领域特定模型(如FinBERT、BloombergGPT)在金融情感分析和实体识别等任务中表现良好。LLMs在多项金融任务中的初步应用显示其有效性,能够整合交易数据、技术分析和情感评分进行价格趋势预测。LLM在金融分析中的应用面临三大挑战:
- 不确定性:LLM对未在训练数据中出现的信息处理能力差,可能导致生成不准确的信息,影响分析和预测的可靠性。
- 多模态数据整合:金融市场分析需整合时间序列、表格和非结构化数据,LLM主要处理语言,如何有效利用多种数据仍需深入研究。
- 人机协作缺乏:现有研究多集中于机器学习方法与人类专家的对抗,缺乏针对普通投资者的协作框架研究。
本研究提出了一个名为FinArena的人机协作框架,用于处理多模态金融数据分析和投资者风险偏好输入。该框架采用混合专家(MoE)方法,分为人类模块和机器模块。人类模块通过交互界面捕捉个体风险偏好,实现个性化投资策略。机器模块整合多个专注于不同金融数据类型的LLM(大语言模型),如历史股价、企业新闻和财务报表。每个专家组独立分析特定信息,最终由通用专家模型综合分析结果,并考虑投资者的风险偏好。在新闻数据处理中,采用自反过程过滤无关信息,并引入自适应检索增强生成(RAG)方法,减少无关响应和幻觉问题。财务报表分析采用迭代分析过程,使多个LLM逐步推理分析,类似人类思维,输出公司基本面的洞察和置信度。
本文贡献主要体现在三个方面:
- 开源小规模金融数据集,包含新闻文章、历史股价和财务报表,关注散户投资者的信息获取。
- 提出基于MoE方法的人机协作框架,处理多模态金融数据,采用自适应RAG减少LLM的幻觉现象。
- 对FinArena与多基线模型进行全面评估,设计输入模块捕捉投资者风险偏好,识别最佳时机,并讨论A股与美股的实验表现差异。
相关工作
基于历史股票价格的财务模型
金融市场的随机性和波动性使得确定性模型难以准确描述,需发展应对不确定性的模型。历史股价数据是时间序列分析的主要来源,ARIMA模型推动了金融分析的统计预测,但其在非平稳性和高阶差分方面存在局限。GARCH模型能捕捉波动聚集,但对冲击和极值的捕捉能力不足,且计算复杂性高,普通投资者难以使用。
机器学习方法(如CNN和LSTM)在金融时间序列预测中取得进展,但存在滞后效应问题。混合模型(如ARIMA-LSTM和WT-ARIMA-LSTM)尝试结合传统与机器学习方法,但仍依赖单一历史股价数据,未能突破预测性能。当前金融建模存在依赖单一数据特征的显著缺口,需整合更多金融数据特征,解决延迟和可解释性问题,以满足市场需求。
LLM代理用于金融市场分析
传统股票价格预测模型依赖于历史价格数据,但这种方法过于简化,无法捕捉金融市场的复杂动态。金融市场中存在大量非结构化数据,传统模型难以处理,而大语言模型(LLMs)在提取非结构化信息方面表现优异。LLMs可分为超大模型(如GPT-3、GPT-4)和经过微调的模型(如FinBERT、BloombergGPT、Xuanyuan 2.0、BBT-Fin等),后者专注于金融领域的优化。LLMs的进步改变了金融市场分析方式,提高了市场动态理解和预测准确性,预计将成为金融市场分析方法演变的基石。
现有多代理LLM系统的探讨
现有的通用LLM在处理多模态金融数据时效果不佳,主要因预训练数据不足,无法捕捉特定信息。研究方向转向使用专门的LLM处理不同类型数据,如RiskLabs、SEP和FinAgent等系统已展示了多LLM组合的有效性。当前研究存在问题:数据需求大且成本高,不利于普通投资者;依赖预训练知识,易产生幻觉;忽视投资者的风险偏好,导致决策单一。
本研究提出人机协作框架FinArena,解决上述问题:部署多LLM分析多模态数据,引入自适应RAG方法处理新闻文本幻觉,设计投资者风险偏好输入模块,实现AI与人类的协作投资决策。
整体框架
概览
FinArena由两个部分组成:三个专门的代理和一个分析单元。三个代理分别为:
- 时间序列代理:处理股票时间序列数据,预测未来股价。
- 新闻代理:总结新闻文章,提取见解,访问在线资源。
- 财务报表代理:分析财务指标,具备迭代推理能力。
分析单元综合三者的结果,依据投资者的风险偏好提供个性化投资建议(买入或卖出)。
生成时间序列的代理
传统股票价格预测方法主要依赖数学模型(如ARIMA、GARCH)和机器学习算法(如XGBoost、LSTM),但这些方法需要复杂模型和特定实施策略,适用性有限。
FinArena采用专门的LLM进行时间序列分析,用户只需输入股票时间序列数据,代理即可预测未来股票价格。
预测模型通过最大化条件概率P来构建,X为历史价格和协变量的特征空间,P为未来价格的预测空间。
预测空间P的生成基于一个微分方程,表示预测空间随时间的变化率。
时间序列代理生成预测空间P后,通过函数H将其转化为0-1的趋势输出时间序列O。
不确定性驱动的自适应新闻代理
新闻文章分析在金融投资决策中的需求增加,但处理长文本新闻仍具挑战。LLM在文本处理上强大,但对不熟悉的词汇可能无能为力。RAG方法提高了准确性、效率和个性化。
本文设计了一种自适应RAG方法,使LLM能够进行不确定性驱动的信息检索。新闻代理结合LLM的优势,适应动态新闻内容。传统信息检索依赖静态预训练语料,无法涵盖现代新闻的动态词汇。过度依赖RAG可能降低处理简单问题的效率,尤其对低成本投资者而言,频繁调用搜索引擎API成本高。
新闻代理引入判断模块(J),判断复杂查询是否可由预训练语料直接解决。J为随机过程,返回0表示预训练足够,返回1表示不足。
S表示新闻代理的总结、分析和预测,O为未来股价走势的预测。
财务报表分析的迭代推理代理
FinArena开发了一个迭代推理代理(Statement Agent),用于分析公司财务报表,包含三个步骤。
- 第一步:LLM识别公司财务报表中的季节性模式,理解公司财务健康的周期性。
- 第二步:将第一步提取的季节性模式与原始财务报表一起提交给第二个LLM,进行全面的年度运营分析。
- 第三步:LLM预测公司股票的潜在涨跌,并根据前一步的分析赋予信心等级。
输出O来自第三步,包含公司股票价格变化的长期趋势和LLM的信心水平。迭代推理代理相较于传统的思维链(CoT)微调,更充分利用财务报表并整合自身对数据的理解,增强可解释性。
信息聚合系统与人机协作
现代金融投资决策复杂,需团队合作,单一决策者难以完成。有效团队合作对解决超出个人能力的大规模问题至关重要。投资决策通常通过小组协作进行,各角色专注不同领域(市场分析、风险管理、战略分析)。多智能体大语言模型(LLMs)可模拟这种协作,利用不同模型的优势进行分析。例如,TimeGPT适合处理时间数据,而LLaMA和GPT系列适合文本分析。这种聚合系统能像投资团队一样,完成复杂的投资决策任务。
人类专家在投资决策中不可或缺,提供多代理系统无法复制的细腻、直觉和适应性。FinArena系统促进不同LLM代理的协作,并优先整合人类专家的参与。投资者可主动参与决策,监控分析结果、评估响应概率,并与AI专家互动。
报告代理为人机互动提供接口,允许投资者在预测和投资建议前表达风险偏好。模型功能T将投资者的风险偏好R与输出空间O结合,生成投资建议A。Kt为状态转移修正,调整LLM代理对人类反馈的理解。
FinArena强调人机协作在复杂投资问题中的重要性,确保投资者的独特见解和风险偏好被纳入决策过程。
数据集
本研究选择构建私有数据集,以弥补公共数据集的不足,如信息相关性差、过时或内容长度不足。公共数据集常包含多种新闻主题,可能稀释金融因素的关注度,且仅提供标题,缺乏上下文。自建数据集确保数据的时效性和相关性,全面捕捉金融新闻及其对市场动态的影响。数据集规模考虑到小型投资者的需求,避免过大或过于昂贵。
实验在A股和美国股市进行,数据时间范围为2023年1月1日至2024年3月30日,以减少对LLM预训练数据的过度估计。选择公司基于影响力、信息透明度和数据可用性,确保所选公司在行业内具有显著影响力和高信息披露水平。股票价格数据关注开盘价、收盘价和交易量,作为市场表现的基本指标,便于投资者使用。
财务新闻对市场情绪和投资决策至关重要,及时准确的信息帮助投资者在动态市场中做出明智选择。现有公共数据集缺乏具体性、时效性和主题聚焦,构建定制数据集以提高研究相关性和影响力。对于A股公司,系统爬取《国家商报》网站的相关新闻;对美国公司,使用《商业今日》网站,提取包含特定关键词的文章。新闻数据包括“标题”、“日期”和“文本”三个字段,经过时间格式标准化和无关文本删除后,使用k-means聚类选择同日期范围内的代表性文章。
财务报表反映公司运营状况,但完整报告庞大,难以有效提取信息。采用Tsanghi API选择资产负债表、现金流量表和利润表的关键财务指标,合并为单一输入文件,支持已有研究认为财务表格数据的增值有限。
实验
本文评估FinArena框架在股票运动预测和交易模拟中的表现。
- RQ1:FinArena在股票运动预测上与传统基准的比较。
- RQ2:广泛使用非结构化数据(如新闻数据)的优势。
- RQ3:个体市场预期对AI专家决策准确性的影响。
- RQ4:FinArena的有效利用及个体风险偏好对交易模拟效果的影响。
实验设置
使用DeepSeek-v2模型创建新闻代理和声明代理,处理非结构化数据;TimeGPT用于历史股价数据,开发股票代理;最终AI专家基于gpt-4o-mini模型构建。
针对RQ2,使用LLAMA-3-70B和Kimi模型创建非结构化数据代理,分别处理英文和中文文本。
股票运动预测中,AI专家生成二元预测,评估方法使用准确率和F1分数。
股票交易模拟中,基于趋势预测提供买卖持有建议,考虑四种风险配置:保守型、中度保守型、中度激进型和激进型,分别在交易中分配不同比例的闲置资金。
评估FinArena及基线模型的表现,使用年化收益、夏普比率和最大回撤比率等指标。
基线
比较FinArena与ARIMA、LSTM和TimeGPT等基准模型在股票预测中的表现。ARIMA模型使用AIC和BIC确定差分阶数为2,并通过网格搜索选择滞后阶数。LSTM模型为4层,训练200个epoch,批量大小为32。TimeGPT模型将开盘价、最高价和最低价作为外生变量预测收盘价变化。
股票交易模拟中,比较随机策略和特定交易方法,如买入上涨连续和卖出下跌连续策略(BRSF)。评估基于ARIMA和LSTM模型的策略,并补充仅依赖新闻数据的实验结果作为基线。
所有方法经过严格评估,以确保在数据集中的全面性能比较。
结果
股票走势预测
FinArena在八个案例中超越多个基线模型,表明多模态数据分析优于单一股票价格分析,回答RQ1和RQ2。Kimi和LLaMA 3相较于DeepSeek-v2表现下降,说明过度关注新闻语言风格可能引入人类偏见,影响分析准确性。在使用DeepSeek-v2时,预先告知投资者市场态度会导致性能下降,尤其是“无敏感”态度影响最小,回答RQ3。RAG的引入显著提升模型的准确性和F1-Score,尤其在A股公司中效果更显著,可能因信息复杂性更高。
股票交易模拟
对FinArena与基线模型的性能进行全面回测,时间范围为2024年1月1日至3月27日,结果已年化以便比较。不同策略基于FinArena预测结果的收益普遍超过基线,M.Agg在年化收益率和夏普比率表现最佳,但最大回撤表现最差。不同风险偏好影响投资回报,FinArena通过整合信息提高了收益的下限,最终回报仍由投资者掌控。
FinArena在多股票投资中表现优于平均投资者,验证了人机协作架构的有效性。在Nvidia等个别股票上,BRSF“经验法”表现优异,AR和SR结果最高。A股市场中,FinArena的投资方法均导致负收益,而基准方法实现正收益。绩效不佳归因于个体投资者数据集的不完整和不足,未来研究方向为如何利用不完整数据提高分析和预测准确性,以服务小规模低成本投资者。
讨论
FinArena在美国股市数据集上的预测性能优于其他方法,具有最高准确率和最低方差,表明不同数据类型的利润相关信息分布良好。在A股市场数据集上,FinArena的效果较差,传统机器学习模型(如LSTM)在某些股票预测上有优势,但整体表现平平。A股市场的信息不对称问题严重,许多公司缺乏足够的新闻覆盖,且正面新闻占比异常高,可能与监管政策和信息披露限制有关。投资策略偏好在两市场中显著影响最终收益,且没有单一策略明显占优,反映出市场结构、信息可及性和投资者行为的复杂性。
总结
FinArena是一个创新的人机协作框架,利用多个专门的LLM代理进行金融数据分析和预测,旨在提高股票走势预测的准确性和可靠性。通过整合多种金融数据(如股票价格、新闻文章和财务报表),FinArena在预测股票运动方面优于传统和先进基准,取得更高的准确率和F1分数。在股票交易模拟中,FinArena根据不同风险偏好展现出不同的收益,适度激进策略获得最佳年化收益和夏普比率,而保守策略则提供更好的风险管理。
FinArena在美国市场表现优异,但在A股市场表现不稳定,可能与信息披露和数据质量有关,强调市场成熟度和透明度对多代理LLM投资模型表现的重要性。FinArena的多模态方法和自适应机制解决了传统金融建模中的关键挑战,为个性化投资决策提供了强有力的解决方案。
本文转载自灵度智能,作者: 灵度智能
