近期,随着大模型的快速发展,DeepSeek等大模型成为了AI领域的热门话题。如今,团队可以通过本地部署一套AI框架,结合远程调用大模型的官方API,而无需配备大量服务器或高性能显卡,便可轻松实现大模型的使用。这种方式不仅降低了硬件成本,也让AI技术的应用变得更加灵活和高效。
在人工智能(AI)领域,其实不仅仅有大模型,还有框架和算法等核心概念,它们之间有着密切的关系。理解它们的区别和联系对于深入学习和应用AI技术至关重要。以下是对它们的详细解释和相互关系:
AI模型(Model)
AI模型是经过训练,能够处理和学习数据的数学结构。模型的核心作用是根据输入数据进行预测、分类、生成等任务。AI模型通常是通过机器学习或深度学习算法构建的,经过大量的训练数据来调整其内部参数。
AI框架(Framework)
AI框架是一组用于开发和训练AI模型的工具和库,它提供了处理和构建AI模型的基础设施。框架包含了各种工具、API和预构建的模块,可以帮助开发者更高效地构建、训练和部署AI模型。AI框架通常是开源的,它们封装了许多复杂的实现细节,使得AI开发者能够专注于算法设计和业务逻辑。
AI算法(Algorithm)
AI算法是指执行特定任务的数学方法和规则。它们是创建AI模型的基础,定义了模型如何从数据中学习、更新其参数和做出预测。不同的算法适用于不同类型的任务和数据。AI算法的目的是通过分析和优化输入数据,使得模型能够根据这些数据作出合理的判断。
AI框架推荐
框架作为实现算法和模型的工具,本期主要对定制化AI系统框架和工作原理进行介绍,首先推荐几款开源的框架:
FastGPT
使用简单,无需代码开发,开箱即用,但是功能有限扩展性不高。比较适合简单使用和低代码开发的场景.
MetaGPT
Metagpt是一款Multi-Agent框架(多智能体),专为应用开发者打造。使大模型以软件公司的形式工作,协作处理更复杂的任务。
- MetaGPT输入一句话的老板需求,输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等。
- MetaGPT内部包括产品经理 / 架构师 / 项目经理 / 工程师,它提供了一个软件公司的全过程与精心调配的SOP。
同样作为多智能体编程框架,AgentScope对于React框架更加友好,是阿里通义千问团队开源的AI框架,适配多种大模型,Dashscope,OpenAI等。也是新钛团队最终选择使用的框架。
Agenscope
同样作为多智能体编程框架,AgentScope对于React框架更加友好,是阿里通义千问团队开源的AI框架,适配多种大模型,Dashscope,OpenAI等。也是新钛团队最终选择使用的框架。
为什么需要引入智能运维?
传统运维工作通常面临高度重复、低效和响应慢的问题,尤其是在高频告警和夜间告警情况下。运维人员需要逐一分析和定位故障,且故障恢复时间往往较长,容易受到人为疲劳和处理能力的限制。
此外,日常巡检、工单处理,问题处理等任务消耗大量时间和人力,运维人员不得不手动完成这些繁琐的操作,导致效率低下。
智能运维的优势
引入智能运维平台,通过自动化和智能化手段解决这些问题,使运维工作更加高效、准确。
1.快速响应与自动化处理
对于告警,响应时间可以缩短至 2-5分钟,系统自动识别问题并执行处理,避免人工延迟。
2.自动故障诊断与处理
对于系统故障,智能平台能够自动诊断并提供解决方案,减少人工干预,帮助运维人员快速定位和修复问题。
3.降低服务不可用时间
通过自动诊断和故障修复,显著减少服务停机时间,确保业务持续稳定运行。
4.减轻运维人员负担
智能运维平台承担日常巡检、告警处理,报表生成等重复性任务,让运维人员专注于更高优先级的工作,同时实时监控和报表生成帮助团队优化决策。
5.提升系统智能与自学习能力
平台通过自我学习,不断优化故障诊断和自动修复流程,提高处理新问题的能力和精准度。
6.风险预测
系统通过数据分析预测潜在风险,帮助团队制定前瞻性决策,从而提升整体运营效率。
通过智能运维平台,企业可以大幅提升运维效率、减少人为错误,并确保系统的稳定性与业务连续性,让运维团队能够更高效地应对挑战,支持业务的可持续发展。
功能介绍
如上图所示,智能运维系统通过多个功能专一的 Agent 组合而成,例如 日志Agent、数据库Agent、云监控Agent 等。每个Agent负责处理特定领域的任务,并能够独立运行或协作完成更复杂的运维任务。通过这种 模块化 的设计,系统能够根据实际需求灵活组合不同的Agent,提供高效、精确的解决方案。
功能展示
1.故障处理
接口错误处理
当接口发生错误时,系统能够自动根据告警中的信息,获取该接口当时的调用链ID,具体的调用链详情和相关日志信息,进行详细分析并给出初步的诊断结果,同时生成故障报告。智能运维平台能够减少人工干预,并迅速提供解决方案,帮助运维人员迅速定位问题并修复。
工作逻辑展示
告警转接到ReactAgent。
模型理解问题,并从知识库中寻找排查步骤作为参考。
根据整理好的排查步骤分步进行信息收集。
获取导致接口故障的调用链ID。
获取调用链详情。
自动生成查询语句获取日志。
整合信息进行分析并生成报告。
报告展示:
OOM应急处理
针对OOM(Out of Memory)告警,系统可以自动响应,进行日志收集、内存使用情况分析、服务JVM配置分析,判断FullGC情况进行分析。根据收集的信息得出合适的处理规则,扩容副本,JVM配置调整,服务重启等操作,并发送钉钉通知。
极大的缩减了因服务宕机导致的各种功能不可用,网页打不开等风险。
2.日程巡检
系统支持定时执行全面的巡检任务,并生成详细的报告,确保各项运维工作及时跟进。
3.信息查询
异常IP查询
针对流量激增或异常访问,平台能够快速提供流量突增的服务和接口信息,精准剖析出来源IP及其访问的具体内容,帮助运维人员高效定位问题。
CPU,内存等使用率查询
支持对服务器、容器、中间件等资源的CPU、内存、磁盘等使用详情进行实时查询,帮助运维人员全面掌握系统资源的使用情况,及时发现潜在问题。
前端展示
AgentScope 自带的前端页面,详细记录了框架和模型交互的过程,以及最终结果展示。
但是这样的页面并不适合作为直接面向用户的交互界面。为了提供更友好的用户体验,我们使用 Gradio 创建了定制化的前端页面。
系统架构和工作原理
系统入口
系统通过三个主要入口进行操作:钉钉机器人交互、Web页面和告警接口。这三个入口分别接收用户的需求、问题或告警信息。通过 UserAgent 智能体将这些信息转化为简洁的“老板需求”,以便于进一步处理。所有的信息最终都汇总为一个统一的请求,并被传递到 AgentScope 环境中。
知识库
在 AgentScope 环境中,React智能体 根据请求调用 RAG(Retrieval-Augmented Generation) 知识库,检索相关文档和信息。这一过程结合了检索和生成的优势,可以快速、精准地为复杂问题提供解决方案。对于需要额外处理的任务,系统会调用已有的工具包,以便在多步骤的操作中自动化处理复杂问题。
持续学习
经过详细分析和处理后,系统生成最终的响应,并通过三个入口中的任一方式返回给用户。为了不断提升系统的智能性,响应结果 会被记录和存储,且 知识库 会随着每次反馈进行更新和完善,从而实现系统的自我学习和进步。
这种设计方式不仅能够实时处理告警和问题,还通过智能体和工具包的有效配合,持续优化和提高决策和响应效率,使得每次交互都能带来更高效、准确的服务。
代码展示
以 接口问题处理 为例,我们在知识库中定义了该类问题的标准排查流程。大模型会根据这些定义好的排查思路,自动生成具体的执行步骤,并根据实时获取的信息进行汇总分析。最终,系统会结合这些数据生成解决方案,帮助快速定位并解决问题。
对接大模型
知识库
定义复杂问题处理思路,大模型会理解并生成对应处理步骤。
工具篇举例
查询阿里云sls日志工具。
查询prometheus指示数据
总结
通过智能运维平台的构建和应用,我们能够有效提升运维团队的工作效率,减少人为干预,快速响应和解决各种问题。从传统的告警处理、故障诊断到资源使用监控,智能运维平台的自动化和智能化使得运维管理更加高效、精准。
利用如DeepSeek等大模型以及API远程调用的能力,不仅可以降低硬件需求,还能通过灵活的框架设计满足不同运维需求。通过不同的AI框架,如MetaGPT、AgentScope等,我们可以针对具体的运维场景定制化开发解决方案,实现高度自动化和高效运维。
总的来说,智能运维平台不仅提升了团队的效率,还能通过持续的自学习和知识库的更新,保持系统的灵活性和适应性,从而在未来的运维工作中为企业带来更加智能、快速、精确的服务。这不仅是运维领域的一次技术创新,更是企业数字化转型过程中的重要一步。