51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
首页
/
社区头条
社区头条
678
篇优秀内容
2025年01月
用Ray观测和监控大语言模型工作负载
原创
前言GPT4、PHI2、BERT和T5等大语言模型(LLM)的出现已彻底改变了自然语言处理,这些模型支持高端应用程序,包括聊天机器人、推荐系统和分析。然而,LLM中工作负载的规模和复杂性使得保证性能和可靠性成了一大挑战。在这种情况下,在使用Ray等框架部署工作负载的同时进行监控和观测显得非常必要。Ray是一种分布式计算框架,提供了一个强大的平台,可以跨集群有效地扩展LLM工作负载。因此,它成了托管、管理和观测LLM的一种出色...
51CTO内容精选
6天前
0回复
213浏览
大语言模型
LLM
Ray
爆!2024‘Meta 推出CTR集成框架 CETNet,多 CTR 模型集成大幅提升预测精度
1.Kimik1.5:ScalingReinforcementLearningwithLLMs语言模型预训练时,通过预测下一个词来提升计算量的方法效果不错,可训练数据量却限制了它的进一步发展。强化学习(RL)的拓展则为人工智能持续进步提供了新途径,让大语言模型(LLMs)有机会通过学习探索扩充训练数据。不过,之前相关研究成果都不太理想,没有特别突出的。基于这样的情况,我们来分享Kimik1.5的训练过程。这是我们新研发的多模态LLM,使用RL训练。我们会讲讲R...
AIPaperDaily
6天前
0回复
185浏览
RL
框架
OpenAI O1
一文说清楚"知识蒸馏"(让“小模型”也能拥有“大智慧”)
精华
最近Distillation这个词见的非常多。前两天大火的DeepSeek团队发布的DeepSeekR1,其670B参数的大模型通过强化学习与蒸馏技术,成功将能力迁移至7B参数的轻量模型中。蒸馏后的模型超越同规模传统模型,甚至接近OpenAI的顶尖小模型OpenAIo1mini。在人工智能领域,大型语言模型(如GPT4、DeepSeekR1)凭借数千亿级参数,展现出卓越的推理与生成能力。然而,其庞大的计算需求与高昂的部署成本,严重限制了其在移动设备、边缘计算等...
AI取经路
6天前
0回复
4488浏览
小模型
知识蒸馏
部署成本
两个简单技巧把 RAG 检索正确率从 50% 提高到 95 %
原创
在实际项目实施过程中,RAG(检索增强生成)系统的关键在于其检索阶段,这一环节直接关系到生成效果的质量。RAG系统的运作流程主要涉及数据摄取和数据查询两个步骤,而检索环节的重要性不言而喻。本文分享了一个案例,讲述了团队如何运用两大关键策略,将RAG系统的检索准确率从50%显著提升至95%。1、RAG检索召回率RAG系统的检索召回率(Recall)是评估检索系统在用户查询时能否有效检索出所有相关文档的标准。在RAG系统中,这一...
玄姐聊AGI
6天前
0回复
276浏览
RAG
Kimik1.5、DeepSeek-V3 大战 OpenAI o1,谁能笑到最后?
精华
最近,国内大模型界可谓是“风起云涌”,kimik1.5和DeepSeekV3这两位“大侠”横空出世,一路“杀疯了”,不断向OpenAI和其他海外大模型的霸主地位发起挑战。这不禁让人想起了那句网络梗:“一山更比一山高,一模更比一模强!”今天,咱们就来好好对比一下这两位国内大模型界的“当红炸子鸡”,看看它们到底有何不同,顺便再和海外顶尖的OpenAIo1对比一下,看看咱们离国际顶尖水平还有多远。接下来,咱们就来详细对比一下这三位...
智驻未来
6天前
0回复
1741浏览
Kimik1.5
OpenAI o1
DeepSeek
一个强大的集成学习算法:随机森林
一、算法介绍随机森林属于集成学习(EnsembleLearning)中的一种,它是通过构建多个决策树,并综合这些决策树的预测结果来进行最终的预测。就好比一群经验丰富的专家(各个决策树)共同商讨一件事,然后汇总大家的意见(预测结果)得出最终结论,往往这样综合考量后的结果会更加准确可靠。随机森林可以用于解决分类问题,比如判断一封邮件是垃圾邮件还是正常邮件;也能处理回归问题,例如预测某地区的房价走势等。它具有以下优...
宝宝数模AI
6天前
0回复
348浏览
集成
学习算法
随机森林
AI 发展是否正在放缓?AI 发展将驶向何方?
原创
编者按:人工智能真的已经遇到发展瓶颈了吗?随着OpenAI、Google和Anthropic等顶级AI公司纷纷表示新模型开发收益在减少,这个问题引发了整个行业的深度思考。我们今天为大家带来的这篇文章,作者的核心观点是:虽然传统的模型规模扩展策略正在遭遇瓶颈,但这可能正是AI发展模式转型的重要契机。文章从多个维度深入剖析了当前AI发展面临的挑战:首先,训练数据的增长已接近极限,因为“我们只有一个互联网”;其次,简单地增加模...
Baihai_IDP
6天前
0回复
514浏览
AI
LLMs
神经网络技术栈介绍——PyTorch,Transformer,NLP,CV,Embedding
原创
“神经网络是神经网络,具体任务是具体任务,不能混为一谈”学习了一段时间神经网络技术之后发现对很多东西理解还不够深刻,所以今天就来梳理一下神经网络的技术栈,深入了解一下不同的工具在神经网络中所处的位置,以及其扮演的角色。先说一句废话,神经网络仅仅只是神经网络,它不涉及具体的任务,只是一个神经网络模型;神经网络要解决实际问题就需要和不同的任务领域相结合。神经网络技术栈要了解或者说要学习神经网络,首...
AI探索时代
8天前
0回复
138浏览
神经网络
DeepSeek-AI 发布 DeepSeek-R1-Zero 和 DeepSeek-R1
原创
精华
01、概述近年来,大型语言模型(LLMs)在自然语言处理领域取得了令人瞩目的进展。它们在文本理解、生成和逻辑推理等任务中表现卓越。然而,面对复杂推理任务时,这些模型仍然存在诸多挑战。例如,依赖大规模监督微调的方式虽然提升了模型性能,但限制了其可扩展性和通用性。此外,如何平衡推理的复杂性、计算效率和结果可读性,依然是研究者们需要攻克的难题。在这一背景下,DeepSeekAI团队带来了令人耳目一新的解决方案——Dee...
Halo咯咯
6天前
0回复
1026浏览
大型语言模型
LLMs
大推理模型DeepSeek-R1深度解读:成本降低95%,推动语言模型推理效率新高度
精华
以开源技术挑战领先AI供应商而闻名的中国AI初创公司DeepSeek又投下了一颗重磅炸弹:一款名为DeepSeekR1的新型开源推理大语言模型(LLM)。除了在基准测试中性能几乎与OpenAI的o1相匹配外,新的DeepSeekR1成本也非常低。具体来说,OpenAIo1每百万输入令牌成本为15美元,每百万输出令牌成本为60美元,而基于R1模型的DeepSeekReasoner每百万输入令牌成本为0.55美元,每百万输出令牌成本为2.19美元。开源DeepSeekR1采用纯强化学习达...
风云2002_1
8天前
0回复
2834浏览
模型
DeepSeek-R1
语言模型
Cline 3.2 重磅更新:免费调用 Claude Sonnet 3.5 和 GPT 4o,开发效率直接拉满!
1.Cline简介Cline是一款结合了AI助手与VSCode的智能工具,旨在通过其深度集成的能力协助开发者完成复杂的软件开发任务。从创建与编辑文件到执行终端命令,Cline借助Claude3.5Sonnet的代理编程能力,将开发者从繁琐的手动任务中解放出来。同时,它通过ModelContextProtocol(MCP)支持扩展能力,可以为用户创建新的工具,进一步提升开发效率。Cline还注重安全性,提供“人类审核”的交互模式,确保每一次更改和命令都获得用户批准...
凝固的雨_1
8天前
0回复
1969浏览
GPT 4o
Cline 3.2
工具
太惨,一个月仅23个下载!盘点2024“理想丰满现实骨感”的大模型们!
原创
精华
整理言征出品51CTO技术栈(微信号:blog51cto)大型语言模型的竞争似乎正在结束,只有少数几个明显的赢家。其中,DeepSeekV3已成为2024年的焦点,引领中国开源模型的发展。据HuggingFace称,DeepSeekV3与GPT4和Claude3.5等闭源巨头正面交锋,上个月的下载量为45,499次,与Meta的Llama3.1(491,629次下载)和谷歌的Gemma2(377,651次下载)并驾齐驱。但并非今年推出的所有LLM都能乘风破浪——有些失败了,尽管前景光明,但未能引...
51CTO技术栈
6天前
0回复
621浏览
模型
语言
谷歌
Meta杨立昆引燃全民大讨论:美政府有些人被洗脑了,监管让开源变得像非法一样!
原创
编辑言征出品51CTO技术栈(微信号:blog51cto)1月23日,在冬季达沃斯论坛的“辩论技术”环节,Meta公司副总裁兼首席人工智能科学家YannLecun、麻省理工学院媒体实验室主任DavaNewman、Axios首席技术记者InaTurpenFried(主持人)就未来十年前沿科技进行了时长47分钟的“全民”大讨论,话题涵盖了LLM、智能体、消费机器人、脑机接口、跨物种、太空探索,也讨论了非常让Meta敏感的“技术作恶”、审查监管、开闭源之争。观众们更...
51CTO技术栈
6天前
0回复
238浏览
大模型
脑机接口
LLM
2025 年:如何构建有效的智能体
本篇文章来自Anthropic,我用大模型给翻译了一下,以下是全文。过去一年里,我们与数十个团队合作,跨行业构建大型语言模型(LLM)智能体。通常,最成功的实施案例并不是使用复杂的框架或专门的库。相反,它们是用简单、可组合的模式来构建的。在这篇文章中,我们分享了从与客户合作及自行构建智能体中学到的经验,并为开发者提供了构建高效智能体的实用建议。什么是智能体?“Agent”可以通过多种方式定义。一些客户将智能体定...
zhishan15
8天前
0回复
2428浏览
智能体
ACI
LLM
RAG 或 Fine Tume - 为您的用例选择正确方法的权威指南
精华
序幕随着对大型语言模型(LLMs)的兴趣激增,许多开发人员和组织正忙于构建应用程序,以利用他们的力量。但是,当预训练LLMs的开箱即用没有按预期或希望执行时,关于如何提高LLM应用程序性能的问题就来了。最终,我们到了问自己的地步:我们应该使用检索增强生成(RAG)还是模型微调来改善结果?在深入研究之前,让我们揭开这两种方法的神秘面纱:RAG:这种方法将检索(或搜索)的能力集成到文本生成中LLM。它结合了一个检索器...
sulu637
8天前
0回复
368浏览
RAG
微调
LLM
基于 Gemini AI 实现音频和视频解析
GeminiAI,谷歌最新推出的多模态AI模型,凭借其强大的语言理解能力和多模态处理能力,正在彻底改变我们与音频和视频内容的互动方式。它不仅能识别和理解音频和视频中的信息,还能进行更深层的解析,提取关键信息,生成摘要,甚至进行内容创作。本文将深入探讨GeminiAI在音频和视频解析方面的强大功能,并展示其在不同场景下的应用案例。超越文字识别:理解音频和视频内容传统语音识别技术只能将语音转化为文字,而GeminiAI则更...
丢翅膀的鱼
9天前
0回复
295浏览
Gemini
AI
视频
DeepSeek-R1-Distill-Qwen-1.5B 在某些基准测试中超越了 GPT-4o
原创
精华
01、概述随着人工智能领域的快速发展,推理能力已经成为了衡量大规模语言模型(LLMs)性能的一个重要指标。为了推动推理能力的极限,我们迎来了DeepSeekR1系列模型的诞生。这个系列包括了两个重要版本:DeepSeekR1Zero和DeepSeekR1,它们分别在强化学习(RL)和传统的监督微调(SFT)方法中找到了新的平衡,展示了前所未有的推理能力。DeepSeekR1Zero突破了传统的训练方式,直接通过大规模的强化学习进行训练,而没有依赖预先的...
Halo咯咯
9天前
0回复
2457浏览
大语言模型
什么是自然语言处理——NLP,其解决了什么问题?
原创
“自然语言处理是一门让机器理解人类语言的技术,是人和机器交流的桥梁”自然语言处理(NaturalLanguageProcessing,NLP)是人工智能(AI)的一个分支,旨在让计算机能够理解、生成和处理人类的自然语言(如中文、英文)。NLP的目标是让计算机能够像人类一样理解和使用语言,从而实现人机自然交互、自动化信息处理等功能。自然语言处理自然语言处理的技术实现原理NLP技术主要依赖于语言学知识、统计方法和深度学习技术,逐渐从基...
AI探索时代
9天前
0回复
360浏览
自然语言处理
NLP
看了这么多文章,终于理解了 Scaling Law
精华
你有没有想过,是什么让AI模型变得如此强大?为什么有些AI能够写诗作画,有些却只能做简单的问答?这其中,ScalingLaw(规模法则)扮演着至关重要的角色,它就像AI模型的核心,揭示了模型性能提升的奥秘。ScalingLaw是什么?简单来说,ScalingLaw指的是当我们增加模型的规模(例如模型包含的参数越多,模型就越大)、训练数据量和计算资源时,模型的性能就会随之提升。(感觉这是符合直觉的,但ScalingLaw最核心的在于量化给出...
芝士AI吃鱼
9天前
0回复
969浏览
Scaling
OpenAI
函数
DeepSeek R1横空出世,超越OpenAI o1,教你用Ollama跑起来
精华
AI正在深刻改变各行业,大语言模型(LLMs)更是其中的核心驱动力。例如,DeepSeekR1作为第一代推理模型,在数学、代码和推理任务上表现优异,与OpenAI的o1模型不相上下。将此类模型部署到本地,可为AI应用带来更强隐私保护、定制化和可控性。今天指导大家如何使用Ollama——一款AI模型管理和运行工具——在本地计算机上部署并运行DeepSeekR1。同时,推荐免费下载Apidog(https:apidog.com),能简化API设计与测试流程,是开发者...
小虎哦哦
9天前
0回复
7043浏览
DeepSeek
OpenAI
AI
1
2
3
4
5
6
7
8
9
10
34
客服