51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
DeepSeek
AI
模型
幻方 AI DeepSeek 模型背后的万卡集群建设
精华
一、背景幻方AI团队发布了一系列DeepSeek大模型,比如DeepSeekV2、DeepSeekMath、DeepSeekCoder等。在DeepSeekV2中提出的MLA(MultiheadLatentAttention)也广受好评。此外,DeepSeekV2在强大性能的情况下还将API定价降低到GPT4的百分之一,被称为“价格屠夫”,也由此引发大模型API的价格战。本文中我们介绍一下幻方AI训练DeepSeek系列模型使用的大规模GPU集群以及相应的各种优化手段。对应的论文为:[2408.14158]FireFlyerA...
amei2000go
0回复
5897浏览
模型
AI
GPT-4
修改一行代码就能实现高效微调!上海交大&腾讯开源SaRA:兼顾原始生成和下游任务
文章链接:https:arxiv.orgpdf2409.06633项目链接:https:sjtuplayer.github.ioprojectsSaRA1.引言SaRA是一种针对预训练扩散模型的高效微调方法。通过微调预训练扩散模型中的无效参数,赋予模型对下游任务的处理能力。SaRA能够显著节省计算显存开销与代码复杂度,仅修改一行训练代码即可实现微调过程。该方法的核心创新在于:参数重要性分析:SaRA首先对预训练模型中的参数重要性进行分析,发现预训练扩散模型中绝对值最小的10%...
angel
0回复
1053浏览
模型
训练
Arctic-SnowCoder揭秘:小数据如何炼成高性能代码模型?
一、结论写在前面论文标题:ArcticSnowCoder:DemystifyingHighQualityDatainCodePretraining论文链接:https:arxiv.orgpdf2409.02326高质量数据对于语言模型的有效预训练至关重要。然而,“高质量”的精确定义仍未得到充分探索。聚焦于代码领域,论文引入了ArcticSnowCoder1.3B,这是一个数据高效的基础代码模型,通过三个阶段的逐步精炼数据进行预训练,共处理了555Btoken:(1)使用500B个标准质量代码token进行通用预...
sbf_2000
0回复
1264浏览
代码
模型
高性能
一文详解3D内容生成算法(朴素/2D先验/混合型)
精华
文章链接:https:arxiv.orgpdf2402.01166近年来,人工智能生成内容(AIGC)方面取得了显著进展,涉及多种输入形式,如文本、图像、视频、音频和3D内容。其中,3D内容是最接近真实世界3D环境的视觉形式,并蕴含着巨大的知识量。3D内容生成展示了学术和实践价值,同时也面临着巨大的技术挑战。本文旨在总结3D内容生成领域的发展,提出了一个新的分类法,将现有方法分为三类:3D朴素生成方法、基于2D先验的3D生成方法和混合3D生成...
angel
0回复
2189浏览
3D
生成
模型
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略
本论文第一作者倪赞林是清华大学自动化系2022级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在ICCV、CVPR、ECCV、ICLR等国际会议上发表多篇学术论文。近年来,AIGC领域发展十分迅猛。在计算机视觉中,扩散模型已经成为一种有效且常用的模型。相反,在自然语言处理领域,内容的生成通常通过使用Transformer去生成离散的token。受到这种差异的启发,越来越多的研究(以VQGAN作为典型代表)开始探索这种基...
轻薄滴假象
0回复
697浏览
视觉生成
AI
大厂也玩不起AI,6000亿美元刚够成本,AI应用或是最优解
摩根士丹利的分析显示,中国AI企业在商业化道路上步履维艰,部分AI应用先行者的业绩表现不及预期。摩根士丹利,俗称大摩,一家国际金融服务公司人工智能大模型的发展正面临着一个关键的十字路口。近期,多家机构发布报告指出,AI行业正遭遇前所未有的变现压力。中国的AI产业和AI驱动的产业直线上升事实上,AI大模型的发展困境已是一个公开的秘密。高盛曾发布题为《投资太多,收益太少》的报告,直言大公司计划在未来几年在AI相关领域投...
InfonityAI智推星
0回复
766浏览
AI
应用
模型
文生视频模型Runway、Luma同时开放API
著名文生视频模型Runway宣布开放最新文生视频模型Gen3AlphaTurbo的API,帮助开发者将该功能集成在应用中。Runway的API提供了两个套餐:“Build”主要面向希望将文生视频集成在应用的个人和团队;Enterprise则面向更大型的组织和企业。目前,Runway的API需要申请候补名单。几乎在同一时间,Runway的主要竞争对手Luma也宣布开放了生成视频API,同样可以将文生视频功能集成在应用中。Luma的API提供的是最新模型DreamMachinev1.6,...
Aceryt
0回复
1101浏览
模型
生成
视频
阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!
今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5Coder和数学的Qwen2.5Math。这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。如果不想进行繁琐的部署,阿里还开放了旗舰模型QwenPlus和QwenTurbo的API,帮助你快速开发或集成生成式AI功能。开源地址:https:huggingface.cocollectionsQwenqwen2...
Aceryt
0回复
842浏览
模型
开源
斯坦福大学研究团队破解小规模语料库知识获取难题,提出创新的合成持续预训练方法
引言:探索小规模语料库中的知识获取在现代的自然语言处理领域,大规模预训练模型已经显示出了在各种知识密集型任务中的卓越性能。这些模型通常依赖于大量的、结构化不强的互联网文本数据进行训练,从而获取丰富的世界知识。然而,这种知识获取方式存在一个明显的问题:数据效率低下。为了学习特定的事实,模型必须在成百上千的不同表述中进行训练,这在面对小规模、特定领域的语料库时尤为突出,因为在这些语料库中,每个事实...
AI论文解读
0回复
2161浏览
预训练
算法
模型
拒绝信息泄露!VMD滚动分解 + Informer-BiLSTM并行预测模型
前言在时间序列预测任务中,像EMD(经验模态分解)、CEEMDAN(完全集合经验模态分解)、VMD(变分模态分解)等分解算法的使用有可能引入信息泄露,具体情况取决于这些方法的应用方式。信息泄露的主要风险在于:将未来的信息泄露给了模型,使得模型在实际应用中表现得比应有的好。为了防止信息泄露,我们在分解之前,首先对数据集进行划分。然后使用滑动窗口的方法来制作数据集标签,最后逐步滚动分解时间序列窗口!注:没有错误...
Tang_Lan
0回复
1941浏览
预测
模型
BiLSTM
一个增量式构建知识图谱的项目:iText2KG
iText2KG是一个开源项目,能够利用大型语言模型(zeroshot)跨领域从文本中提取实体和关系,自动构建和更新知识图谱,并通过Neo4j进行可视化。iText2KG由四个主要模块组成:文档提取器、增量实体提取器、增量关系提取器、图形集成器和可视化。它们协同工作,从非结构化文本构建和可视化知识图谱。iText2KG整体架构概述文档提取器(DocumentDistiller):该模块处理原始文档,并根据用户定义的模式将其重新表述为语义块。它通...
PaperAgent
0回复
2040浏览
iText2KG
项目
增量式
智能体在连续环境中的路径优化与冲突解决
多智能体路径规划(MAPF)是一个在共享环境中为多个智能体规划无碰撞路径的问题。传统上MAPF问题主要在离散环境中研究,时间和空间都被离散化为固定的步长和网格。随着实际应用需求的增加,如仓库物流和自动驾驶车辆,研究逐渐转向连续环境中的路径规划。在连续环境中,时间和空间都是连续的,智能体的运动需要考虑更复杂的运动学和动力学约束。在离散环境中,MAPF问题通常通过图模型来表示,智能体在图的顶点之间移动,避免在...
xuxiangda
0回复
1634浏览
智能体
路径优化
模型
RAG文本切分LV3:轻松定制Markdown切分
原创
上篇文章我们介绍了借助LLM和OCR将文档转换成markdown的方法:颠覆传统OCR轻松搞定复杂PDF的工具。本篇文章将介绍如何对markdown进行有效切分。之前介绍了文本切分五个层级,本文方法是第三个层次:Level1:CharacterSplitting简单的字符长度切分Level2:RecursiveCharacterTextSplitting通过分隔符切分,然后递归合并Level3:DocumentSpecificSplitting针对不同文档格式切分(PDF,Python,Markdown)Level4:SemanticSplittin...
恰似惊鸿
0回复
1685浏览
RAG
Markdown
颠覆传统OCR轻松搞定复杂PDF的工具
LLM辅助OCR项目是一个先进的系统,旨在显著提高光学字符识别(OCR)输出的质量。通过利用尖端的自然语言处理技术和大型语言模型(LLM),将原始OCR文本转换为高度准确、格式良好且可读的文档成为可能。本篇文章将介绍一款在github上拥有1.7kstar的开源实现工具LLMAidedOCR。特征本项目支持以下功能:PDF到图像转换使用Tesseract进行OCR使用LLM(本地或基于API)进行高级错误更正智能文本分块,高效处理Markdown格式选项抑制页眉和页...
恰似惊鸿
0回复
1726浏览
自然语言处理技术
大型语言模型
光学字符识别
从数据仓库到数据飞轮:技术进化与实践案例解析
原创
从数据仓库到数据飞轮:技术进化与实践案例解析前言数据技术的发展如同企业发展的脉络,从数据仓库的诞生到数据中台的崛起,再到如今数据飞轮的广泛应用,这一系列技术变革不仅展示了数据管理的演进过程,更反映了企业在应对复杂市场需求时对数据利用的不断深化。每一个技术阶段的出现,都是企业在面对数据量激增、业务流程复杂化以及对实时分析需求提升时的必然选择。数据仓库的出现,最早解决了企业分散在各个业务系统中的数...
wx6110dd2be671e
0回复
937浏览
数据仓库
数据治理
经典论文ReAct精读
原创
人类智能的一个独特特征是能够将面向任务的行为与语言推理(或称作内心独白)无缝结合。理论上,这被认为是人类认知中的重要一环,能够实现自我调节或策略化并维持工作记忆。以在厨房烹饪一道菜为例,在任何两个具体行为之间,我们可能会:(1)用语言进行推理以跟踪进度(例如“现在一切都切好了,我应该把水壶里的水加热”);(2)处理异常情况或根据情况调整计划(例如“我没有盐,所以让我用酱油和胡椒代替”);(3)意识...
AIGC最前线
0回复
1100浏览
ReAct
大模型技术在AIGC领域所面临的主要问题
原创
“怎么打造出一款具有市场竞争力的AIGC产品?”AIGC——人工智能生成内容,是大模型技术目前的一个主要应用方向,简单来说大模型就像一个擅长某个领域的人,比如绘画,写作,设计等;而这种内容创作的领域就属于AIGC。但AIGC虽然发展得如火如荼,但其还面临着诸多问题。AIGC所面临的问题技术方面AIGC作为一项人工智能技术的应用场景,其技术是第一个需要解决的问题,否则一切都无从谈起。但AIGC在技术方面还面临着很多问题,比...
AI探索时代
0回复
1151浏览
大模型
AIGC
从openAI最新模型GPT-o1再谈思维链(Cot)技术,大模型该怎么提升其逻辑推理能力?
原创
“推理能力是大模型迈向AGI的必经之路”最近openAI发布了号称史上最强模型——o1,其具有强大的逻辑推理能力,号称能达到人类的博士生水平。而从o1模型的评测来看,o1模型在数学竞赛,编码,科学问答等方面表现良好,甚至高出了GPT4o一大截。而且,o1在物理,化学,生物,逻辑学等其它领域,相比GPT4o都得到了巨大的提升。而据介绍o1模型之所以具有如此强大的逻辑推理能力,就是因为使用了思维链技术;当然,目前官方并没有公布...
AI探索时代
0回复
4405浏览
大模型
思维链
什么时候需要训练和微调属于自己的大模型——小微企业必须要明白的问题
原创
“从问题出发,先有需求再有解决方案”老板和员工在思维方式上有一个很大的差别就是,作为老板他们喜欢寻找现有的解决方案,如果现有的解决方案无法满足的情况下,才会自己设计一个解决方案。而作为员工来说特别是技术人员,大都有一种技术至上的心态,比如说很多技术人员找工作会特别在乎公司用的技术是否足够牛逼,足够高大上。之所以产生这种现象的原因是因为,技术人员的心态是学会牛逼的技术,走到哪里都不怕。而老板的心...
AI探索时代
0回复
835浏览
大模型
人工智能
麻省理工创新模型:用2D视频扩散,生成 3D 视频
精华
传统的3D视频生成主要有两种方法,一种是通过2D视频模型和静态3D场景模型的分类器指导来优化动态3D视频场景表示,不过这种对算力的需求极大,生成一个3D视频需要数小时;另一种是通过变形初始3D场景表示来实现,但需要严格的时间结构并且需调整复杂的参数。为了解决这些难题,麻省理工、Databricks马赛克科研所和康奈尔大学联合推出了创新模型Vid3D。该模型假设无需明确建模3D时间动态,通过生成2D视频的时序动态轮廓,然后独立...
Aceryt
0回复
1364浏览
3D
视频生成
暂无内容
1
83
84
85
86
87
88
89
90
91
客服