全部帖子-AI.x-AIGC专属社区-51CTO.COM

外滩大会闭幕，王坚、王小川、闫俊杰这些大佬都释放了哪些信号？

整理言征出品51CTO技术栈（微信号：blog51cto）9月8日，2024Inclusion·外滩大会圆满闭幕，国内外一众AI大佬、独角兽创始人汇集上海，发表了目前对于生成式AI发展浪潮的观点，这里摘选精彩一二，看看都释放了哪些信号。1.王坚：AI+的重点不是加什么，而是怎么加王坚此次演讲分享了此次AI革命的不同之处：“当你看AI、AI+跟AI基础设施的时候，你就会发现这个世界不但技术在革命，机制也在革命，基础设施也在革命。没有比这三项革...

51CTO技术栈 0回复 775浏览

外滩大会闫俊杰王小川

编辑任何场景! 3DitScene：通过语言引导的解耦 Gaussian Splatting开源来袭！

文章：https:arxiv.orgpdf2405.18424项目：https:zqh0253.github.io3DitSceneHuggingFace:https:huggingface.cospacesqihang3DitScene场景图像编辑在娱乐、摄影和广告设计中至关重要。现有方法仅专注于2D个体对象或3D全局场景编辑，导致缺乏一种在3D层面上以不同粒度有效控制和操作场景的统一方法。本研究提出了3DitScene，这是一种新颖且统一的场景编辑框架，利用语言引导的解耦GaussianSplatting实现从2D到3D的无缝编辑，允许...

angel 0回复 897浏览

框架3D

风格控制水平创新高！南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架

论文链接：https:arxiv.orgpdf2408.16766项目链接：https:csgogen.github.io亮点直击构建了一个专门用于风格迁移的数据集设计了一个简单但有效的端到端训练的风格迁移框架CSGO框架，以验证这个大规模数据集在风格迁移中的有益效果。引入了内容对齐评分（ContentAlignmentScore，简称CAS）来评估风格迁移的质量，有效衡量迁移后内容损失的程度。大量的定性和定量研究验证了本文提出的方法在零样本风格迁移方面取得了先进的成果。...

angel 0回复 971浏览

生成端到端

基于语言代理树搜索（LATS）和GPT-4o攻克复杂的LLM决策问题

原创

本文将通过一个完整的财务决策方面的案例来展示如何将语言代理树搜索与GPT4o模型相结合以增强LLM决策能力。简介大型语言模型（LLMs）在执行涉及复杂推理的自然语言任务方面表现出了非凡的能力。因此，这些模型已经发展成为能够规划、制定战略和解决复杂问题的代理。然而，当涉及到在不确定性下做出决策时，挑战依然存在，因为结果不是确定性的，或者在不断变化的环境中需要自适应决策，特别是在每一步都影响下一步的多步骤场景...

51CTO内容精选 0回复 1057浏览

大型语言模型LLMGPT-4o

将端侧大模型进行到底-MiniCPM3-4B开源

面壁一直都在做端侧大模型，之前有文本系列MiniCPM2B模型，还有多模态系列的MiniCPMV系列模型，今天又开源了MiniCPM34B模型，真是端侧一路走到低。这次MiniCPM34B也是在效果上有了巨大的提升，超过Phi3.5miniInstruct模型，肩比Llama3.18BInstruct、GLM49BChat、Qwen27BInstruct等一众模型，堪称小模型之王。之前的MiniCPM2B模型报告也是干活满满，详见：https:shengdinghu.notion.siteMiniCPMc805a17c5c8046398914e47f0542095a...

NLP工作站 0回复 1206浏览

开源模型MiniCPM-2B

iText2KG：显著降低LLM构建知识图谱时的幻觉现象

精华

1.当前知识图谱构建存在的问题知识图谱通过捕捉实体之间的关系来构建知识的结构化表示，在分析文本数据集和从结构化异构数据中推断知识方面具有显著优势。比如，知识图谱能够融合来自多个来源的不同数据，提供一个具有凝聚力的信息视角。还能为文本语料库的分析提供更高层次的可解释性。知识图谱的重要性不必多言，最近的GraphRAG又再一次将知识图谱掀起高潮。1.1传统知识图谱构建的问题传统的命名实体识别、关系提取和实体解析...

大语言模型论文跟踪 0回复 1234浏览

LLM幻觉现象数据集

大规模分布式 AI 模型训练系列——流水线并行

一、背景本文中我们继续介绍另一种非常常见的并行方案——流水线并行（PipelineParallelism）。二、MicrosoftPipelinedBP2.1摘要我们在之前的文章中提到过，2012:ImageNetClassificationwithDeepConvolutionalNeuralNetworks中使用TensorParallelism在2个GPU上训练AlexNet。同一年，微软的研究者开始使用PipelineParallelism训练语音识别模型CDDNNHMM（ContextDependentDeepNeuralNetworkHMM）。首先，作者提出了CDDNNHMM模型，...

amei2000go 0回复 1833浏览

AI模型并行

OLMoE: 开源的MoE语言模型(预训练&效果)

一、结论写在前面论文标题：OLMoE:OpenMixtureofExpertsLanguageModels论文链接：https:arxiv.orgpdf2409.02060Weights：https:hf.coallenaiOLMoE1B7B0924Data：https:hf.codatasetsallenaiOLMoEmix0924Code：https:github.comallenaiOLMoELogs：https:wandb.aiai2llmolmoereportsOLMoE1B7B0924Vmlldzo4OTcyMjU3论文开源了OLMoE1B7B和OLMoE1B7BINSTRUCT，包括模型、数据、代码和日志。...

sbf_2000 0回复 1049浏览

OLMoE语言模型

AI教母李飞飞：用温暖的人性之光，照亮AI的未来之路

在普林斯顿大学金秋送爽的九月，一场跨越时空的对话正在上演。1999届校友、人工智能教母李飞飞站在杰德温体育馆的讲台上，目光炯炯有神，声音温柔而坚定。台下坐满了2024届的新生，他们的眼中闪烁着对未知世界的好奇和期待。普林斯顿大学2024届的新生"还记得25年前，我也像你们一样坐在这里，满怀梦想又忐忑不安，"李飞飞微笑着说，眼角泛起一丝怀念，"那时的我，刚从中国来到美国没多久，英语还说不利索，却已经开始梦想着要改...

InfonityAI智推星 0回复 1234浏览

李飞飞AI原生代

mPLUG-DocOwl2:新模型无需OCR，多页文档理解迈入新纪元

精华

OCRFree多页文档理解的挑战与进展在现代信息时代，多页文档的自动理解和处理变得尤为重要。这些文档可能包括书籍、报告、学术论文等，它们通常包含大量的文本、图表和其他视觉元素。传统的文档理解方法依赖于光学字符识别（OCR）技术将图像转换为文本数据。然而，OCR过程不仅耗时，而且在处理高分辨率或多页文档时，容易出现错误，尤其是在文档格式复杂或字体多样的情况下。随着深度学习技术的发展，OCRFree的文档理解方法逐渐...

AI论文解读 0回复 1643浏览

模型OCR多页

Open LLM集中爆发的一周，卷疯了！

开源大模型领域热闹非凡的一周，各种开源，PaperAgent进行了概括：端侧、Code、RAG、Agent、Reflection（反思纠正）、MoE，你关注的都在这里了。ReflectionLlama3.170B开源ReflectionLlama3.170B是世界上顶尖的OpenLLM，通过反思微调技术（ReflectionTuning）训练，能够检测并纠正推理错误，具有很高的热度，HuggingFace热门排行Top1。Agent中需要LLM具有很强的推理规划能力，这种反思技术训练的模型是否很契合Agent尼？有待进...

PaperAgent 0回复 938浏览

Open LLMOLMoE开源

MiniCPM3.0在智能助手领域的具体应用

原创

第三代小钢炮MiniCPM3.0以其仅4B的参数规模，实现了令人印象深刻的性能，足以与市面上参数规模达到千亿的大模型相媲美。这款模型由面壁智能开发，它不仅在参数效率上取得了显著的成就，而且还具备了一些先进的特性，如无限长文本处理能力、端侧FunctionCalling性能以及强大的RAG（检索增强生成）功能。这些特性使得MiniCPM3.0在自然语言理解、知识推理、代码生成和数学计算等多个方面展现出了卓越的能力。MiniCPM3.0的发布标志...

黑金IT 0回复 932浏览

AI模型AI智能

kotaemon核心GraphRAG、Agent、多模态代码解读！

要说最近RAG方面火热的项目当属kotaemon，短时间暴涨8kstar一个开源、清晰、强大且可定制的RAGUIkotaemon的亮点是可定制化RAGUI，核心技术点是混合索引（Vector、Keyword、GraphRAG）、复杂推理Agent（ReAct、ReWOO、MemoryGIST和GraphReader）、多模态。混合索引（GraphRAG）混合索引主要是指：全文和矢量融合，这里还有一个选型就是集成了RAG的新范式：GraphRAG看代码直接用的微软GraphRAG检索后重排采用LLMRerankerR...

PaperAgent 0回复 1489浏览

GraphRAGAgent代码

巧妙应用机器学习引导科研理解

图1：理解物理现象的途径有很多，其中原因α产生结果β。(a)不受控制的观察会导致原因和结果之间的松散联系。(b)结合已知物理定律的精心设计的实验可以得到简单的因果关系，但为复杂现象设计这样的实验可能极具挑战性。(c)通用的机器学习（ML）模型（神经网络）通过优化许多参数来拟合复杂数据，但解析这些黑箱（例如，数百万个）参数的意义是非常困难的。(d)包含一些限制或简化操作（白色）的机器学习模型使得识别复杂现象的因...

ceesoft 0回复 991浏览

机器学习应用ML工具

多智能体路径规划新突破：AA-CCBS算法详解

多智能体路径规划（MAPF）是一个在机器人、交通控制和自动化仓库等领域具有广泛应用的重要问题。MAPF的核心目标是为一组智能体找到一组无冲突的路径，使它们能够从起点移动到目标位置。传统的MAPF问题通常限制智能体只能在预定义的图上移动，这种限制在实际应用中可能不够灵活。任意角度路径规划（AnyAnglePathfinding）是一种更为灵活的方法，允许智能体在不碰撞障碍物的情况下在任意位置之间移动。这种方法在提高路径规划效率...

xuxiangda 0回复 2824浏览

多智能体AA-CCBS算法

光与AI：视障玩家的《黑神话：悟空》挑战

精华

你好呀，我是小智!相信大家最近一定都被《黑神话：悟空》刷屏了吧。小智作为一个手残党，也被大头虐的死去活来。游戏已经被讲得很多了，所以我们聊点别的。此次我们聚焦在一个特别的故事上——全盲女玩家诺子喵呜挑战《黑神话：悟空》。她依靠实时弹幕指导和听声辨位的方式，成功击败了游戏中的第一个Boss。这一事件不仅引发了社会广泛关注,也提出了一个新的问题：在AI技术日新月异的今天，我们能否利用AI为视障玩家提供更好的...

ermulong 0回复 1077浏览

AI技术模型

超实用！手把手教你十分钟制作一个海报生成图像流，从此远离海报设计烦恼。

最近喜欢上了Coze的图像流，非常方便就可以帮我们设计出各种海报、日签、素描照等各种玩法。特别是海报，应该算是我们工作生活中经常遇到或者用到的一个东西，在AI时代到来前基本都得找专业设计师设计才行。AI的到来，大幅降低了制作海报的难度。接下来就手把手带大家完成一个海报设计的图像流，后续就可以轻松出海报啦。开始节点老规矩，先新建一个图像流，命令和备注大家自己随意取，能够理解就行。在开始节点里，我们增加了...

wsp_ping 0回复 1203浏览

海报生成图像

一文梳理Transformer在时间序列预测中的发展历程代表工作

Transformer的序列建模能力，让其天然就比较适合时间序列这种也是序列类型的数据结构。但是，时间序列相比文本序列也有很多特点，例如时间序列具有自相关性或周期性、时间序列的预测经常涉及到周期非常长的序列预测任务等。这些都给Transformer在时间序列预测场景中的应用带来了新的挑战，也使业内出现了一批针对时间序列任务的Transformer改造。下面给大家介绍Transformer在时间序列预测中的应用，基本上按照时间顺序，到2023...

海因斯DK 0回复 3935浏览

Transformer时间序列预测

编程表现比肩ChatGPT，这个新模型能力很强大

智谱8月底在国际数据挖掘与知识发现大会（KDD）上发布了新一代自主研发的新旗舰模型（GLM4Plus、GLM4VPlus、CogView3Plus），此次更新覆盖了语言理解、图像生成、视频理解等多个方面，并达到了国际第一梯队的水平。本次发布较之前有以下更新：GLM4Plus（大语言模型）：语言理解和长文本处理能力全面提升，支持128K上下文和多路FunctionCall。GLM4VPlus（图像和视频理解模型）：具备卓越的图像和视频理解能力，支持8K上下文和多...

Syrupup 0回复 1387浏览

AIBigMode性能

不走寻常路的面壁智能，又一次“掀桌子”了！

原创

整理星璇不走寻常路的面壁智能，又一次“掀桌子”了！面壁昨天发布了第三代小钢炮MiniCPM3.0，参数只有4B，性能却足以叫板市面上千亿参数规模的大模型！端侧的“面壁定律”又一次发威了！图片话不多说，直接上干货。1.综合能力：4B规模干翻GPT3.5提前近4个月，面壁智能实现了初代面壁小钢炮发布时立下的Flag：今年内让GPT3.5水平的模型在端侧跑起来！图片MiniCPM3.0再次挖掘端侧模型的极致性能，仅4B参数，在包括知识水平、数学...

51CTO技术栈 0回复 1004浏览

智能AI原生

AI.x社区

51CTO

51CTO博客

51CTO学堂

全部帖子