公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

kede96

LV.1

这个用户很懒，还没有个人简介

帖子 9

声望 66

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 10

回帖

Jina CLIP v2：为多模态RAG设计的向量模型

原创

多模态的数据通过统一的向量表示，可以实现不同模态数据的互相检索或者理解转换，是多模态AI应用的基石。Jina.ai最近推出了全新的通用多语言多模态向量模型JinaCLIPv2，在实现强大跨模态检索可能的同时，也为多模态RAG应用奠定了基础。Paper:https:arxiv.orgabs2405.20204Model:https:huggingface.cojinaaijinaclipv2概览JinaCLIPV2是一款通用的、多语言、多模态（文本与图像）Embedding模型多模态embedding技术能够通过一致的...

2024-11-27 14:50:27 2188浏览 0点赞 0回复 0收藏

解密o1推理过程！DeepSeek-R1-Lite预览版上线

GPTo1通过强化学习训练优化决策策略，并模拟人类思维链以深入理解问题，提供更准确的答案，在多个推理任务相关的榜单上实现了巨大的突破。而o1的思维过程是隐藏的。幻方旗下国产大模型公司DeepSeek近期预发布了R1模型，使用了强化学习训练，回复里包含大量反思和验证，思维链长度可达数万字，并且没有像o1一样隐藏思维链。Demo:https:chat.deepseek.com[模型和技术报告将会开源]DeepSeekR1DeepSeekR1系列模型采用强...

2024-11-27 14:48:58 2135浏览 0点赞 0回复 0收藏

Pixtral Large：124B的最强开源多模态大模型

原创

近日，法国著名开源大模型平台Mistral.ai，开源了一个1240亿参数的超大多模态模型：PixtralLarge，在多个开源多模态评测上超越了GPT4o、Gemini1.5Pro、Claude3.5Sonnet、Llama3.2等商业模型或开源模型，成为目前最强的开源多模态大模型。Demo:https:chat.mistral.aiBlog:https:mistral.ainewspixtrallargeModel:https:huggingface.comistralaiPixtralLargeInstruct2411太长不看第一梯队的多模态性能在MathVista、DocVQA、VQAv...

2024-11-27 14:45:54 1902浏览 0点赞 0回复 0收藏

Omnivision-968M：最小多模态模型，为边缘设备而生！

原创精华

最近在HuggingFace上有一个开源多模态模型引起了广泛关注：Omnivision968M。这款模型以其不到1B参数量的小巧体积（仅968M参数量）脱颖而出，成为目前市场上最小的视觉语言模型之一。Blog:https:nexa.aiblogsomnivisionModel:https:huggingface.coNexaAIDevomnivision968MOmnivision968M🚀Omnivision968M是由NexaAI这家创业公司推出（与国内做CMOS闻名的同名半导体企业Omnivision无关）。NexaAI的愿景是打造先进的端...

2024-11-19 15:47:56 4144浏览 0点赞 0回复 0收藏

YOLO11问世！重新定义AI的可能性！

原创

Ultralytics在YOLOVision2024活动上宣布发布其新的计算机视觉模型YOLO11。速度更快、更准确。模型已于今日开源。Homepage:https:www.ultralytics.comzhyoloGithub:https:github.comultralyticsultralyticsYOLO11YOLO11标志着YOLO家族的新篇章，提供了更强大，更多功能的模型，将计算机视觉带到新的高度。凭借其完善的架构和增强的功能，该模型支持计算机视觉任务，如姿态估计和实例分割，视觉AI社区已...

2024-11-05 13:21:14 1437浏览 0点赞 0回复 0收藏

Emu3: 统一多模态输入与生成

BAAI刚刚开源了Emu3多模态大模型，仅使用单个transformer，使用下一个token预测的方法从0进行训练！通过将图像、文本和视频tokenize到一个统一的离散的空间中，直接通过预测下一个token实现文本、图像和视频生成。Homepage:https:emu.baai.ac.cnGithub:https:github.combaaivisionEmu3Model:https:huggingface.coBAAIEmu3GenEmu3Emu3在生成和感知任务中超越了多个任务的专用模型，表现优于主流开源模...

2024-11-05 13:18:31 1263浏览 0点赞 0回复 0收藏

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

原创

在LLM的训练时，由于显存不足以支撑起大batch训练，通常大家都会采用一种策略：梯度累计（gradientaccumulate）。这种方法允许模型在多个batch的梯度回传累计并求均值之后，再更新一次权重。这样做相当于模拟了一个更大的批量大小，而实际上并没有一次性处理那么多数据。这样做的好处是，它可以减少内存的使用，因为不需要一次性加载所有数据到GPU上，同时也可以享受等价大batch带来的训练的稳定性和模型的泛化能力。但是近期大...

2024-11-05 13:15:13 1689浏览 0点赞 0回复 0收藏

仅1.3B！Janus 统一多模态理解和生成

原创

DeepSeek开源了一个仅1.3B大小的多模态大模型：Janus（两面神），统一了多模态理解和生成。通过将视觉编码解耦成独立的pathway，同时仅使用一个统一的transformer架构进行处理。Janus在多模态理解和生成基准测试中超越了以往的统一模型，作为一个多模态“小”模型具有显著的优势。Paper:https:arxiv.orgabs2410.13848Github:https:github.comdeepseekaiJanusModel:https:huggingface.codeepseekaiJan...

2024-11-01 16:24:39 1711浏览 0点赞 0回复 0收藏

一文读懂：从RAG到多模态RAG

原创精华

如果说2023年见证了大语言模型的“寒武纪大爆发”，那么2024年则是多模态大模型“元年”。GPT4o的出现让大家见识到多模态能力引入，给下游应用生态带来的巨大改变。随之而来的，RAG技术也将逐渐从单语言模态的RAG进化到多模态RAG。本文将带大家速览多模态RAG技术的原理及实现。什么是RAG什么是RAG：RetrievalAugmentedGeneration，检索增强生成。是一种结合了信息检索技术和大型语言模型提示功能的框架。它通过从数据源检索信息...

2024-11-01 15:56:59 3021浏览 0点赞 0回复 0收藏

超越CLIP，视觉大模型训练新范式？

原创

OpenGVLab新作：VisionModelPretrainingonInterleavedImageTextDataviaLatentCompressionLearningGithub:https:github.comOpenGVLabLCLPaper:https:arxiv.orgabs2406.07543视觉backbone的数据瓶颈CLIP是第一个连接图像和文本的基础模型，但在大模型时代，仅凭对比学习的监督，已经不足够让下游视觉语言模型（VLM）取得足够好的性能，尤其是在OCR等细粒度、高分辨率视觉任务上。而且这类方法通常要求图像和文本数据严格...

2024-11-01 15:52:51 1471浏览 0点赞 0回复 0收藏

获得成就

已积累 4443 人气

获得 0 个点赞

获得 0 次收藏