最近在HuggingFace上有一个开源多模态模型引起了广泛关注:Omnivision968M。这款模型以其不到1B参数量的小巧体积(仅968M参数量)脱颖而出,成为目前市场上最小的视觉语言模型之一。Blog:https:nexa.aiblogsomnivisionModel:https:huggingface.coNexaAIDevomnivision968MOmnivision968M🚀Omnivision968M是由NexaAI这家创业公司推出(与国内做CMOS闻名的同名半导体企业Omnivision无关)。NexaAI的愿景是打造先进的端...
Ultralytics在YOLOVision2024活动上宣布发布其新的计算机视觉模型YOLO11。速度更快、更准确。模型已于今日开源。Homepage:https:www.ultralytics.comzhyoloGithub:https:github.comultralyticsultralyticsYOLO11YOLO11标志着YOLO家族的新篇章,提供了更强大,更多功能的模型,将计算机视觉带到新的高度。凭借其完善的架构和增强的功能,该模型支持计算机视觉任务,如姿态估计和实例分割,视觉AI社区已...
2024-11-05 13:21:14 215浏览 0点赞 0回复 0收藏
BAAI刚刚开源了Emu3多模态大模型,仅使用单个transformer,使用下一个token预测的方法从0进行训练!通过将图像、文本和视频tokenize到一个统一的离散的空间中,直接通过预测下一个token实现文本、图像和视频生成。Homepage:https:emu.baai.ac.cnGithub:https:github.combaaivisionEmu3Model:https:huggingface.coBAAIEmu3GenEmu3Emu3在生成和感知任务中超越了多个任务的专用模型,表现优于主流开源模...
2024-11-05 13:18:31 160浏览 0点赞 0回复 0收藏
在LLM的训练时,由于显存不足以支撑起大batch训练,通常大家都会采用一种策略:梯度累计(gradientaccumulate)。这种方法允许模型在多个batch的梯度回传累计并求均值之后,再更新一次权重。这样做相当于模拟了一个更大的批量大小,而实际上并没有一次性处理那么多数据。这样做的好处是,它可以减少内存的使用,因为不需要一次性加载所有数据到GPU上,同时也可以享受等价大batch带来的训练的稳定性和模型的泛化能力。但是近期大...
2024-11-05 13:15:13 233浏览 0点赞 0回复 0收藏
DeepSeek开源了一个仅1.3B大小的多模态大模型:Janus(两面神),统一了多模态理解和生成。通过将视觉编码解耦成独立的pathway,同时仅使用一个统一的transformer架构进行处理。Janus在多模态理解和生成基准测试中超越了以往的统一模型,作为一个多模态“小”模型具有显著的优势。Paper:https:arxiv.orgabs2410.13848Github:https:github.comdeepseekaiJanusModel:https:huggingface.codeepseekaiJan...
2024-11-01 16:24:39 295浏览 0点赞 0回复 0收藏
如果说2023年见证了大语言模型的“寒武纪大爆发”,那么2024年则是多模态大模型“元年”。GPT4o的出现让大家见识到多模态能力引入,给下游应用生态带来的巨大改变。随之而来的,RAG技术也将逐渐从单语言模态的RAG进化到多模态RAG。本文将带大家速览多模态RAG技术的原理及实现。什么是RAG什么是RAG:RetrievalAugmentedGeneration,检索增强生成。是一种结合了信息检索技术和大型语言模型提示功能的框架。它通过从数据源检索信息...
2024-11-01 15:56:59 696浏览 0点赞 0回复 0收藏
OpenGVLab新作:VisionModelPretrainingonInterleavedImageTextDataviaLatentCompressionLearningGithub:https:github.comOpenGVLabLCLPaper:https:arxiv.orgabs2406.07543视觉backbone的数据瓶颈CLIP是第一个连接图像和文本的基础模型,但在大模型时代,仅凭对比学习的监督,已经不足够让下游视觉语言模型(VLM)取得足够好的性能,尤其是在OCR等细粒度、高分辨率视觉任务上。而且这类方法通常要求图像和文本数据严格...
2024-11-01 15:52:51 284浏览 0点赞 0回复 0收藏