kede96
LV.1
这个用户很懒,还没有个人简介
声望 66
关注 0
粉丝 0
私信
主帖 10
回帖
多模态的数据通过统一的向量表示,可以实现不同模态数据的互相检索或者理解转换,是多模态AI应用的基石。Jina.ai最近推出了全新的通用多语言多模态向量模型JinaCLIPv2,在实现强大跨模态检索可能的同时,也为多模态RAG应用奠定了基础。Paper:https:arxiv.orgabs2405.20204Model:https:huggingface.cojinaaijinaclipv2概览JinaCLIPV2是一款通用的、多语言、多模态(文本与图像)Embedding模型多模态embedding技术能够通过一致的...
2024-11-27 14:50:27 431浏览 0点赞 0回复 0收藏
GPTo1通过强化学习训练优化决策策略,并模拟人类思维链以深入理解问题,提供更准确的答案,在多个推理任务相关的榜单上实现了巨大的突破。而o1的思维过程是隐藏的。幻方旗下国产大模型公司DeepSeek近期预发布了R1模型,使用了强化学习训练,回复里包含大量反思和验证,思维链长度可达数万字,并且没有像o1一样隐藏思维链。Demo:​​​https:chat.deepseek.com​​​[模型和技术报告将会开源]DeepSeekR1DeepSeekR1系列模型采用强...
2024-11-27 14:48:58 389浏览 0点赞 0回复 0收藏
近日,法国著名开源大模型平台Mistral.ai,开源了一个1240亿参数的超大多模态模型:PixtralLarge,在多个开源多模态评测上超越了GPT4o、Gemini1.5Pro、Claude3.5Sonnet、Llama3.2等商业模型或开源模型,成为目前最强的开源多模态大模型。​Demo:https:chat.mistral.aiBlog:https:mistral.ainewspixtrallargeModel:https:huggingface.comistralaiPixtralLargeInstruct2411太长不看第一梯队的多模态性能在MathVista、DocVQA、VQAv...
2024-11-27 14:45:54 516浏览 0点赞 0回复 0收藏
最近在HuggingFace上有一个开源多模态模型引起了广泛关注:Omnivision968M。这款模型以其不到1B参数量的小巧体积(仅968M参数量)脱颖而出,成为目前市场上最小的视觉语言模型之一。Blog:​​​https:nexa.aiblogsomnivision​​​Model:https:huggingface.coNexaAIDevomnivision968MOmnivision968M🚀Omnivision968M是由NexaAI这家创业公司推出(与国内做CMOS闻名的同名半导体企业Omnivision无关)。NexaAI的愿景是打造先进的端...
2024-11-19 15:47:56 1228浏览 0点赞 0回复 0收藏
Ultralytics在YOLOVision2024活动上宣布发布其新的计算机视觉模型YOLO11。速度更快、更准确。模型已于今日开源。Homepage:​​​https:www.ultralytics.comzhyolo​​​Github:​​​https:github.comultralyticsultralytics​​​YOLO11YOLO11标志着YOLO家族的新篇章,提供了更强大,更多功能的模型,将计算机视觉带到新的高度。凭借其完善的架构和增强的功能,该模型支持计算机视觉任务,如姿态估计和实例分割,视觉AI社区已...
2024-11-05 13:21:14 351浏览 0点赞 0回复 0收藏
BAAI刚刚开源了Emu3多模态大模型,仅使用单个transformer,使用下一个token预测的方法从0进行训练!通过将图像、文本和视频tokenize到一个统一的离散的空间中,直接通过预测下一个token实现文本、图像和视频生成。Homepage:​​​https:emu.baai.ac.cn​​​​Github:​​​https:github.combaaivisionEmu3​​​Model:https:huggingface.coBAAIEmu3GenEmu3Emu3在生成和感知任务中超越了多个任务的专用模型,表现优于主流开源模...
2024-11-05 13:18:31 288浏览 0点赞 0回复 0收藏
在LLM的训练时,由于显存不足以支撑起大batch训练,通常大家都会采用一种策略:梯度累计(gradientaccumulate)。这种方法允许模型在多个batch的梯度回传累计并求均值之后,再更新一次权重。这样做相当于模拟了一个更大的批量大小,而实际上并没有一次性处理那么多数据。这样做的好处是,它可以减少内存的使用,因为不需要一次性加载所有数据到GPU上,同时也可以享受等价大batch带来的训练的稳定性和模型的泛化能力。但是近期大...
2024-11-05 13:15:13 412浏览 0点赞 0回复 0收藏
DeepSeek开源了一个仅1.3B大小的多模态大模型:Janus(两面神),统一了多模态理解和生成。通过将视觉编码解耦成独立的pathway,同时仅使用一个统一的transformer架构进行处理。Janus在多模态理解和生成基准测试中超越了以往的统一模型,作为一个多模态“小”模型具有显著的优势。Paper:​​​https:arxiv.orgabs2410.13848​​​​Github:​​​https:github.comdeepseekaiJanus​​​Model:https:huggingface.codeepseekaiJan...
2024-11-01 16:24:39 420浏览 0点赞 0回复 0收藏
一文读懂:从RAG到多模态RAG
原创 精华
头条 社区头条
如果说2023年见证了大语言模型的“寒武纪大爆发”,那么2024年则是多模态大模型“元年”。GPT4o的出现让大家见识到多模态能力引入,给下游应用生态带来的巨大改变。随之而来的,RAG技术也将逐渐从单语言模态的RAG进化到多模态RAG。本文将带大家速览多模态RAG技术的原理及实现。什么是RAG什么是RAG:RetrievalAugmentedGeneration,检索增强生成。是一种结合了信息检索技术和大型语言模型提示功能的框架。它通过从数据源检索信息...
2024-11-01 15:56:59 1168浏览 0点赞 0回复 0收藏
OpenGVLab新作:VisionModelPretrainingonInterleavedImageTextDataviaLatentCompressionLearningGithub:​​https:github.comOpenGVLabLCL​​Paper:https:arxiv.orgabs2406.07543视觉backbone的数据瓶颈CLIP是第一个连接图像和文本的基础模型,但在大模型时代,仅凭对比学习的监督,已经不足够让下游视觉语言模型(VLM)取得足够好的性能,尤其是在OCR等细粒度、高分辨率视觉任务上。而且这类方法通常要求图像和文本数据严格...
2024-11-01 15:52:51 443浏览 0点赞 0回复 0收藏
获得成就
已积累 1192 人气
获得 0 个点赞
获得 0 次收藏