可缩放矢量图形(ScalableVectorGraphics,SVG)是用于描述二维图型和图型应用程序的基本元素;与传统的像素图形不同,SVG使用数学描述来定义图形,因此可以在任何大小下无损地缩放而不失真。这使得SVG成为网站设计领域的理想选择,特别是在需要适应不同分辨率和设备的情况下。但是创作者手工设计SVG是高成本并具有挑战的。最近,随着CLIP和生成式模型的快速发展,文本引导的矢量图合成(TexttoSVG)在抽象像素风格[1,2]和矢量...
2024-04-08 10:21:43 1055浏览 0点赞 0回复 0收藏
我们在GitHub上开源了一个个性化联邦学习算法仓库(PFLlib),目前已经获得1K+个Star和200+个Fork,在业内收到了广泛的好评。PFLlib囊括了34个联邦学习算法(其中包含27个个性化联邦学习算法)、3大类数据异质场景、20个数据集。开源该仓库的主要目的是:1)降低初学者研究个性化联邦学习算法的门槛;2)提供一个统一的实验环境,在多种场景和多个方面对不同个性化联邦学习算法进行评估,为个性化联邦学习算法在具体场景中应...
2024-04-08 10:08:01 1130浏览 0点赞 0回复 0收藏
论文题目:OPERA:AlleviatingHallucinationinMultiModalLargeLanguageModelsviaOverTrustPenaltyandRetrospectionAllocation论文地址:https:arxiv.orgabs2311.17911代码地址:https:github.comshikiwOPERA01背景从LLaVA到QwenVL,从GPT4V到Claude3,幻觉(Hallucination)问题一直是当前多模态大模型(MLLM)的重要问题。当前大多数的多模态大模型对于用户提供的图像和提问,容易因为幻觉给出非常离谱的回答,...
2024-04-02 12:17:21 2571浏览 0点赞 0回复 0收藏
论文题目:ClongEval:AChineseBenchmarkforEvaluatingLongContextLargeLanguageModels论文地址:https:arxiv.orgabs2403.03514代码地址:https:github.comzexuanqiuCLongEval01研究背景和贡献为了使LLM能够支持更复杂和多样化的应用,越来越多的研究致力于扩展LLM能够处理的上下文窗口。为了评估这些longcontextLLM支持长上下文能力,目前英文领域有几个数据集被提出(如LongBench,LEval,LooGLE)。然而,在中...
2024-04-02 12:06:30 2416浏览 0点赞 0回复 0收藏
随着生成模型(如ChatGPT、扩散模型)飞速发展,一方面,生成数据质量越来越高,到了以假乱真的程度;另一方面,随着模型越来越大,也使得人类世界的真实数据即将枯竭。面对这一处境,一个近期的研究热度是,能否利用生成模型生成的假数据来辅助学习?学界对此也产生了许多争论:到底是可以左脚踩右脚(bootsrap)地实现weaktostrong的不断提升,还是像鸡生蛋、蛋生鸡一样,只不过是徒劳无功?在近期ICLR2024工作中,北大王奕森...
2024-04-02 12:02:34 941浏览 0点赞 0回复 0收藏
01引言当LoRA遇见MoE,会擦出怎样的火花?▲左侧:原始版本的LoRA,权重是稠密的,每个样本都会激活所有参数;右侧:与混合专家(MoE)框架结合的LoRA,每一层插入多个并行的LoRA权重(即MoE中的多个专家模型),路由模块(Router)输出每个专家的激活概率,以决定激活哪些LoRA模块。由于大模型全量微调时的显存占用过大,LoRA、Adapter、IA这些参数高效微调(ParameterEfficientTuning,简称PEFT)方法便成为了资源有限的机构...
2024-03-28 14:03:30 798浏览 0点赞 0回复 0收藏
图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。随着超分技术的发展和手机硬件性能的提升,人们期望拍摄出更加清晰的照片。这项技术在手机影像等领域有着广泛的应用和需求。然而,现有的超分方法存在一些局限性,如下图所示,主要有以下两个方面:一是缺乏泛化能力。为了实现更好的超分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某...
2024-03-28 13:59:18 1144浏览 0点赞 0回复 0收藏
论文标题:PreAct:PredictingFutureinReActEnhancesAgent’sPlanningAbility论文链接:https:arxiv.orgabs2402.11534代码链接:https:github.comFuDayuanPreAct01概述1.1背景大语言模型(LLM)已显示出一定的规划和决策能力。利用这种能力,ReAct将环境信息和智能体(Agent)可执行的行动提供给大语言模型,就可以利用它确定当前状态下需要执行的行动。然而,ReAct系统通常生成单一、直接的因果推理路径,这限...
2024-03-28 13:54:35 1726浏览 0点赞 0回复 0收藏
通用计算机控制信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。向数字世界AGI迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制GeneralComputerControl(GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而GCC将为通用人工智能研究提供场景,也将进一步促进大模型...
2024-03-28 13:48:35 1388浏览 0点赞 0回复 0收藏
在2024世界经济论坛的一次会谈中,图灵奖得主YannLeCun提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间[1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,正是促进该过程的关键技术。然而,当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中,研究者基于最优传输理论,提出鲁棒的长视频学习方案以应对该挑战。该论文被机器学习顶会ICL...
2024-03-28 13:35:39 542浏览 0点赞 0回复 0收藏
论文题目:OntheFeasibilityofSimpleTransformerforDynamicGraphModeling论文链接:https:arxiv.orgpdf2401.14009.pdf代码链接:https:github.comYuxiaWuSimpleDyG论文录用:TheWebConference2024MainConference作者主页:https:yuxiawu.github.io01摘要动态图建模在理解Web图中的复杂结构方面至关重要,涉及社交网络、推荐系统等多个应用领域。现有方法主要注重结构依赖性及其时序变化模式,但通常忽...
2024-03-28 12:56:18 911浏览 0点赞 0回复 0收藏
01引言这是UIUCZifengWang等发表在ICLR'24上的论文。论文题目:BioBridge:BridgingBiomedicalFoundationModelsviaKnowledgeGraphs论文链接:https:arxiv.orgpdf2310.03320.pdf在生物医学研究领域,一直以来,基础模型(FoundationModels,简称FMs)大多局限于单一模态的数据处理,比如仅仅专注于蛋白质序列、小分子结构或者是临床数据分析。这种单模态的处理框架虽然在特定任务上表现出色,但在应对多样化的生物医学数...
2024-03-28 12:38:38 1273浏览 0点赞 0回复 0收藏
近期,RAG(RetrievalAugmentedGeneration)在AI领域引起了广泛关注,成为了众多研究者和开发者热议的焦点。作为一种将检索与生成相结合的技术,RAG展示了在各种任务中,如问答、对话生成和文本摘要等,取得卓越成果的潜力。它的出现为解决复杂问题提供了新的视角,使得人工智能在理解和回应用户需求方面更加精准和高效。RAG的重要性不容忽视,它为AI领域带来了创新的思路和突破性的进展。越来越多的研究者和开发者开始关注并投...
2024-03-28 12:33:07 1358浏览 0点赞 0回复 0收藏
论文题目:AttentionIsNottheOnlyChoice:CounterfactualReasoningforPathBasedExplainableRecommendation论文链接:https:arxiv.orgpdf2401.05744近日,悉尼科技大学徐贯东教授团队,联合香港中文大学、昆士兰大学、香港理工大学、以及新加坡南洋理工大学等多家单位,发布了基于路径反事实推理的推荐系统解释新方法,并提出了一系列全新的定性和定量的解释性评价标准,引发同行广泛关注。01反事实推理的解释的背景...
2024-03-28 12:28:02 770浏览 0点赞 0回复 0收藏
2024是大模型落地应用的关键年,接下来会看到更多从硬件、架构、算法等方面极限挖掘大模型效率的探索。众人拾柴火焰高,相信在大家共同的开源努力下,我们可以更快奔向AGI的目标。——摘自刘知远老师最近对Google发布Gemma后发的一条朋友圈写在前面:Google最近也劲爆放出Gemma模型,尽管体量较小,但对比的包括Llama27B和13B,以及风头正劲的Mistral7B,其已经在关键基准测试中明显超越了更大的模型。大家都在感叹最强的开源模...
2024-03-28 12:22:18 1538浏览 0点赞 0回复 0收藏
论文题目:AllinaSingleImage:LargeMultimodalModelsareInImageLearners论文链接:https:arxiv.orgabs2402.17971开源链接:https:github.comAGIEdgerunnersInImageLearning01动机和背景近年来,大语言模型取得了显著的成功。尽管GPT4V有强大的文本理解和图片输入能力,但仍存在许多问题。例如,在读取一张复杂图片时,无法完全理解图像中呈现的信息。在本文中,我们提出了一种新的上下文学习机制——InImageLearning...
2024-03-28 12:00:14 1115浏览 0点赞 0回复 0收藏
第一步在常见AI作图模型输入「一只胖胖的像面包的橘猫」,画出一只长得很像面包的猫猫,然后用概念半透膜SPM技术,将猫猫这个概念擦掉,结果它就失去梦想变成了一只面包。上图1是更多的猫猫图失去猫这个概念后的结果。▲图1.概念半透膜SPM针对不同的「猫」图擦除猫概念后的效果下图2到图6展示了更多的示例。▲图2.失去梦想变成一只面包表情包▲图3.西装光剑米老鼠图擦除米老鼠概念▲图4.稻田里的史努比图擦除史努比概念▲图5.梵...
2024-03-28 11:44:50 609浏览 0点赞 0回复 0收藏
01研究背景目前,由大型语言模型(LLM)驱动的智能体已经证明了它们在处理复杂任务方面的显著潜力。此外,通过赋予LLM代码执行能力来提升其问题解决能力正逐渐成为一种趋势,这一点已经通过CodeInterpreter[1]、OpenInterpreter[2]、TaskWeaver[3]等工作得到了实践验证。然而,在数据科学领域,面对数据的实时变化、任务间依赖关系复杂、流程优化的专业性,以及执行结果反馈的逻辑一致性识别等挑战,现有LLMbased智能体的性能仍...
2024-03-28 09:51:01 1198浏览 0点赞 0回复 0收藏
在ChatGPT引爆AI圈之后,很多人预言2024年将会是多模态的元年。的确,我们在23年的最后一季度见证了GPT4V的发布,前不久Google家的Gemini和Anthropic的Claude3也同样支持多模态(MultimodaltoText),并且Gemini1.5中能够从两小时的视频中准确“捞针”出其中一帧包含的画面。国内这方面的工作以QwenVL为代表,也同样取得了非常不错的效果。我们最近也在大视觉语言模型(LMM)做了一些尝试,发布了RekaFlash,能够接受图片、音频...
2024-03-28 09:42:50 1164浏览 0点赞 0回复 0收藏
多模态技术是AI多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。然而,与大语言模型一样,多模态大模型也依然受到“幻觉”问题的困扰,即模型在回答中出现与图片信息不符的内容。经过测试发现,即便是GPT4V也会在45.9%的图片回答中出现明显的“幻觉”。大模型出现“幻觉”的症结之一在于未经人类对齐时发生的“过泛化”情况。例如,让模型描述街景图片...
2024-03-28 09:34:22 1178浏览 0点赞 0回复 0收藏