51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
模型
人工智能
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略
本论文第一作者倪赞林是清华大学自动化系2022级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在ICCV、CVPR、ECCV、ICLR等国际会议上发表多篇学术论文。近年来,AIGC领域发展十分迅猛。在计算机视觉中,扩散模型已经成为一种有效且常用的模型。相反,在自然语言处理领域,内容的生成通常通过使用Transformer去生成离散的token。受到这种差异的启发,越来越多的研究(以VQGAN作为典型代表)开始探索这种基...
轻薄滴假象
0回复
551浏览
视觉生成
AI
大厂也玩不起AI,6000亿美元刚够成本,AI应用或是最优解
摩根士丹利的分析显示,中国AI企业在商业化道路上步履维艰,部分AI应用先行者的业绩表现不及预期。摩根士丹利,俗称大摩,一家国际金融服务公司人工智能大模型的发展正面临着一个关键的十字路口。近期,多家机构发布报告指出,AI行业正遭遇前所未有的变现压力。中国的AI产业和AI驱动的产业直线上升事实上,AI大模型的发展困境已是一个公开的秘密。高盛曾发布题为《投资太多,收益太少》的报告,直言大公司计划在未来几年在AI相关领域投...
InfonityAI智推星
0回复
612浏览
AI
应用
模型
文生视频模型Runway、Luma同时开放API
著名文生视频模型Runway宣布开放最新文生视频模型Gen3AlphaTurbo的API,帮助开发者将该功能集成在应用中。Runway的API提供了两个套餐:“Build”主要面向希望将文生视频集成在应用的个人和团队;Enterprise则面向更大型的组织和企业。目前,Runway的API需要申请候补名单。几乎在同一时间,Runway的主要竞争对手Luma也宣布开放了生成视频API,同样可以将文生视频功能集成在应用中。Luma的API提供的是最新模型DreamMachinev1.6,...
Aceryt
0回复
882浏览
模型
生成
视频
阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!
今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5Coder和数学的Qwen2.5Math。这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。如果不想进行繁琐的部署,阿里还开放了旗舰模型QwenPlus和QwenTurbo的API,帮助你快速开发或集成生成式AI功能。开源地址:https:huggingface.cocollectionsQwenqwen2...
Aceryt
0回复
705浏览
模型
开源
斯坦福大学研究团队破解小规模语料库知识获取难题,提出创新的合成持续预训练方法
引言:探索小规模语料库中的知识获取在现代的自然语言处理领域,大规模预训练模型已经显示出了在各种知识密集型任务中的卓越性能。这些模型通常依赖于大量的、结构化不强的互联网文本数据进行训练,从而获取丰富的世界知识。然而,这种知识获取方式存在一个明显的问题:数据效率低下。为了学习特定的事实,模型必须在成百上千的不同表述中进行训练,这在面对小规模、特定领域的语料库时尤为突出,因为在这些语料库中,每个事实...
AI论文解读
0回复
1808浏览
预训练
算法
模型
拒绝信息泄露!VMD滚动分解 + Informer-BiLSTM并行预测模型
前言在时间序列预测任务中,像EMD(经验模态分解)、CEEMDAN(完全集合经验模态分解)、VMD(变分模态分解)等分解算法的使用有可能引入信息泄露,具体情况取决于这些方法的应用方式。信息泄露的主要风险在于:将未来的信息泄露给了模型,使得模型在实际应用中表现得比应有的好。为了防止信息泄露,我们在分解之前,首先对数据集进行划分。然后使用滑动窗口的方法来制作数据集标签,最后逐步滚动分解时间序列窗口!注:没有错误...
Tang_Lan
0回复
1422浏览
预测
模型
BiLSTM
一个增量式构建知识图谱的项目:iText2KG
iText2KG是一个开源项目,能够利用大型语言模型(zeroshot)跨领域从文本中提取实体和关系,自动构建和更新知识图谱,并通过Neo4j进行可视化。iText2KG由四个主要模块组成:文档提取器、增量实体提取器、增量关系提取器、图形集成器和可视化。它们协同工作,从非结构化文本构建和可视化知识图谱。iText2KG整体架构概述文档提取器(DocumentDistiller):该模块处理原始文档,并根据用户定义的模式将其重新表述为语义块。它通...
PaperAgent
0回复
1602浏览
iText2KG
项目
增量式
智能体在连续环境中的路径优化与冲突解决
多智能体路径规划(MAPF)是一个在共享环境中为多个智能体规划无碰撞路径的问题。传统上MAPF问题主要在离散环境中研究,时间和空间都被离散化为固定的步长和网格。随着实际应用需求的增加,如仓库物流和自动驾驶车辆,研究逐渐转向连续环境中的路径规划。在连续环境中,时间和空间都是连续的,智能体的运动需要考虑更复杂的运动学和动力学约束。在离散环境中,MAPF问题通常通过图模型来表示,智能体在图的顶点之间移动,避免在...
xuxiangda
0回复
1311浏览
智能体
路径优化
模型
RAG文本切分LV3:轻松定制Markdown切分
原创
上篇文章我们介绍了借助LLM和OCR将文档转换成markdown的方法:颠覆传统OCR轻松搞定复杂PDF的工具。本篇文章将介绍如何对markdown进行有效切分。之前介绍了文本切分五个层级,本文方法是第三个层次:Level1:CharacterSplitting简单的字符长度切分Level2:RecursiveCharacterTextSplitting通过分隔符切分,然后递归合并Level3:DocumentSpecificSplitting针对不同文档格式切分(PDF,Python,Markdown)Level4:SemanticSplittin...
恰似惊鸿
0回复
1214浏览
RAG
Markdown
颠覆传统OCR轻松搞定复杂PDF的工具
LLM辅助OCR项目是一个先进的系统,旨在显著提高光学字符识别(OCR)输出的质量。通过利用尖端的自然语言处理技术和大型语言模型(LLM),将原始OCR文本转换为高度准确、格式良好且可读的文档成为可能。本篇文章将介绍一款在github上拥有1.7kstar的开源实现工具LLMAidedOCR。特征本项目支持以下功能:PDF到图像转换使用Tesseract进行OCR使用LLM(本地或基于API)进行高级错误更正智能文本分块,高效处理Markdown格式选项抑制页眉和页...
恰似惊鸿
0回复
1207浏览
自然语言处理技术
大型语言模型
光学字符识别
从数据仓库到数据飞轮:技术进化与实践案例解析
原创
从数据仓库到数据飞轮:技术进化与实践案例解析前言数据技术的发展如同企业发展的脉络,从数据仓库的诞生到数据中台的崛起,再到如今数据飞轮的广泛应用,这一系列技术变革不仅展示了数据管理的演进过程,更反映了企业在应对复杂市场需求时对数据利用的不断深化。每一个技术阶段的出现,都是企业在面对数据量激增、业务流程复杂化以及对实时分析需求提升时的必然选择。数据仓库的出现,最早解决了企业分散在各个业务系统中的数...
wx6110dd2be671e
0回复
750浏览
数据仓库
数据治理
经典论文ReAct精读
原创
人类智能的一个独特特征是能够将面向任务的行为与语言推理(或称作内心独白)无缝结合。理论上,这被认为是人类认知中的重要一环,能够实现自我调节或策略化并维持工作记忆。以在厨房烹饪一道菜为例,在任何两个具体行为之间,我们可能会:(1)用语言进行推理以跟踪进度(例如“现在一切都切好了,我应该把水壶里的水加热”);(2)处理异常情况或根据情况调整计划(例如“我没有盐,所以让我用酱油和胡椒代替”);(3)意识...
AIGC最前线
0回复
809浏览
ReAct
大模型技术在AIGC领域所面临的主要问题
原创
“怎么打造出一款具有市场竞争力的AIGC产品?”AIGC——人工智能生成内容,是大模型技术目前的一个主要应用方向,简单来说大模型就像一个擅长某个领域的人,比如绘画,写作,设计等;而这种内容创作的领域就属于AIGC。但AIGC虽然发展得如火如荼,但其还面临着诸多问题。AIGC所面临的问题技术方面AIGC作为一项人工智能技术的应用场景,其技术是第一个需要解决的问题,否则一切都无从谈起。但AIGC在技术方面还面临着很多问题,比...
AI探索时代
0回复
909浏览
大模型
AIGC
从openAI最新模型GPT-o1再谈思维链(Cot)技术,大模型该怎么提升其逻辑推理能力?
原创
“推理能力是大模型迈向AGI的必经之路”最近openAI发布了号称史上最强模型——o1,其具有强大的逻辑推理能力,号称能达到人类的博士生水平。而从o1模型的评测来看,o1模型在数学竞赛,编码,科学问答等方面表现良好,甚至高出了GPT4o一大截。而且,o1在物理,化学,生物,逻辑学等其它领域,相比GPT4o都得到了巨大的提升。而据介绍o1模型之所以具有如此强大的逻辑推理能力,就是因为使用了思维链技术;当然,目前官方并没有公布...
AI探索时代
0回复
2785浏览
大模型
思维链
什么时候需要训练和微调属于自己的大模型——小微企业必须要明白的问题
原创
“从问题出发,先有需求再有解决方案”老板和员工在思维方式上有一个很大的差别就是,作为老板他们喜欢寻找现有的解决方案,如果现有的解决方案无法满足的情况下,才会自己设计一个解决方案。而作为员工来说特别是技术人员,大都有一种技术至上的心态,比如说很多技术人员找工作会特别在乎公司用的技术是否足够牛逼,足够高大上。之所以产生这种现象的原因是因为,技术人员的心态是学会牛逼的技术,走到哪里都不怕。而老板的心...
AI探索时代
0回复
635浏览
大模型
人工智能
麻省理工创新模型:用2D视频扩散,生成 3D 视频
精华
传统的3D视频生成主要有两种方法,一种是通过2D视频模型和静态3D场景模型的分类器指导来优化动态3D视频场景表示,不过这种对算力的需求极大,生成一个3D视频需要数小时;另一种是通过变形初始3D场景表示来实现,但需要严格的时间结构并且需调整复杂的参数。为了解决这些难题,麻省理工、Databricks马赛克科研所和康奈尔大学联合推出了创新模型Vid3D。该模型假设无需明确建模3D时间动态,通过生成2D视频的时序动态轮廓,然后独立...
Aceryt
0回复
1051浏览
3D
视频生成
不要沉迷大模型的技术与理论,学习大模型的方法——从做一个小应用开始
原创
“在应用中学习技术,而不是沉迷于技术本身”不知道大家都是怎么学习大模型技术的,但从个人的经验和公众号的反馈来看,有些人在学习大模型技术时转进了牛角尖,导致很多东西学不明白,事倍功半。今天就从个人的学习历程出发,来讨论一下关于大模型技术的学习方法。学习大模型技术的方法应该跟很多人一样,之所以学习大模型技术是因为大模型技术的爆火,以及大模型技术在未来的发展潜力,更重要的一点是不了解和学习大模型以后...
AI探索时代
0回复
1023浏览
大模型
OpenAI o1引发的思维链思考:思维链提示启发大模型推理
摘要:我们探索了生成一个思维链(一系列中间推理步骤)可以怎样显著提高大型语言模型执行复杂推理的能力。特别是,我们展示了这种推理能力是如何通过一种称为思维链提示的简单方法,在足够大的语言模型中自然出现的,其中提供了一些思维链演示作为提示的示例。在三个大型语言模型上的实验表明,思维链提示可以提高一系列算术、常识和符号推理任务的性能。经验收益可能是惊人的。例如,用只有八个思维链示例来提示PaLM540B在数...
angel
0回复
1142浏览
语言模型
AI
超全两万字长文详解视频扩散模型的最新进展
精华
最近,AIGCer在使用一些视频生成工具,对其中的技术点有了强烈兴趣,正好搜索到了这篇视频扩散模型综述,方法果然浩如烟海,读下来感觉受益良多,分享给大家。人工智能生成内容(AIGC)浪潮在计算机视觉领域取得了巨大成功,扩散模型在这一成就中发挥着关键作用。由于其出色的生成能力,扩散模型逐渐取代了基于GAN和自回归Transformer的方法,在图像生成和编辑以及视频相关研究领域表现出色。然而,现有的调查主要集中在图像生...
angel
0回复
2098浏览
AI
生成
Open-Sora 1.1 解读:完全开源的高效复现类Sora视频生成方案!
项目链接:https:github.comhpcaitechOpenSoraOpenSora1.1是ColossalAI开发的开源视频生成模型的最新迭代,标志着在这个快速发展的领域取得了实质性的飞跃。在其前身OpenSora1.0的基础上,该版本在功能、训练效率和整体灵活性方面进行了显著改进。OpenSora项目是一项致力于高效制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。通过采用开源原则,OpenSora不仅实现了先进视频生成技术的低成本普及,还提供了一个精...
angel
0回复
770浏览
视频生成
技术
暂无内容
1
60
61
62
63
64
65
66
67
68
客服