鲁班模锤1
LV.3
基于开源技术生态,跟踪与普及人工智能、隐私计算、区块链等技术
声望 350
关注 0
粉丝 1
私信
主帖 37
回帖
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文​重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调​或者LLM背后的基础模型​新阅读。而最新科技(Mamba,xLSTM,KAN)​则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏​。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。1.RAG检索增强生成(RAG)是一种通过集成文档检索系统来...
4天前 134浏览 0点赞 0回复 0收藏
2024年,人工智能(AI)的发展轨迹将继续吸引全球各行各业。在这个不断变化的环境中,剖析塑造人工智能发展轨迹至关重要。综合行业思想领袖和风险投资家的见解,可以从其中的一角定义2024年人工智能格局。所有的思考都围绕着一个问题:人工智能在塑造创新和人类社会的未来方面发挥着怎样的关键作用?趋势1:AI与现实的融合2023年结束标志着人工智能的关键转变,强调了AI和现实融合的重要性。随着生成式人工智能从新颖性发展到实用...
8天前 395浏览 0点赞 0回复 0收藏
1.向量与矩阵上个章节的神经网络是为了解Transformer或者Mamba做好铺垫,在和后辈交流过程中发现有个障碍,那就是向量和矩阵。其实向量和矩阵的表达方式不是所有人都很习惯。在继续下面的章节之前小编认为有必要将向量、矩阵和神经网络做下补充解释。向量是具有方向和大小的量,用箭头表示。向量具有下面的性质:有好事者翻出来内积的几何含义,其实就是两个向量的长度乘以它们的夹角,那么上面代数的表达方式和下面的带有cosθ...
2024-12-05 12:30:53 206浏览 0点赞 0回复 0收藏
​1.MobileLLMMetaAI研究人员推出了MobileLLM,从arXiv论文时间上看2月份发布的,但是在六月底又更新了一版。MobileLLM利用四种先进技术,包括带有SwiGLU的FFN、深度和薄架构、嵌入共享和GQA,构建了一个强大的基线小型LLM,MobileLLM。它是专为智能手机和其他资源受限的设备而设计。研究人员将其训练出的MobileLLM125M350M和参数量相当的StateoftheArt(SOTA)模型如Cerebras、OPT、BLOOM等进行对话标杆测试。在零样本(zerosh...
2024-11-28 15:03:18 379浏览 0点赞 0回复 0收藏
DSPy是一种编程模型,旨在改进语言模型(LM)在复杂任务中的使用方式。传统上,LM使用特定的提示模板(Prompt)进行控制,这些模板是基本前期大量的尝试而找到的预设指令。DSPy通过将LM流水线抽象为文本转化图谱,例如被其他申明模块触发的LM的命令计算图谱。1.PromptEngineering要理解DSPy,需要先理解提示词工程PromptEngineering。提示词工程也称之为上下文提示词或者上下文学习。它指的是在不更新模型权重的情况下引导LLM的...
2024-11-20 15:28:16 581浏览 0点赞 0回复 0收藏
Microsoft于2021年推出的LoRA是一种经济型微调模型参数的方法。现在大模型的参数规模动不动都在10亿级别以上,微调大模型(微调这里代表着SFT,例如读者将某个大模型拿到自身领域,想使用自身领域的知识再次训练和精校大模型,就属于模型微调的领域。)的全面微调模式下,需要调整所有的参数,因此所需要的资源和时间巨大。LoRA提出了一种微训练模型的新方法,在冻结大部分的模型参数之余,仅仅更新额外的部分参数。同时它的性...
2024-11-14 15:44:28 639浏览 0点赞 0回复 0收藏
材料科学侧重于研究和开发具有特定性能和应用的材料。该领域的研究人员旨在了解材料的结构、性能和性能,以创新和改进现有技术,并为各种应用创造新材料。该学科结合了化学、物理和工程原理,以应对挑战并改进航空航天、汽车、电子和医疗保健中使用的材料。材料科学面临的一个重大挑战是整合来自科学文献的大量视觉和文本数据,传统方法通常无法有效地组合这些数据类型,从而限制了生成全面见解和解决方案的能力。难点在于从图...
2024-11-08 14:55:11 1014浏览 0点赞 0回复 0收藏
在最近的一项研究中,来自美国宇航局和IBM的一组研究人员合作开发了一种模型,该模型可应用于地球科学,天文学,物理学,天体物理学,太阳物理学,行星科学和生物学以及其他多学科学科。当前的模型,如SCIBERT、BIOBERT和SCHOLARBERT仅部分覆盖了其中的一些领域。现有的模型没有充分考虑所有这些相关领域。为了弥合这一差距,该团队推出了INDUS,这是一套基于LLMs编码器的专门针对这些特定领域的设备。由于INDUS是根据从各种来...
2024-11-04 11:15:29 389浏览 0点赞 0回复 0收藏
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。多模态大型语言模型(MLLM)是人工智能领域的前沿创新,它结合了...
2024-10-29 12:36:46 579浏览 0点赞 0回复 0收藏
训练大型语言模型以及微调的教程比比皆是,但关于在生产环境中部署它们并监控其活动的资料相对稀缺。上章节提到了未来云原生的AI是趋势,然而涉及到云原生会比较偏技术。而在此之前为了解决大模型部署量产的问题,社区也一直在探索,目前已有不少工具可用于这个领域。另一方面,选择正确的推理后端为大型语言模型(LLMs)提供服务至关重要。不同的后端提供不同的服务LLMs方式,每种方式都有独特的功能和优化技术。它不仅确保了...
2024-10-24 14:51:24 835浏览 0点赞 0回复 0收藏
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文​重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调​或者LLM背后的基础模型​重新阅读。而最新科技(Mamba,xLSTM,KAN)​则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏​。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。在过去的十年中,ImageNet预训练的视觉模型显著提高了...
2024-10-21 13:09:40 363浏览 0点赞 0回复 0收藏
“现在AI和数据处理密不可分,80%的企业可以利用ApacheNiFi轻松解决复杂的数据问题,快速完成场景建设。犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐。对于全栈式的数据分析师或者数据应用的Java研发工程师,NiFi让其摆脱复杂的数据工程,而是将精力放在分析和应用的创新之上。而NiFi的GUI也着实令人赏心悦目!”1.ApacheNiFi说到数据平台,很多人的第一反应要么是ETLELT,要么是Spark或Hadoop,要么是Flink,要...
2024-10-15 14:07:07 614浏览 0点赞 0回复 0收藏
约翰·霍普菲尔德(JohnJ.Hopfield)和杰弗里·辛顿(GeoffreyE.Hinton)周二被授予诺贝尔物理学奖(NobelPhysicsPrize),以表彰他们的发现帮助计算机以人脑的方式学习更多知识,为人工智能的发展奠定了基础。该奖项是对AI在人们生活和工作方式中日益增长的重要性的认可。诺贝尔委员会表示,使用人工神经网络的机器学习能够理解大量数据,已经在科学研究中发挥了重要作用,包括在物理学领域,它被用于创造“具有特定特性的新材...
2024-10-09 14:26:07 436浏览 0点赞 0回复 0收藏
实时了解业内动态,论文是最好的桥梁,专栏精选论文​重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调​或者LLM背后的基础模型​重新阅读。而最新科技(Mamba,xLSTM,KAN)​则提供了大模型领域最新技术跟踪。1.总览EAGLE2EAGLE2是一种加速大型语言模型(LLM)推理过程的技术。具体来说,它采用了基于推测性采样(speculativesampling)的技术,它通过引入动态草稿树和草稿模型的置...
2024-09-30 16:18:49 575浏览 0点赞 0回复 0收藏
并行策略正如和分布式一样,如何利用多设备和多硬件也是很重要的一个环节。大模型训练也是如此,如今训练大模型离不开各种分布式并行策略,常用的并行策略包括:数据并行(dataparallelism,DP):假设有N张显卡,每张显卡都加载完整的模型,每一次迭代(iterationstep)都将一个批次的训练数据据分割成N份系统大小的小批次(microbatch),每张显卡按照自身拿到的小批次数据进行独立的计算梯度,然后调用AllReduce计算梯度均值...
2024-09-27 13:29:41 416浏览 0点赞 0回复 0收藏
DavidMiller表示该模型的目标很明确:弥合尖端AI研究和实际应用之间的差距。他认识到,许多现有NLP模型需要大量的计算资源,并且通常局限于专有系统,从而限制了它们的可访问性。作为回应,WordLlama被设计为既轻量级又高效,使更广泛的用户能够在不牺牲质量的情况下将高性能NLP集成到他们的工作流程中。WordLlama一个开源、快速、轻量级(16MB)NLP工具包,它是一种用于NLP和单词嵌入的实用型模型,它类似于GloVe、Word2Vec或F...
2024-09-20 10:57:46 722浏览 0点赞 0回复 0收藏
“这个模型肯定比我更擅长解决AP数学考试,而且我在大学时辅修数学,”OpenAI的首席研究官鲍勃·麦格鲁(BobMcGrew)告诉我。他说,OpenAI还根据国际数学奥林匹克竞赛的资格考试对o1进行了测试,虽然GPT4o只正确解决了13%的问题,但o1的得分为83%。OpenAI发布名为o1新模型,这是全新“推理”模型系列中的第一个,这些模型经过训练可以比人类更快地回答更复杂的问题。它与o1mini一起发布,o1mini是一个更小而且较为便宜的版本。...
2024-09-13 11:33:24 544浏览 0点赞 0回复 0收藏
实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。LlamaIndex和LangChain的对比其实是一个很复杂的话题,若需要用一句话来总结,LlamaIndex是数据之王,而Lang...
2024-09-10 11:46:28 645浏览 0点赞 0回复 0收藏
大模型技术论文不断,每个月总会新增上千篇。本专栏​​精选论文​​​重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到​​大模型必备腔调​​​或者​​LLM背后的基础模型​​​新阅读。而​​最新科技(Mamba,xLSTM,KAN)​​则提供了大模型领域最新技术跟踪。1.自注意力SelfAttention自注意力的主要功能是从输入序列本身生成上下文感知向量,而不是像基于RNN的编码器解码器架构那样同时考虑输...
2024-09-05 13:27:26 736浏览 0点赞 0回复 0收藏
时间序列数据具有内在的长程和短程依赖性,对分析应用提出了独特的挑战。虽然基于Transformer的模型擅长捕获长程依赖关系,但它们在噪声灵敏度、计算效率和与较小数据集的过度拟合方面存在局限性。本次的研究人员引入了一种新颖的时间序列轻量级自适应网络(TSLANet),作为各种时间序列任务的通用卷积模型。具体来说,利用傅里叶分析来增强特征表示并捕获长期和短期相互作用,同时通过自适应阈值来减轻噪声。此外还引入了交互...
2024-09-03 11:41:07 729浏览 0点赞 0回复 0收藏
获得成就
已积累 5805 人气
获得 0 个点赞
获得 0 次收藏