公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

鲁班模锤1

LV.3

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链等技术

帖子 43

声望 380

关注 0

粉丝 1

社区头条作者

私信

关注

主帖 43

回帖

xLSTM：拳打Transformer，脚踢Mamba？！

原创

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区，可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。记得在《重新审视神经网络》这篇文章中提及，任何人都可以构建自己心目中的神经网络。在Transformers、Mamba、KAN之后，长短期记忆(LSTM)...

5天前 224浏览 0点赞 0回复 0收藏

洞悉arXiv的LLM论文趋势

原创

大型语言模型(LLM)正在极大地影响AI研究，引发了关于迄今为止发生了什么变化以及如何塑造该领域未来的讨论。为了澄清这些问题，有研究人员分析新的数据集，其中包含16,979篇与LLM相关的arXiv论文，重点关注2023年与20182022年相比的最新趋势。首先研究人员观察到LLM研究越来越多地影响着社会，这从计算机和社会arXiv中LLM论文提交量增长20倍可以看出。大量新作者来自非计算机的NLP领域，推动了各个学科扩展。其次，令人惊讶的是...

2025-02-06 15:41:13 291浏览 0点赞 0回复 0收藏

图解新颖LLM的CoPE位置编码

1.快速总览研究人员提出了一种新颖的位置编码方法，称为上下文位置编码（下文称之为CoPE），它有别于基于标记的传统位置编码范式。它以上下文依赖的方式测量位置，在按位置寻址时会更加自由它在如下的任务中获得不错的收益：FlipFlop,SelectiveCopy,Counting,LanguageModeling,andCodeModelingtasks它优于现有方法，尤其是在域外泛化场景它有可能改善其他领域的编码，例如视频和语音。在这些领域，基于Token位置的编码不太合适...

2025-01-23 09:08:27 260浏览 0点赞 0回复 0收藏

LLM背后的基础模型6：一文入门Embeddings

原创

EmbeddingsEmbeddings会分为两个章节，前部分主要还是放在常规方法总结，后者主要放在神经网络技术。其实这个英文单词不难理解，就是将对象用数字标识描述。其实一直纠结是否要讲述这个话题，因为可深可浅。若要用一句话概括，就是给输入分配一个数字标识，可以是一个整数数值也可以是一个向量。不过最重要的目的是在模型训练的过程中能够高效且有效的学习参数。这里需要解释下向量，例如apple可以使用三维的向量[0.95,0.23,0.2...

2025-01-14 12:44:10 321浏览 0点赞 0回复 0收藏

新鲜速递：图解新颖LLM的CoPE位置编码

原创

2025-01-03 14:10:21 616浏览 0点赞 0回复 0收藏

优雅谈大模型：Token与分词方法

1.Token在继续前行之前，需要先停下来澄清下Token这个词，以及如何将原始的语料转化为Token，在细究背后的原理之后会更加优雅的理解大模型。任何的资讯都可以生成语料，而这些语料需要被机器理解以及供后续的模型训练，那么最常见的做法是将一段文字先切片，然后一一对应的转化为数字或者向量输入模型。通常而言有三种类型的分词法：基于单词、字符以及子词的分词法。单词和字符这里就不解释，字词法运用得最为广泛，也是最为主...

2024-12-25 12:22:59 781浏览 0点赞 0回复 0收藏

奇思妙想：多头RAG

原创

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。1.RAG检索增强生成（RAG）是一种通过集成文档检索系统来...

2024-12-17 13:10:00 475浏览 0点赞 0回复 0收藏

2024年人工智能七大趋势

社区头条

2024年，人工智能(AI)的发展轨迹将继续吸引全球各行各业。在这个不断变化的环境中，剖析塑造人工智能发展轨迹至关重要。综合行业思想领袖和风险投资家的见解，可以从其中的一角定义2024年人工智能格局。所有的思考都围绕着一个问题：人工智能在塑造创新和人类社会的未来方面发挥着怎样的关键作用？趋势1：AI与现实的融合2023年结束标志着人工智能的关键转变，强调了AI和现实融合的重要性。随着生成式人工智能从新颖性发展到实用...

2024-12-13 13:21:22 787浏览 0点赞 0回复 0收藏

优雅谈大模型：神经网络与矩阵

1.向量与矩阵上个章节的神经网络是为了解Transformer或者Mamba做好铺垫，在和后辈交流过程中发现有个障碍，那就是向量和矩阵。其实向量和矩阵的表达方式不是所有人都很习惯。在继续下面的章节之前小编认为有必要将向量、矩阵和神经网络做下补充解释。向量是具有方向和大小的量，用箭头表示。向量具有下面的性质：有好事者翻出来内积的几何含义，其实就是两个向量的长度乘以它们的夹角，那么上面代数的表达方式和下面的带有cosθ...

2024-12-05 12:30:53 536浏览 0点赞 0回复 0收藏

MobileLLM：“苗条”的模型比较好！

原创精华

1.MobileLLMMetaAI研究人员推出了MobileLLM，从arXiv论文时间上看2月份发布的，但是在六月底又更新了一版。MobileLLM利用四种先进技术，包括带有SwiGLU的FFN、深度和薄架构、嵌入共享和GQA，构建了一个强大的基线小型LLM，MobileLLM。它是专为智能手机和其他资源受限的设备而设计。研究人员将其训练出的MobileLLM125M350M和参数量相当的StateoftheArt（SOTA）模型如Cerebras、OPT、BLOOM等进行对话标杆测试。在零样本（zerosh...

2024-11-28 15:03:18 859浏览 0点赞 0回复 0收藏

图解DSPy：Prompt的时代终结者？！

社区头条

DSPy是一种编程模型，旨在改进语言模型（LM）在复杂任务中的使用方式。传统上，LM使用特定的提示模板（Prompt）进行控制，这些模板是基本前期大量的尝试而找到的预设指令。DSPy通过将LM流水线抽象为文本转化图谱，例如被其他申明模块触发的LM的命令计算图谱。1.PromptEngineering要理解DSPy，需要先理解提示词工程PromptEngineering。提示词工程也称之为上下文提示词或者上下文学习。它指的是在不更新模型权重的情况下引导LLM的...

2024-11-20 15:28:16 1416浏览 0点赞 0回复 0收藏

优雅谈大模型：一文读懂LoRA/DoRA/MoRA

社区头条

Microsoft于2021年推出的LoRA是一种经济型微调模型参数的方法。现在大模型的参数规模动不动都在10亿级别以上，微调大模型（微调这里代表着SFT，例如读者将某个大模型拿到自身领域，想使用自身领域的知识再次训练和精校大模型，就属于模型微调的领域。）的全面微调模式下，需要调整所有的参数，因此所需要的资源和时间巨大。LoRA提出了一种微训练模型的新方法，在冻结大部分的模型参数之余，仅仅更新额外的部分参数。同时它的性...

2024-11-14 15:44:28 1278浏览 0点赞 0回复 0收藏

Cephalo：专门用于仿生设计的多模态视觉大型语言模型

原创精华

材料科学侧重于研究和开发具有特定性能和应用的材料。该领域的研究人员旨在了解材料的结构、性能和性能，以创新和改进现有技术，并为各种应用创造新材料。该学科结合了化学、物理和工程原理，以应对挑战并改进航空航天、汽车、电子和医疗保健中使用的材料。材料科学面临的一个重大挑战是整合来自科学文献的大量视觉和文本数据，传统方法通常无法有效地组合这些数据类型，从而限制了生成全面见解和解决方案的能力。难点在于从图...

2024-11-08 14:55:11 1364浏览 0点赞 0回复 0收藏

NASA和IBM推出INDUS：高级科学研究的综合大模型

原创

在最近的一项研究中，来自美国宇航局和IBM的一组研究人员合作开发了一种模型，该模型可应用于地球科学，天文学，物理学，天体物理学，太阳物理学，行星科学和生物学以及其他多学科学科。当前的模型，如SCIBERT、BIOBERT和SCHOLARBERT仅部分覆盖了其中的一些领域。现有的模型没有充分考虑所有这些相关领域。为了弥合这一差距，该团队推出了INDUS，这是一套基于LLMs编码器的专门针对这些特定领域的设备。由于INDUS是根据从各种来...

2024-11-04 11:15:29 858浏览 0点赞 0回复 0收藏

多模态大模型：基础架构

原创

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。多模态大型语言模型（MLLM）是人工智能领域的前沿创新，它结合了...

2024-10-29 12:36:46 896浏览 0点赞 0回复 0收藏

AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验

原创

训练大型语言模型以及微调的教程比比皆是，但关于在生产环境中部署它们并监控其活动的资料相对稀缺。上章节提到了未来云原生的AI是趋势，然而涉及到云原生会比较偏技术。而在此之前为了解决大模型部署量产的问题，社区也一直在探索，目前已有不少工具可用于这个领域。另一方面，选择正确的推理后端为大型语言模型（LLMs）提供服务至关重要。不同的后端提供不同的服务LLMs方式，每种方式都有独特的功能和优化技术。它不仅确保了...

2024-10-24 14:51:24 2003浏览 0点赞 0回复 0收藏

一文读懂OpenGVLab带来的最新视觉预训练框架

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。在过去的十年中，ImageNet预训练的视觉模型显著提高了...

2024-10-21 13:09:40 668浏览 0点赞 0回复 0收藏

NiFi ：1 初识这把“十年一剑”的利器

“现在AI和数据处理密不可分，80%的企业可以利用ApacheNiFi轻松解决复杂的数据问题，快速完成场景建设。犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐。对于全栈式的数据分析师或者数据应用的Java研发工程师，NiFi让其摆脱复杂的数据工程，而是将精力放在分析和应用的创新之上。而NiFi的GUI也着实令人赏心悦目！”1.ApacheNiFi说到数据平台，很多人的第一反应要么是ETLELT，要么是Spark或Hadoop，要么是Flink，要...

2024-10-15 14:07:07 1299浏览 0点赞 0回复 0收藏

神经网络与2024诺贝尔物理奖

原创

约翰·霍普菲尔德（JohnJ.Hopfield）和杰弗里·辛顿（GeoffreyE.Hinton）周二被授予诺贝尔物理学奖（NobelPhysicsPrize），以表彰他们的发现帮助计算机以人脑的方式学习更多知识，为人工智能的发展奠定了基础。该奖项是对AI在人们生活和工作方式中日益增长的重要性的认可。诺贝尔委员会表示，使用人工神经网络的机器学习能够理解大量数据，已经在科学研究中发挥了重要作用，包括在物理学领域，它被用于创造“具有特定特性的新材...

2024-10-09 14:26:07 750浏览 0点赞 0回复 0收藏

白话EAGLE2：解锁大模型的“打草稿”技术

原创

实时了解业内动态，论文是最好的桥梁，专栏精选论文重点解读热点论文，围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。1.总览EAGLE2EAGLE2是一种加速大型语言模型（LLM）推理过程的技术。具体来说，它采用了基于推测性采样（speculativesampling）的技术，它通过引入动态草稿树和草稿模型的置...

2024-09-30 16:18:49 1100浏览 0点赞 0回复 0收藏

获得成就

已积累 9758 人气

获得 0 个点赞

获得 0 次收藏