在人工智能领域,尤其是深度学习中,注意力机制已经成为一种不可或缺的技术,它赋予了模型类似人类的“聚焦”能力,让模型能够从海量信息中筛选出关键部分进行处理。今天,我们就来深入探讨一下15种常见的注意力机制,帮助大家更好地理解它们的特点和应用场景。1.软注意力(确定性注意力)软注意力机制是一种确定性的注意力分配方式。它会给输入数据的每个部分都分配一个权重,这些权重通过某种可学习的函数计算得出,通常是基...
Transformer的关键组件之一是位置嵌入。你可能会问:为什么呢?因为Transformer中的自注意力机制是排列不变的;这意味着它计算输入中每个标记从序列中其他标记接收的注意力程度,但它没有考虑标记的顺序。实际上,注意力机制将序列视为一个标记集合。因此,我们需要另一个称为位置嵌入的组件,它可以考虑标记的顺序,并对标记嵌入产生影响。但是,位置嵌入有哪些不同类型,它们又是如何实现的呢?在本文中,我们将研究三种主要...
2025-03-10 00:00:12 1473浏览 0点赞 0回复 0收藏
家人们谁懂啊!DeepSeek连续两天向AI圈扔出炸弹后,今天又甩出一个王炸——DeepGEMM!这玩意儿简直可以称作一键榨干显卡性能,让算法速度原地芜湖起飞🛫。本摸鱼小编带你们盘一盘这个让码农狂喜、资本沉默的「算力永动机」!一、啥是DeepGEMM?先来给大家介绍一下,DeepGEMM是一款专注于FP8高效通用矩阵乘法(GEMM)的库。咱都知道,矩阵乘法在深度学习里那可是家常便饭,就像是盖房子时的砖头,少了它啥都干不成。而De...
2025-02-26 14:45:28 975浏览 0点赞 0回复 0收藏
当前AI在推理能力提升上遇到了诸多瓶颈,这在一定程度上限制了其进一步发展和广泛应用。在传统的AI训练中,模型对大量监督数据的依赖是一个显著问题。监督学习需要大量带有标注的数据来训练模型,使其能够对新的数据进行准确的分类或预测。然而,获取高质量的标注数据往往需要耗费大量的人力、物力和时间。以图像识别为例,为了训练一个能够准确识别各种动物的AI模型,需要人工对大量的动物图像进行标注,标记出图像中动物的种...
2025-02-10 15:34:58 1457浏览 0点赞 0回复 0收藏
最近,国内大模型界可谓是“风起云涌”,kimik1.5和DeepSeekV3这两位“大侠”横空出世,一路“杀疯了”,不断向OpenAI和其他海外大模型的霸主地位发起挑战。这不禁让人想起了那句网络梗:“一山更比一山高,一模更比一模强!”今天,咱们就来好好对比一下这两位国内大模型界的“当红炸子鸡”,看看它们到底有何不同,顺便再和海外顶尖的OpenAIo1对比一下,看看咱们离国际顶尖水平还有多远。接下来,咱们就来详细对比一下这三位...
2025-01-26 14:58:01 4389浏览 0点赞 0回复 0收藏
什么是混合专家模型MoE呢?混合专家模型MoE是一种能让大型语言模型(LLM)质量变好的技术。它主要由两部分组成:专家——现在每个前馈神经网络(FFNN)层都有好多个“专家”,每次可以用其中一部分。“专家”一般也是前馈神经网络。门控网络——它能决定把哪些tokens送到哪些专家那儿。在带混合专家模型MoE的大型语言模型的每一层,都能看到这些有点专门作用的专家:要知道,这里的‘专家’可不是像‘心理学’‘生物学’这种特定...
2025-01-17 11:48:08 1718浏览 0点赞 0回复 0收藏
1.扩散模型研究现状1.1定义与基本原理扩散模型是一种深度生成模型,其灵感来源于非平衡热力学。它通过定义一个马尔可夫链,逐渐向真实数据中添加随机噪声(前向过程),然后学习反向扩散过程(逆扩散过程),从噪声中构建所需的数据样本。扩散模型包括两个主要步骤:前向扩散过程和反向去噪过程。在前向扩散过程中,模型逐步向数据添加噪声,直到数据完全转化为噪声;在反向去噪过程中,模型从纯噪声开始,逐步去除噪声,恢复出...
2025-01-08 13:28:05 2317浏览 0点赞 0回复 0收藏
一、强化学习基础概述强化学习是机器学习的一个分支,核心在于智能体(agent)与环境(environment)的交互。智能体执行动作(action),环境随之反馈奖励(reward)和新的状态(state)。智能体的目标便是通过不断试错,学习到能最大化长期累积奖励的策略(policy)。大语言模型的预训练依赖海量无监督文本数据,构建起庞大的参数空间来捕捉语言规律。然而,这一过程存在诸多短板:缺乏任务针对性:预训练后的模型像是个“知识...
2024-12-30 13:44:56 1490浏览 0点赞 0回复 0收藏
说到Transformer,就不能不提它的好搭档——LayerNormalization(LayerNorm),简称LN。你可能要问,为啥Transformer要用LN而不是BatchNormalization(BN)呢?这背后可是有大学问的。在聊“二选一”的问题前,我们先介绍下什么是LayerNormalization?什么是BatchNormalizationLayerNormalization(层规范化)LayerNormalization(简称LN),是一种在深度学习中使用的规范化技术,由JimmyLeiBa和JamieRyanKiros等人在2016年提出...
2024-12-20 11:06:35 3737浏览 0点赞 0回复 0收藏
1、监督学习今天我们来聊聊机器学习中的那些“监督”的事儿。你知道吗?在机器学习的江湖里,有那么几种学习方式,它们各自有着不同的门派和绝学。咱们今天就先从“监督学习”开始说起。1.1来源与定义监督学习,这个名字听起来是不是有点像咱们上学时老师手把手教我们做题的感觉?其实,它的原理还真有点儿类似。在机器学习中,监督学习是一种需要“老师”(也就是我们人类)提供标准答案来训练模型的方法。这种学习方式最早可...
2024-12-10 11:17:41 1.0w浏览 0点赞 0回复 0收藏