“提示词的作用有两个,一个是清楚表达自己的意思,二个是让大模型能听懂”关于提示词,大部分人很多时候都把提示词想的太复杂了;特别是一些没怎么了解过大模型技术的,一些营销号或者培训班上来就告诉你一套提示词模板,然后让你按照这个模板来写提示词。你说他们提供的提示词模板有没有用?当然是有用的,但有一个前提是在某些场景下是有用的。为什么这么说?因为,提示词模板只是一种写提示词的套路,但这个套路并不是所有...
“训练数据集的质量是大模型的主要生命线之一,数据集质量直接影响到模型的性能和效果”训练一个高性能且表现较好的模型是由多种因素决定的,比如模型的设计,损失函数与优化函数的实现,训练方式的选择;当然也包括高质量的训练数据。那么,怎么才能得到一个高质量的训练数据集呢?这个就是我们今天需要讨论的问题。训练数据集的准备机器学习和深度学习模型的性能高度依赖于训练数据的质量和数量;训练数据的准备工作对于构建...
“特征提取是机器学习模型中的重要前置环境,特征提取的效果直接影响到模型的性能”在学习大模型技术的过程中,每个人应该都听过特征提取;但大部分人可能并不了解什么是特征提取,以及特征提取的方法和作用。所以,今天我们就来介绍一下大模型的前置处理——特征提取。特征提取背景有很多人认为,特征提取是由神经网络发展而来;但事实上,在机器学习发展之出,甚至可以说在人工智能技术发展之初,特征提取就已经出现了,只不...
“损失函数和梯度下降是神经网络中仅次于神经网络模型本身的两个函数,甚至神经网络模型的性能就是由其所决定的”今天我们来介绍一下神经网络模型中非常重要的两个知识点,损失函数与优化函数。了解过神经网络模型基础运作流程的应该都知道这两个重要函数,可以说一个神经网络设计的怎么样是一方面,但怎么让神经网络表现更好,就看这两个函数的质量了。损失函数与优化函数神经网络训练流程在现有的神经网络体系中,神经网...
“外部数据需要经过嵌入——Embedding转换成神经网络可以识别的向量格式的数据”开发一个大模型或者说神经网络需要经过以下几个大致步骤:1.数据集的处理2.神经网络模型设计3.神经网络模型训练前向传播损失计算优化器反向传播可能很多人觉得神经网络模型很复杂,也看不懂啥是啥;比如说很多人还分不清pytorch和Transformer的区别,也看不明白Transformer的结构图是什么。所以,今天我们以Transformer架构为例,详细梳理一下神经...
“学习一门技术,先找一套工具和理论研究下去;千万不要反复横跳,什么都想学”大模型作为未来重要的发展方向,很多人想学习大模型技术,但又苦于无从下手;而本公众号前前后后也写过一些怎么学习大模型技术的方法论;但大部分都是从应用的角度作为切入点。但是,有一个问题就是,如果你是一个技术从业者,想学习和设计一款属于自己的大模型,应该怎么做?设计一个自己的大模型大模型作为一门快速发展的新型技术,其理论与实现...
“神经网络的本质就是一个数学函数,也就是yf(x)中的f”今天这篇文章主要是用来记录一个问题,神经网络是怎么学习的?这个问题是在昨天写神经网络的开发框架——PyTorch和神经网络架构——Transformer架构时突然发现的一个问题。神经网络的学习过程在学习大模型或者说神经网络的过程中,我们知道一件事就是,神经网络在设计完成之后,需要经过大量的数据进行训练;具体流程就是要把训练数据输入到模型中,然后模型经过一系列的...
“PyTorch就是工具,而Transformer就是理论;而理论指导工具。”我们都知道大模型的本质是一个神经网络模型,因此我们学习大模型就是在学习神经网络模型;但了解了很多关于神经网络的理论,但大部分人对神经网络都没有一个清晰的认识,也就是说神经网络到底是什么?它长什么样?事实上所谓的神经网络本质上就是一个数学模型,里面涉及大量的数学运算;只不过其运算的主要数据类型是——向量,具体表现为多维矩阵。PyTorch和Tran...
“注意力机制是Transformer的核心,而注意力的目的却是特征提取”Transformer架构对从事大模型领域的人来说应该不是一个陌生的词汇,而且大家应该都知道Transformer架构的核心点就在于其selfattention自注意力机制;虽然说Transofrmer架构的自注意力机制大名鼎鼎,但真正了解注意力机制的人好像并不是很多,所以今天我们就来简单了解一下注意力机制。注意这里说的是注意力机制,不是自注意力机制。注意力机制先来思考一个问题,...
2025-01-09 14:50:40 251浏览 0点赞 0回复 0收藏
“嵌入是更高层次的向量化,是智能化的;而向量化是一种数值转化的过程,是机械式的”在前面写了几篇关于嵌入和向量化的文章,然而在今天才发现之前理解的有偏差,嵌入和向量并不是一个东西,其效果虽然相似但却并不完全一样。嵌入与向量化先来思考一下向量化和嵌入是同一个东西吗?如果不是,那他们的区别是什么?我们都知道向量是大模型的底层数据结构,可以说没有向量就没有大模型;因此,在神经网络中唯一能够处理的数据格...
2025-01-06 13:28:19 372浏览 0点赞 0回复 0收藏
“特征提取是神经网络的核心能力之一,但其复杂程度远没有想象中的那么简单”在之前的文章编码器和解码器中介绍了编码器和解码器的核心功能之——特征提取和特征重建;编码器的核心任务是特征提取,而解码器的核心任务是特征重建。但除开模型设计者也就是神经网络设计者之外,对大模型的使用者来说,大模型就是一个黑盒模型;用户只需要给定输入,大模型就可以根据训练结果给出相对应的数据输出。因此对使用者来说,大模型内的...
2025-01-06 13:22:43 288浏览 0点赞 0回复 0收藏
“向量化是一切大模型技术的基础,大模型中的一切都是向量。”在之前的文章曾不止一次的讲过向量,向量作为大模型的基础数据格式,其重要性不言而喻;但大部分人对向量还是没有一个深刻的认识。所以,今天我们就来讨论一个问题,那就是向量化,大模型的入口。向量化向量的概念这里就不解释了,有问题的可以看之前的文章,或者自己去找一下向量,矩阵的内容看看。先来讨论第一个问题,为什么要向量化?原因在于计算机无法直接处...
2025-01-03 16:44:49 508浏览 0点赞 0回复 0收藏
“大模型的核心点就在于特征的提取和重建,大模型技术的所有一切都是为了这个核心点服务”对大模型有过了解的人应该都知道Transformer架构,而且也知道这个架构在NLP(自然语言处理)领域大放异彩;但是为什么Transformer架构能在NLP领域大放异彩,以及为什么图像理解领域使用的是CNN网络,而不是Transformer网络?当然,这句话有点片面,目前基于Transformer架构在图像处理领域也逐渐变得越来越重要。序列到序列——Seq2Seq先来...
2025-01-02 14:13:28 378浏览 0点赞 0回复 0收藏
“编码器是神经网络模型的组成部分,而神经网络模型又由编码器来实现。”在上一篇文章中介绍了Transformer架构的EncoderDecoder编码器和解码器;而且我们都知道Transformer架构是神经网络模型实现的一种方式,那么一个问题就产生了,编码器和解码器与神经网络之间的关系是什么?即是由多层神经网络组成了一个个编码器解码器,还是由一个个编码器解码器组成了一层层的神经网络?它们的依赖关系是什么样的?编码器与神经网络先来...
2024-12-31 14:02:53 387浏览 0点赞 0回复 0收藏
“Transformer编码器的作用是特征提取,而解码器的作用是特征重建”在上一篇文章中介绍了大模型的嵌入和向量,这一篇来介绍一下大模型的经典架构之Transformer架构的编码器和解码器。像很多人一样,一直在奇怪Transformer架构经过多层编码和解码之后就能处理输入数据并生成新的数据;所以,今天我们就来深入了解一下Transformer的编码器。Transformer的编码器对计算机网络和加解密比较了解的朋友应该都知道编码和解码;以计算机...
2024-12-31 10:19:57 558浏览 0点赞 0回复 0收藏
“向量是大模型的基石,嵌入是大模型的入口”最近在研究RAG然后带来了对嵌入与向量的思考;毕竟嵌入与向量是实现大模型的基础;嵌入解决的是数据向量化的问题,而向量解决的是数据之间的关系问题。Embedding中文翻译是嵌入,但更形象的理解是——在机器学习和大模型中,嵌入是一种数据向量化或向量表示的技术;简单来说就相当于一个转换器,把人类能够理解的数据包括文本,图像等转换为大模型方便处理的向量数据。而向量是数学...
2024-12-30 10:25:59 522浏览 0点赞 0回复 0收藏
“嵌入是大模型的基础,而嵌入的底层结构就是向量,而表示方式就是矩阵”嵌入——Embedding,可能有些人了解过这个词,也可能没了解过这个词;但不管怎么说,嵌入在大模型技术中扮演着非常重要的角色;它是很多上层技术的基础。大模型的底层数学结构是向量,而由于计算机只能进行数值计算;因此向量在计算机中是通过矩阵结构进行表示的,优点就在于计算简单;并且能进行升维和降维操作。嵌入就是把数据(包括文本,图像,音视频...
2024-12-26 16:18:31 579浏览 0点赞 0回复 0收藏
“我们要学会使用第三方的大模型平台,而不是什么都从0开始”大模型从出现以来,其巨大的成本问题一直都是压在很多企业头上的一座山;但大模型作为一项基础设施,理论上应该和现有的基础设施相结合,比如说云计算平台。根据云计算的思想,除了实现快速部署迁移以及庞大的网络洪峰之外;其次最重要的一点就是提升资源的利用率;比如对很多公司来说,流量洪峰主要都集中在某些时间段,大部分时间的流量都比较平稳。因此,如果按照...
2024-12-25 13:23:45 411浏览 0点赞 0回复 0收藏
“向量数据库在召回效率与召回准确率之间,需要做一个业务平衡”RAG的核心技术点就在于召回数据的准确性,而在相似度搜索过程中,技术载体主要是以向量数据库为主;因此,怎么提升向量数据库的召回准确率就成了一个亟待解决的问题。在上一篇关于向量数据库的介绍中说,向量数据库不同于传统关系型数据的一点就是其使用的是向量度量的方式召回数据;而这一点就导致召回的数据在向量层面有关系,但在语义方面可能完全无关。就比...
2024-12-24 16:20:26 350浏览 0点赞 0回复 0收藏
“向量数据库的核心在于向量相似度计算”作为技术人员我想大家或多或少应该都接触过数据库技术,数据库技术的历史可以说是由来已久了;但数据库的发展也是一路曲折,特别是随着互联网体量的快速增加,对数据库的要求也变得越来越多。而且为了适应各种不同的业务场景,数据库系统也是紧跟潮流发展出多种类型的数据库;比如说传统的关系型数据库,缓存数据库,以及大数据处理的数据库;直到今天的向量数据库。关系型和缓存数据库...
2024-12-23 14:37:58 483浏览 0点赞 0回复 0收藏