“生成式模型的表象就是从训练数据的数学分布中学习规律,然后生成新的相似的数据样本。”在之前的文章中虽然也介绍过生成式模型,但更多的是从非技术的角度理解什么是生成式模型;而今天我们来学习一下,生成式模型的实现。生成式模型什么是生成式模型?从专业的角度来说,生成模型是一类能学习数据分布并生成新样本的机器学习模型;通过捕捉训练数据的数学关系,创建出与真实数据相似但从未出现过的新示例。生成式模型的原...
“RAG的核心部件有大模型,embedding模型和检索系统;而RAG的重点和难点都在于检索系统”RAG检索增强生成——也是很多人理解的本地知识库,但RAG和本地知识库还是有很大区别的;但这不是今天讨论的重点,重点是为什么会有RAG技术,以及RAG技术解决了哪些问题?大模型存在的几个主要问题,知识的局限性实时性和幻觉问题以及隐私数据RAG并不能完全解决幻觉问题,但可以减少幻觉的发生incontextlearning语境学习上下文学习RAG与大...
“大模型训练的本质,是一个参数不断优化的过程”大模型训练的本质是通过大量的数据和计算资源,优化一个参数化的模型,使其能够在高纬空间中拟合复杂的输入和输出关系;从而学习到数据中的模式和规律,并能对未知数据进行推理和预测。大模型训练的本质要想了解大模型训练的本质,首先要明白大模型是什么;从表面来看,大模型就是一个具有大量参数的神经网络模型。可能上面这句话很多人已经听了很多遍,但往往复杂的问题总是...
“大模型需要先经过模型设计和实现,然后再进行预训练获得通用能力,最后通过微调强化能力”在上一篇文章中介绍了预训练为什么要使用无监督学习,并简单介绍了预训练与微调;而在之前的文章中也讲过什么是训练和微调,而现在再回头看看发现之前的理解还是太肤浅了。所以,今天我们就来深入理解一下预训练与微调。大模型预训练与微调在之前学习大模型训练和微调的过程中,一直认为预训练就是使用大规模数据训练一个新模型的过...
“预训练一般采用无监督的方式进行,而微调一般采用监督学习的方式进行”说到预训练大模型,首先就要先了解一下pretraining(预训练)和finetuning(微调)。什么是预训练?比如说你想做一个图像识别的大模型,这时你需要使用某种神经网络架构(比如Transformer)来设计一个神经网络,然后通过某种初始化方法对神经网络参数进行初始化。然后,你就可以使用大量的训练数据对模型进行训练,也就是不断的调整其参数;直到损失差不断的降...
“学会写提示词,就类似于学会使用电脑的鼠标和键盘,这是学习和使用大模型必备的技能之一。而提示词工程就是让你学会怎么和大模型说话”最近断断续续一直有人通过后台留言或加微信的方式,来咨询大模型的应用问题;比如,怎么用大模型优化文本,或者怎么才能从大模型得到更好的回答等问题。这些零零散散的问题,其实归根结底都属于大模型的应用问题,而大模型的应用目前最常用,也是最重要的手段就是提示词工程。简单来说,...
“多模态大模型核心要点只有两个,交叉性和互补性;多模态大模型的目的就是在保证互补性的前提下,去除交叉性”在上一篇文章中介绍了什么是生成式大模型,生成式大模型的本质是一种表征模型,主要包括两个方面理解与生成,或者说所有的模型都是基于理解和生成两个方面组成。而什么是多模态模型呢?网上一般谈到多模态模型,就是具有多种数据模式的模型,比如同时能够处理文字,图片,视频等多种模态数据的模型。其实从本质上来...
“生成式AI或者说AIGC的本质是一种基于概率分布的数据表征技术”最近一段时间一直在做AIGC(人工智能生成内容)方面的应用,而AIGC属于生成式AI的范畴;刚开始只是把这些生成式AI拿过来用一下,但随着对大模型了解的加深,突然发现生成式AI好像也没有那么简单。比如说,生成式AI是怎么实现的?可能有人会这么回答,是基于Transformer等架构实现,基于概率分布的一种模型。当然,这么说好像也没错,但非生成式AI又是怎么实现的呢...
2024-11-11 15:16:43 460浏览 0点赞 0回复 0收藏
“打造一款模型是一件非常复杂的事情,设计的问题也非常非常多,因此大家要做好心理准备”这段时间写的文章主要都在讲大模型的应用问题,以及自己在工作中遇到的一些问题;而今天我们就从大模型服务的角度,来思考一下打造一款大模型需要经过哪些步骤,也就是怎么打造一款大模型。怎么打造一款大模型?可能不同的人对大模型有不同的理解,不同的企业实现大模型的方式可能也不太一样;但其大体上的步骤和过程还是差不多的。打...
2024-11-11 15:06:20 299浏览 0点赞 0回复 0收藏
“自己设计并实现一个大模型,才能对大模型技术有更加深刻的体会”对学习大模型技术的人来说,大家都想体验自己训练和微调一个模型,但受限于自身条件,可能很多人无法达成这个目的;但不知道有人是否思考过,能否自己设计一个模型,根据自己的想法去落地一个大模型。当然,这个大模型也不一定非要体积特别大,也可以是一个参数规模较小的模型。那么应该怎么实现它呢?设计一个大模型的思路怎么设计一个大模型,不知道大家有...
2024-11-07 15:42:38 407浏览 0点赞 0回复 0收藏
“学习技术之前,我们首先要搞明白的是我们想要什么,想做什么,而不是稀里糊涂的去学习技术”大模型技术作为目前比较火的技术之一,有很多技术人员想从事大模型方面的开发,但又不知道该怎么入手,应该学点什么。今天我们就根据作者个人的感受来提供一些建议或者说看法。对想从事大模型领域开发者的建议首先,作为一个技术人员来说我们首先要明白一件事,大模型领域的开发主要分为两个部分;一个是基于大模型的应用开发,二...
2024-11-06 15:56:01 297浏览 0点赞 0回复 0收藏
“大模型训练的难点不在于大模型本身,而在于训练数据”这两天公众号上有一个小兄弟问我关于大模型训练的问题,然后他想自己训练一个小模型,但又不知道该怎么操作;所以,今天就再来讨论一下大模型的训练问题,大模型训练的难点到底在哪里?大模型训练的难点对大部分学习大模型技术的人来说,大模型训练和微调可能都是一个无法绕过的问题,也是很多人弄不明白的问题,总认为由于没有足够的算力,个人无法进行模型训练。但事...
2024-11-05 14:12:35 259浏览 0点赞 0回复 0收藏
“技术并不是一个一蹴而就的过程,而是一个逐渐发展的过程”大模型火了也有两年时间了,然后很多人也在不断的学习大模型技术,但很多人一直没学明白什么是大模型技术;他们所理解的大模型技术就是官方给出的大模型定义,但根本不知道为什么需要大模型技术,以及大模型为什么会是这个样子。今天,我们就抛开技术来思考一下,什么是大模型?什么是大模型?如果你问一个人什么是大模型,如果是一个技术人员他肯定会告诉你,大模型...
2024-11-04 15:34:28 168浏览 0点赞 0回复 0收藏
“整个世界都是一个草台班子,但区别在于有的草台班子会越来越好,有的草台班子会越来越差”在很多人看来,创业应该是一件很严肃的事情,需要人力,技术,资源,资本等等各种乱七八糟的东西;但事实上创业没有想的那么复杂,而且远比你想象中的要简单的多。世界上很多伟大的公司都起源于一个地下车库或者一个破破烂烂的小房间,在国内创业者如果没有自己的办公室和员工可能会被嘲笑,但在硅谷可能路边角落里的两个人,吃着廉...
2024-10-31 16:53:52 213浏览 0点赞 0回复 0收藏
“世界就是一个巨大的草台班子,而很多看起来高大上的场景,背后就是一个low的不能再low的处理方式”对大模型有过了解的人应该都知道,整体来说国外的大模型要比国内的强;但由于封禁的原因导致国内无法直接使用国外的大模型,因此对一些做大模型应用的人和企业来说,要想使用国外的大模型只有一个办法,那就是找一些中间商,通过他们的转发服务来调用国外大模型。如果是那种正常的国外大模型服务商还比较好对接,但其中有这...
2024-10-30 13:50:04 230浏览 0点赞 0回复 0收藏
“能使用和会使用大模型并不是一回事”AIGC——人工智能生成内容,可以说是大模型技术的看家本领了,以openAI发布的影响全世界的chatGPT来说就属于一个AIGC应用,只不过其主要偏向于语言处理,也就是大模型技术与自然语言领域相结合的结果。但从AIGC应用的产品来看,不论是基于大模型开发的AIGC产品,还是做AIGC的大模型服务商,AIGC生成的效果可以说是天差地别。AIGC发展与现状AIGC技术经过这两年的发展取得了不错的进展,chat...
2024-10-29 14:03:39 305浏览 0点赞 0回复 0收藏
“大模型的本质就是一段有输入和输出,并能使用某种算法达到某种目的得计算机程序”在刚开始接触大模型时,根本不明白大模型是个什么玩意,看着别人给出的定义一脸懵逼。不论是业内还是网上的文章,对大模型的普遍定义都是拥有巨大参数量和复杂计算的机器学习模型深度学习模型。从定义中能够看出哪些东西?巨大参数量,复杂计算,机器深度学习模型。说句实话,对大部分人来说看了这玩意有什么用,有谁能用自己的话说明白什么...
2024-10-28 09:50:05 235浏览 0点赞 0回复 0收藏
“软件开发的原则之一——每引入一个模块风险就增大两分”大家都知道作者现在做的是基于大模型的上层应用开发,之前主要做的工作流和自己部署大模型;虽然操作起来很复杂也很困难,但从功能开发的角度来说定制化比较强,开发也比较简单。之前在搞工作流的时候感觉好复杂,主要时间都花在了运维上面,真正的功能开发时间并不长。这次有个功能需要用到第三方接口,本来以为不需要自己维护大模型能够减轻很多压力,只需要关注于...
2024-10-25 16:53:53 202浏览 0点赞 0回复 0收藏
“如果你觉得一件事没有存在感,但它又确实存在,那么原因就是你不够了解它”本人并不是人工智能科班出身,之前是做javaweb开发,只不过这两年人工智能比较火,而且其潜力也毋庸置疑,因此就想转到人工智能这个行业中来。刚开始接触大模型技术时,啥玩意都不懂就每天上网看文章看视频,然后自己又买点相关的书;花了一个多月的时间,总算是简单了解了与人工智能和大模型相关的名称以及部分专业术语。然后一边看视频,一边敲代...
2024-10-24 13:16:38 247浏览 0点赞 0回复 0收藏
“大模型的原理就是通过编程实现的某种数学算法模型,把输入数据进行处理,最后再输出的一个过程”这段时间的文章中,一直都是在说大模型的应用,也就是怎么基于大模型开发上层应用,以及在开发过程中遇到的一些问题;但同样在文章中也说过从应用入手,然后再了解其实现原理,这就是知其然,再知其所以然。最近一直在搞图片生成和视频生成方面的应用,但使用的不是第三方的接口,就是现有的开源模型,虽然知道它们能做些什么...
2024-10-23 16:15:55 478浏览 0点赞 0回复 0收藏