鱼虫子
LV.2
这个用户很懒,还没有个人简介
声望 129
关注 0
粉丝 0
私信
主帖 12
回帖
从零实现大模型-BERT微调
原创 精华
头条 社区头条
按照顺序,轮也该轮到BERT指令微调了吧!是微调,但不是指令微调!我们在之前的文章介绍过大模型的多种微调方法,指令微调只是其中一种,就像训犬一样,让它坐就坐,让它卧就卧,同理,你让LLM翻译,它不是去总结,你让它总结,它不是去情感分析。指令微调在像GPT这种自回归的模型中应用多一些。我们在前一篇文章中基于GPT2预训练模型进行了指令微调。除了指令微调,还有一种比较常用的是任务微调,预训练模型虽然具备一定的知...
3天前 166浏览 0点赞 0回复 0收藏
“'角球迅速开出……奥里吉!'在2019年欧洲冠军联赛半决赛中,利物浦足球俱乐部完成了一次历史性的逆转。其中最具标志性的时刻之一是特伦特·亚历山大阿诺德的角球,这一角球让迪沃克·奥里吉打入了被认为是利物浦俱乐部历史上最伟大的进球。从直觉到AI驱动的洞察:体育科技的变革者足球,这项传统上依赖教练直觉和战术智慧的运动,随着人工智能(AI)的出现正在经历一场范式转变。谷歌DeepMind的研究人员开发了TacticAI,这是...
6天前 180浏览 0点赞 0回复 0收藏
​​TheAnnotatedTransformer注释加量版​​​​TheAnnotatedGPT2注释加量版​​​​TheAnnotatedBERT注释加量版​​前面三篇文章实现了Transformer、BERT以及GPT2的预训练过程,也就是上图中的Stage1和Stage2,并通过打印数据信息可视化了预训练和推理过程。此时的GPT2虽然能预测下一个词,但并不能很好地跟随人类指令,如果想让它翻译就能翻译,想让它总结就能总结,接下来还要进行指令微调。本文我们基于此前的GPT2预训练模...
7天前 242浏览 0点赞 0回复 0收藏
前面我们从0实现了Transformer和GPT2的预训练过程,并且通过代码注释和打印数据维度使这个过程更容易理解,今天我将用同样的方法继续学习Bert。原始Transformer是一个EncoderDecoder架构,GPT是一种Decoderonly模型,而Bert则是一种Encoderonly模型,所以我们主要关注Transformer的左侧部分。后台回复bert获取训练数据集、代码和论文下载链接阅读本文时请结合代码https:github.comAIDajiangtangannotatedtransformerblobmasterA...
9天前 174浏览 0点赞 0回复 0收藏
TheAnnotatedTransformer这篇文章从零复现了2017年那篇Transformer论文,TheAnnotatedTransformer注释加量版在此基础上追加注释和输出数据维度信息进一步揭开Transformer的一些细节,原始Transformer是一个EncoderDecoder架构的模型,今天我将用同样的方法继续学习GPT系列模型中最简单的GPT2,GPT是Decoderonly架构模型,所以,我们只需要关注Transformer的右侧部分。由于代码过长,所以没有把全部代码拷贝过来,建议打开下面代...
2024-06-14 14:56:03 235浏览 0点赞 0回复 0收藏
本文是在TheAnnotatedTransformer这篇文章基础上的二次加工。1.给代码加了更详细的注释。2.输出详细日志跟踪数据。原文地址:https:nlp.seas.harvard.eduannotatedtransformer或者后台回复taf获取pdf下载链接。TheAndnotatedTransformerAttentionisAllYouNeedv2022:AustinHuang,SurajSubramanian,JonathanSum,KhalidAlmubarak,andStellaBiderman.Original:SashaRush阅读方法由于原文内容过长,我没有把原文拷贝过来,阅读本文时...
2024-06-13 13:11:13 179浏览 0点赞 0回复 0收藏
如果我不说明这是一段GPT4o调戏主持人的视频,你是否会认为电话另一端是真人在对话?GPT4o在与人类的对话过程中,不仅能理解人的情绪,还能像人一样说话。总结来说,GPT4o具有下列语音能力:具有丰富的语音风格:语速快一点、语调柔和一点、或者用说唱的风格;可以理解语音以外的信息:喘气声、叹气声;可以发出非语言声音:笑声;可以进行自然而即时的互动,不需要唤醒词。​其实,早在GPT4o以前,GPT3.5手机版就有语音功能,...
2024-06-13 13:00:31 263浏览 0点赞 0回复 0收藏
我在专栏[大语言模型的技术原理和应用]中介绍了大语言模型(LLM)原理和应用,LLM对语言建模,输入输出都是文本,属于单模态模型。LLM的出现让人们看到了AGI的希望,但要实现AGI,就要让机器像人类一样实现多种感官协作,所以多模态是AGI必经之路。从今天开始我们将进入多模态领域。openAI刚刚发布的GPT4o就是一种多模态大模型。一、初识多模态大模型1.1多模态大模型定义所谓“多模态”简单来讲就是模型能够处理多种数据模态,例...
2024-05-24 13:15:33 758浏览 0点赞 0回复 0收藏
诺贝尔奖主要颁给那些为人类做出巨大贡献的人,我国的屠呦呦就因发现青蒿素在2015年获得诺贝尔医学奖。Alphafold不是某个人类科学家,它是GoogleDeepMind开发的一个深度学习模型,它能够预测蛋白质结构。把诺奖颁给一个模型,你可能会觉得我危言耸听了,但如果你了解蛋白质结构的作用,你肯定会改变想法了。一、蛋白质合成过程在此之前还是先简单了解下蛋白质的合成过程。蛋白质是由氨基酸序列组成的,人体内有21种氨基酸种类,...
2024-05-24 13:10:53 330浏览 0点赞 0回复 0收藏
前面我们通过LLM+向量数据库搭建了RAG,然后又将LLM和外部组件协作构建了Agent。LLM作为AI的一个细分领域,LLM+也和AI+一样正在重塑各行业。今天,我们来看看LLM和传统机器学习能碰撞出什么火花。我们都知道,机器学习模型擅长从数据中发掘潜在模式,大语言模型擅长自然语言理解与生成。但传统机器学习算法依赖人的经验去做特征工程,模型选择,调参等。那能否借助LLM的理解和生成能力去弥补传统机器学习的不足呢?这种融合新范...
2024-05-24 13:07:29 388浏览 0点赞 0回复 0收藏
一、人机交互发展史先简单了解下人机交互的历史。打孔卡命令行(CLI)图形用户界面(GUI)ARVRMR语音助手像Siri,小爱同学等语音助手虽然也能通过自然语言交互,只能打开某个应用,或者搜索互联网,一般不能理解UI中的元素。二、ScreenAI:多模态大模型谷歌近期推出多模态大模型ScreenAI,带来人机界面交互新方式。ScreenAI不仅能够理解UI上的元素,还具有推理能力,并且能根据用户指令与UI进行交互。项目主页:https:research....
2024-05-24 11:30:45 400浏览 0点赞 0回复 0收藏
TransparencyTool是facebook开源的大语言模型可视分析工具,用于分析基于Transformer架构的语言模型。源码:https:github.comfacebookresearchllmtransparencytool技术报告:https:arxiv.orgpdf2404.07004.pdf一、浅谈原理Transformer是由多个注意力块堆叠而成,每个注意力块视为一层,每个层包含一个多头注意力层和一个前馈网络。token向量在注意力层中,向量之间能够相互交流,并根据彼此信息更新自身的值;在前馈网络中,向...
2024-05-24 11:27:41 398浏览 0点赞 0回复 0收藏
获得成就
已积累 814 人气
获得 0 个点赞
获得 0 次收藏