大模型上层应用本质上是一个能力整合的过程 原创
“ 技术的应用并不是一个孤岛,而是一个能力整合和串联的过程”
很多人喜欢把大模型当做一个独立的技术和应用,事实上各种应用场景是一个能力整合的过程,而不是独立的技术孤岛。
思考一个问题,你知道网络上一些由AI合成的视频是怎么生成的吗? 它的背后隐藏着那些能力?
大模型构建上层应用
以网上爆火的AI视频类为例,一个AI视频使用到了哪些技术?
首先,视频生成和处理的能力;其次,语音合成能力;再者,音画同步的能力;最后,文字与语音转换的能力等等。
比如说,要想做一个林黛玉大战孙悟空,却导致镇关西失街亭,最后导致刘备官渡之战大败而归的视频;并配上文字和语音解说。
这样的视频应该怎么做?
首先,需要利用AI 视频工具生成以上四个部分;孙悟空大战林黛玉,镇关西失街亭,官渡大战;然后自己或使用自然语言处理工具做出解说文字;最后再用TTS或剪辑工具配上某个人的语音;这样才算完成了一个基础的视频剪辑功能。
而这也是自媒体界常说的脚本,第一步该干啥,第二步该干啥等等。
而从大模型的应用角度来说,这个功能就属于AIGC的功能;那如果从技术的角度来说,是否能够利用编程技术整合多个大模型的能力,使得以上功能只需要输入一些prompt就可以完成?
从理论上来说,这种想法是可行的;而需要的是什么?
其实需要的就是一个类似于导演和编剧的角色,而这个角色可以通过什么来实现?
以上功能可以通过Agent来实现,使用一个具备逻辑推理能力的大模型作为大脑,来指挥其它模型和调用多种工具完成以上功能。
可能每一个模型和工具的能力都不是很强,但通过一个中央大脑的整合,就可以让这些简单的工具变得强大无比;而这就是能力整合的能力。
AI技术发展了几十年,虽然很多人认为它好像没什么用;但不得不承认的是,AI可以让一个什么都不懂的人也可以做一名剪辑师。
比如说,第一步利用文生图生成多张图片,然后再利用图生视频的能力,生成一段视频;然后再用自然语言处理模型生成一段文字,最后通过剪辑工具或其它AI工具把视频,文字整合到一起并配上语音旁白;这样一个漂亮的视频剪辑成果就出来了。
而在此之前,一个人要想学视频剪辑,既要需要摄影摄像,拍照剪辑,还要学会各种构图的方式以及各种拍摄和剪辑工具的使用;为了增加视频的质量还需要绞尽脑汁地写文案,找专业声优配音等。
而这些现在都可以通过AI来解决,大大降低了人的学习和使用成本,提升生产效率。
还有一些人使用类似于豆包等AI工具,调配多种AI和其它工具,整合成一个私人助手,更有甚者,有人利用AI助手开起了一个人的公司。
这都是AI技术的应用,也是一种能力整合的能力。
大模型技术虽然发展的如火如荼,但大模型的应用严格来说还处于一个不断摸索的过程;只要你敢想敢尝试,那么就有无限的可能。
原文链接:https://mp.weixin.qq.com/s/k7JyWGgod0CsrzbyO5ouKQ