译者 | 布加迪
审校 | 重楼
AI行业正在经历一场转变,转向更小巧更高效的大语言模型(LLM),从而使用户能够在本地机器上运行模型,无需功能强大的服务器。本教程将指导你借助Cortex运行本地LLM,着重介绍其独特的功能和易用性,使任何拥有标准硬件的人都可以享用AI。
注意:Cortex目前正在积极开发中,这可能会导致bug或某些功能无法正常运行。你可以通过GitHub或Discord报告任何问题。
Cortex简介
Cortex是一个动态的本地AI API平台,旨在轻松高效地运行和定制大语言模型(LLM)。它拥有一个简单直观的灵感来自Ollama的命令行界面(CLI),完全用C++构建而成。你可以下载适用于Windows、macOS和Linux的安装软件包。
用户可以从Hugging Face中选择模型,也可以使用Cortex的内置模型,这些模型以通用文件格式存储,以增强兼容性。使用Cortex最棒的地方在于,它支持可切换的引擎,从llama.cpp开始,可计划在将来添加ONNX Runtime和TensorRT-LLM。此外,你还可以获得带有仪表板的实用服务器,用于查看API命令并对其进行测试。
开始上手Cortex
登录官方网站https://cortex.so/,下载并安装Cortex。
之后,打开终端或PowerShell,输入如下命令以下载Llama 3.2 3B指令模型。
它将提示你选择模型的各种量化版本;只需选择默认选项llama3.2:3b-ggulf-q4-km。模型将被下载,下载时间取决于你的网速。
你还可以从Hugging Face Hub中提取模型,只要在‘pull’命令后输入模型的存储库ID,它就会自动下载。
下载完成后,输入带有模型名称的‘run’命令来启动服务器。
一旦一切设置完毕,你就可以开始从Llama 3.2提问了。
正如我们所见,模型准确地回答了关于世界上最高建筑的问题。
我们甚至问了一些后续问题,它也能理解上下文。简单又快速。
当你运行服务器时,还可以选择通过Python API、CURL命令以及其他语言的API访问模型。
在浏览器中输入URL http://127.0.0.1:39281,开始探究你可以用服务器做些什么。
如果你想查看有多少模型在后台运行以及它们消耗了多少内存,可以输入‘ps’命令来查看。
结论
Cortex是一个大有潜力的新平台,有望改变我们在本地和云端使用LLM的方式。其强大的服务器功能提供了广泛的功能特性,使访问和管理模型既直观又高效。与Ollama相似,Cortex允许用户直接在终端上测试模型,从而简化了过程,增强了用户体验。
我们在本教程中了解了Cortex、如何安装以及如何下载并在终端本地使用Llama 3.2,强烈建议你在本地尝试一下。
原文标题:Run Local LLMs with Cortex,作者:Abid Ali Awan