HuggingFace模型转一键llamafile包完整教程,通义千问成功案例分享

发布于 2024-11-12 15:57
浏览
0收藏

随着通义千问开源版的发布,越来越多的用户希望能在本地部署这款优秀的中文大模型。然而,传统的部署方式往往需要复杂的环境配置,让很多非技术背景的用户望而却步。今天,我要向大家介绍一个革命性的方案:将通义千问转换为Llamafile格式,实现真正的一键运行!

有关 llamafile 的特点,我在上周的文章中做过总结。这次我给大家带来的是著名的中文开源大模型“通义千问”的本地一键运行解决方案。

为什么选择通义千问?

通义千问(Qwen)是阿里云开源的大语言模型,具有以下特点:

  1. 强大的中文理解能力:针对中文场景深度优化
  2. 开源免费:可以自由部署和使用
  3. 持续更新:版本迭代快,性能不断提升
  4. 社区活跃:有大量中文用户分享使用经验

一、为什么选择Llamafile部署方案?

相比于传统的Ollama和llama.cpp部署方式,Llamafile具有以下突出优势:

  1. 一键运行,对通义千问用户特别友好
  • 无需安装Python、CUDA等复杂环境
  • 无需配置模型参数
  • 双击即可运行,像运行微信一样简单
  1. 适合普通用户的硬件要求
  • 支持在普通笔记本上运行
  • 无需GPU,CPU即可运行
  • 优化后的通义千问3B版本仅需4GB内存
  1. 全平台支持
  • Windows用户可以直接双击exe文件运行
  • Mac用户可以直接在终端运行
  • Linux用户可以通过命令行启动

二、实战:将通义千问转换为Llamafile

下面我们以广受欢迎的中文大模型通义千问(Qwen2.5-3B)为例,详细介绍在Linux下的转换过程。

步骤1:下载Hugging Face模型

首先需要从Hugging Face下载模型文件:

from huggingface_hub import snapshot_download
model_id = "Qwen/Qwen2.5-3B-Instruct"
print("Downloading model: "+model_id)
snapshot_download(repo_id=model_id, local_dir="Qwen2.5-3B", local_dir_use_symlinks=False, revision="main")

步骤2:转换为llama.cpp格式

2.1 准备环境

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
pip install -r requirements.txt

2.2 转换为GGUF格式

下面的命令会将模型转换为GGUF格式。

python llama.cpp/convert_hf_to_gguf.py ./Qwen2.5-3B --outfile Qwen2.5-3B.gguf --outtype q8_0

HuggingFace模型转一键llamafile包完整教程,通义千问成功案例分享-AI.x社区

以下是转换完成的画面。

HuggingFace模型转一键llamafile包完整教程,通义千问成功案例分享-AI.x社区

步骤3:生成Llamafile

3.1 下载Llamafile运行时

wget https://github.com/Mozilla-Ocho/llamafile/releases/download/0.8.16/llamafile-0.8.16.zip
unzip llamafile-0.8.16.zip

3.2 转换为Llamafile格式

./llamafile-0.8.16/bin/llamafile-convert Qwen2.5-3B.gguf

转换完成后,你将得到Qwen2.5-3B.llamafile文件。

运行方法

  • Linux/MacOS:

./Qwen2.5-3B.llamafile
  • Windows:将文件重命名为​Qwen2.5-3B.llamafile.exe后双击运行

HuggingFace模型转一键llamafile包完整教程,通义千问成功案例分享-AI.x社区

双击Qwen2.5-3B.llamafile.exe 后的命令行显示画面

HuggingFace模型转一键llamafile包完整教程,通义千问成功案例分享-AI.x社区

我的 i5 笔记本纯 CPU 运行也能达到 7 tokens/秒

三、总结与展望

通过Llamafile格式,我们终于可以像运行普通软件一样使用通义千问了!这不仅让AI技术变得更加平民化,也为通义千问这样优秀的中文模型提供了更好的使用体验。

未来,我们期待看到:

  1. 通义千问更多版本的Llamafile格式支持
  2. 更好的中文交互体验优化
  3. 更多本地化应用场景

补充说明:本教程以通义千问3B版本为例,更大的模型(如7B、14B版本)也可以使用相同的方法转换,但需要相应更多的系统内存。建议根据自己的电脑配置选择合适的模型版本。

本文转载自​非架构​,作者: surfirst ​​

收藏
回复
举报
回复
相关推荐