【AI】适合家用个人部署的小型本地模型推荐

适合家用个人电脑部署的开源AI大模型主要包括以下几类,这些模型在性能、资源需求和适用场景上各有特点,用户可以根据自己的硬件配置和需求选择合适的模型:


1. LLaMA 系列

  • LLaMA 3:Meta 发布的开源大模型,支持 8B 和 70B 参数版本,8B 版本最低仅需 4GB 显存即可运行,适合家用电脑部署。
  • LLaMA 2:支持 7B、13B 和 70B 参数版本,7B 版本仅需 8GB 内存即可运行,适合入门级用户。

2. Gemma 系列

  • Gemma 2B:谷歌发布的轻量级模型,仅需 20 亿参数,适合性能有限的电脑运行,效果接近 GPT-3.5-Turbo。
  • Gemma 9B:90 亿参数版本,效果更好,但需要至少 12GB 内存支持。

3. Mistral 系列

  • Mistral 7B:性能优异,支持多种任务,仅需 4.1GB 存储空间,适合家用电脑部署。

4. ChatGLM 系列

  • ChatGLM-6B:清华大学开源的中英双语对话模型,62 亿参数,适合私有化部署,支持多卡训练和微调优化。

5. 其他轻量级模型

  • Phi-2:微软发布的 27 亿参数模型,仅需 1.7GB 存储空间,适合低配置电脑。
  • Dolphin Phi:27 亿参数模型,1.6GB 存储空间,适合轻量级任务。
  • Orca Mini:30 亿参数模型,1.9GB 存储空间,适合初学者。

6. 多模态模型

  • LLaVA:支持图像和文本的多模态模型,7B 参数版本仅需 4.5GB 存储空间,适合创意设计和内容生成。

7. 代码生成模型

  • Code Llama:专为代码生成优化的模型,7B 参数版本仅需 3.8GB 存储空间,适合开发者。

部署工具推荐

  • Ollama:开源工具,支持快速部署和管理上述模型,适合家用电脑。
  • LM Studio:桌面应用程序,支持 GPU 加速,适合实验和评估不同模型。
  • Open WebUI:提供可视化界面,支持多模型管理和对话交互。

硬件需求

  • 显存:至少 8GB(7B 模型),推荐 16GB 或更高(13B 及以上模型)。
  • 内存:至少 16GB(7B 模型),推荐 32GB(13B 及以上模型)。
  • 存储空间:至少 20GB 空余空间,推荐 50GB 以上。

总结

家用个人电脑部署开源 AI 大模型的选择较多,从轻量级的 Gemma 2B 到高性能的 LLaMA 3 70B,用户可以根据自己的硬件配置和需求选择合适的模型。部署工具如 Ollama 和 Open WebUI 可以简化安装和管理过程,适合初学者和开发者使用。如需更多信息,可以参考相关来源。

Open WebUI

使用 Docker Compose 部署 Open WebUI 的配置要求主要包括以下几个方面:


1. 硬件要求

  • CPU:至少 4 核,推荐 8 核或更高。
  • 内存:至少 8GB,推荐 16GB 或更高(具体取决于模型大小,例如 7B 模型需要 8GB,13B 模型需要 16GB)。
  • GPU(可选):如果使用 GPU 加速,需要支持 CUDA 的 NVIDIA GPU 或兼容 ROCm 的 AMD GPU。
  • 存储空间:至少 20GB 空余空间,推荐 50GB 以上(用于存储模型和容器数据)。

2. 软件要求

  • 操作系统:支持 Linux、Windows(WSL2)、macOS。
  • Docker:需要安装 Docker 和 Docker Compose(推荐使用 Docker Compose v2)。
  • NVIDIA 容器工具包(如果使用 GPU):需要安装 NVIDIA Container Toolkit 以支持 GPU 加速。

3. 配置文件

以下是一个典型的 docker-compose.yml 配置文件示例:

version: '3'
services:
  ollama:
    image: ollama/ollama
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama:/root/.ollama
    restart: unless-stopped

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    ports:
      - "3000:8080"
    volumes:
      - ./open-webui:/app/backend/data
    restart: always
    depends_on:
      - ollama

配置说明

  • Ollama 服务:运行大语言模型的后端服务,暴露端口 11434
  • Open WebUI 服务:提供 Web 界面,通过 OLLAMA_BASE_URL 连接到 Ollama 服务。
  • 数据持久化:通过 volumes 将数据挂载到本地目录,避免容器重启后数据丢失。

4. GPU 支持配置

如果使用 GPU,需要在 docker-compose.yml 中添加 GPU 支持配置:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:cuda
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

对于 AMD GPU,需要设置环境变量 HSA_OVERRIDE_GFX_VERSION 以支持特定 GPU 架构。


5. 网络与端口配置

  • 端口映射
    • Ollama:默认端口 11434
    • Open WebUI:默认端口 3000(映射到容器内的 8080)。
  • 网络配置:确保容器之间可以通过网络通信(例如使用 depends_on 确保 Open WebUI 在 Ollama 启动后运行)。

6. 环境变量配置

  • OLLAMA_BASE_URL:指定 Ollama 服务的地址(例如 http://ollama:11434)。
  • WEBUI_NAME:自定义 WebUI 名称。
  • WEBUI_SECRET_KEY:设置安全密钥(推荐使用 32 位以上随机字符串)。
  • DATABASE_URL:如果使用外部数据库(如 PostgreSQL),需要配置数据库连接信息。

7. 部署步骤

  1. 创建 docker-compose.yml 文件并配置服务。
  2. 运行以下命令启动服务:
    docker compose up -d
    
  3. 访问 http://localhost:3000 使用 Open WebUI。

8. 注意事项

  • 数据备份:定期备份挂载的本地数据目录(如 ./ollama./open-webui )。
  • 模型下载:首次使用需要下载模型文件,可能需要较长时间(可通过配置 Hugging Face 镜像加速下载)。
  • 多用户管理:Open WebUI 支持多用户模式,第一个注册的用户默认为管理员。

通过以上配置,您可以轻松部署 Open WebUI 并体验私有化的大语言模型服务。如果需要更详细的配置或遇到问题,可以参考相关文档或社区支持。

官方网站及配置

version: '3'
services:
  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
volumes:
  open-webui:

启用 NVIDIA GPU 支持:

deploy:
  resources:
    reservations:
      devices:
        - driver: nvidia
          count: all
          capabilities: [gpu]