Qwen2.5-Coder-7B在线及本地部署安装使用教程

Qwen2.5-Coder-7B 是阿里巴巴达摩院推出的专注于代码生成的开源AI编程模型，具有强大的代码生成、补全和推理功能。本文将提供详细的部署步骤，以在本地或云端在线搭建 Qwen2.5-Coder-7B 服务，实现代码生成的自动化。

一、准备工作 1.1 系统和硬件要求

Qwen2.5-Coder-7B 模型参数量达到 76 亿，对计算资源有较高需求。建议的硬件配置如下：

操作系统： Linux（Ubuntu 18.04 及以上）

GPU: 至少 NVIDIA A100 40GB 或更高（建议多卡部署）

CPU: 8 核心或以上

内存: 至少 32GB

如果你没有 GPU，可以在 CPU 上运行，但速度会较慢。

1.2 安装依赖软件

在部署 Qwen2.5-Coder-7B 前，需要安装必要的软件包，包括 Python、CUDA、PyTorch 等。以下是推荐的安装步骤：

更新系统： sudo apt update && sudo apt upgrade -y

安装 Python 3 和 pip：如果系统没有 Python 3.8 以上版本，可以使用以下命令安装： sudo apt install python3 python3-pip -y

安装 CUDA：如果你的机器支持 GPU，加速库 CUDA 也是必要的。可以通过 NVIDIA 官方文档安装 CUDA，确保 CUDA 版本为 11.3 或以上。

安装 PyTorch：根据 GPU 支持情况，使用 pip 安装 PyTorch： pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

安装 Transformers 和 ModelScope（可选）： pip install transformers modelscope

二、获取 Qwen2.5-Coder-7B 模型

阿里巴巴将 Qwen2.5-Coder-7B 发布在 Hugging Face 和 ModelScope 两个平台，可以选择合适的方式下载模型。

2.1 从 Hugging Face 获取

使用 Hugging Face 的 transformers 库可以直接下载和加载模型：

from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-Coder-7B") model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Coder-7B")

以上代码会自动下载模型权重并缓存到本地。如果你想将模型保存在特定路径，可以指定 cache_dir 参数。

2.2 从 ModelScope 获取

可以使用 ModelScope 的 SDK 来加载 Qwen2.5-Coder-7B：

from modelscope.models import Model model = Model.from_pretrained("Qwen/Qwen2.5-Coder-7B")

ModelScope 提供了便捷的 API 调用方式，适合在模型库中快速部署。

三、本地部署 Qwen2.5-Coder-7B API

以下我们将介绍如何通过 Flask 将 Qwen2.5-Coder-7B 部署为一个本地 API 服务，便于通过 HTTP 请求使用模型。

3.1 安装 Flask pip install Flask 3.2 编写 Flask 应用

编写 app.py 文件，为 Qwen2.5-Coder-7B 创建 API 服务：

from flask import Flask, request, jsonify from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 初始化模型和 Tokenizer tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-Coder-7B") model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Coder-7B").to("cuda") app = Flask(__name__) @app.route("/generate_code", methods=["POST"]) def generate_code(): # 获取请求中的 prompt data = request.get_json() prompt = data.get("prompt", "") # 将 prompt 编码并生成结果 inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate(inputs["input_ids"], max_length=150) # 解码输出并返回 generated_code = tokenizer.decode(outputs[0], skip_special_tokens=True) return jsonify({"generated_code": generated_code}) if __name__ == "__main__": app.run(host="0.0.0.0", port=5000)

以上代码实现了一个简单的 HTTP POST 接口，可以通过发送 JSON 格式的请求，传入 prompt 并返回生成的代码片段。

3.3 启动 Flask 服务

运行以下命令启动 Flask API 服务：

python3 app.py

服务将在本地 5000 端口启动，可以使用以下命令测试 API：

curl -X POST :5000/generate_code -H "Content-Type: application/json" -d '{"prompt": "def add_numbers(a, b):"}' 四、云端部署 Qwen2.5-Coder-7B

在云端部署有助于实现大规模调用。以下是一些主流云平台的部署方式。

4.1 AWS EC2 部署

AWS 提供了 GPU 实例，如 p3.2xlarge 和 g4dn.xlarge，适合部署 Qwen2.5-Coder-7B。

创建 EC2 实例：

选择带有 GPU 的实例类型（例如 g4dn.xlarge 或 p3.2xlarge）。

选择 Deep Learning AMI，这个镜像内置了 CUDA 和 PyTorch 等依赖。

连接到实例并设置环境： ssh -i "your_key.pem" ubuntu@your_ec2_public_dns

下载模型并运行 Flask 服务：根据前述的本地部署方式，下载 Qwen2.5-Coder-7B 模型，运行 Flask 应用。可以通过 AWS 的安全组配置，开放 5000 端口，允许外部访问 API。

4.2 使用 Docker 容器化部署

Docker 容器化可以简化部署过程，并确保环境的一致性。以下是 Docker 部署步骤。

4.2.1 编写 Dockerfile

创建一个 Dockerfile，用于生成 Qwen2.5-Coder-7B 的 Docker 容器：

# 使用带 CUDA 支持的基础镜像 FROM nvidia/cuda:11.3.1-cudnn8-runtime-ubuntu20.04 # 安装 Python3 和必要依赖 RUN apt-get update && apt-get install -y python3 python3-pip # 安装 PyTorch 和 transformers RUN pip3 install torch transformers flask # 将应用代码复制到容器中 COPY app.py /app/app.py WORKDIR /app # 暴露端口 EXPOSE 5000 # 运行 Flask 服务 CMD ["python3", "app.py"] 4.2.2 构建并运行 Docker 容器

构建 Docker 镜像： docker build -t qwen2.5-coder-7b .

运行容器并绑定 GPU： docker run --gpus all -p 5000:5000 qwen2.5-coder-7b

使用 curl 或其他 HTTP 客户端测试 Docker 中的服务： curl -X POST :5000/generate_code -H "Content-Type: application/json" -d '{"prompt": "def add_numbers(a, b):"}'

五、性能调优 5.1 使用 FP16 精度

使用混合精度（FP16）可以减少显存占用并提升计算速度：

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Coder-7B", torch_dtype=torch.float16).to("cuda") 5.2 调整生成参数

可以通过调整 max_length 和 num_beams 等参数来控制生成速度和质量：

outputs = model.generate(inputs["input_ids"], max_length=128, num_beams=3) 六、总结

本文详细介绍了 Qwen2.5-Coder-7B 的部署步骤，包括系统准备、模型获取、本地和云端部署方法，以及 Docker 容器化方案。通过以上步骤，可以快速地将 Qwen2.5-Coder-7B 部署为代码生成服务，并根据具体需求进行性能调优。

(责任编辑：)

搜索

热门标签:

Qwen2.5-Coder-7B在线及本地部署安装使用教程