DeepSeek推出的LLM推理新策略 DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法,通过强化学习(RL)提升大型语言模型(LLM)的推理能力。这项研究在如何仅依靠强化学习而不是过分依赖监督式微调的情况下,增强LLM解决复杂问题的能力上,取得了重要进展。 DeepSeek-R1 技术概述 模型架构DeepSeek-R1 不是一个单独的模型,而是包括DeepSeek-R1-Zero和DeepSeek-R1的模型系列。 下面我来阐明 DeepSeek-R1 和 DeepSeek-R1-Zero 之间的关键差异: 主要区别DeepSeek-R1-Zero是团队初步尝试仅用纯强化学习而不进行任何监督式微调的实验。他们从基础模型出发,直接运用强化学习,让模型通过不断试错来发展其推理能力。这种方法虽然取得了较好的成果(在 AIME 2024 测试中达到了 71% 的准确率),但在可读性和语言连贯性上存在明显不足。该模型拥有 6710 亿个参数,使用了混合专家(MoE)架构,其中每个词触发的参数约为 370 亿。此模型展现了一些新兴的推理行为,例如自我核查、反思和长链推理(CoT)。 与之对比,DeepSeek-R1采用了更复杂的多阶段训练方法。它不仅仅采用强化学习,而是先在一小组精心挑选的示例(称为“冷启动数据”)上进行监督式微调,然后再应用强化学习。这种方法克服了 DeepSeek-R1-Zero 的局限,同时取得了更优的表现。这个模型同样维持了 6710 亿的参数数量,但在回答的可读性和条理性上有所提高。 训练过程对比 训练方法概述:强化学习:不同于传统依赖监督学习的模型,DeepSeek-R1 大规模采用了强化学习。此训练方法利用群体相对策略优化(GRPO),重点提升精度和格式化奖励,以增强推理能力,无需依赖大量标注数据。 蒸馏技术:为普及高效能模型,DeepSeek 也推出了 R1 的蒸馏版本,参数规模从15亿到700亿不等。这些模型采用了如Qwen和Llama等架构,表明即使是较小和更高效的模型也能包含复杂的推理能力。蒸馏过程通过使用 DeepSeek-R1 生成的合成推理数据对这些小型模型进行微调,以较低的计算成本保持高性能。 DeepSeek-R1-Zero 的训练流程:起始于基础模型 直接应用强化学习 根据准确度和格式采用简单奖励机制 DeepSeek-R1 的训练流程包含四个阶段:初始阶段采用数千个高品质样本进行监督式微调 针对推理任务进行强化学习 通过拒绝抽样方法收集新的训练数据 对所有类型的任务进行最终强化学习 性能指标:
推理基准测试:DeepSeek-R1 在各种基准测试中表现出色: AIME 2024:实现了 79.8% 的通过率,高于 OpenAI 的 o1–1217 的 79.2%。 MATH-500:得分高达 97.3%,略优于 o1–1217 的 96.4%。 SWE-bench 验证:在编程任务中表现优越,证明了其编程能力。
成本效率:DeepSeek-R1 的 API 服务每百万输入令牌的成本为0.14美元,比 OpenAI 的类似模型便宜很多。 局限性及未来发展该论文指出了若干改进领域: 模型在处理需要特定输出格式的任务时偶尔会遇到困难。 软件工程相关任务的性能还有提升空间。 在多语言环境下,语言混合带来了挑战。 少样本提示通常会导致性能下降。 未来的研究将致力于解决这些问题,并拓展模型在函数调用、多轮交互和复杂角色扮演场景等领域的能力。 部署与可获取性 开源与许可:DeepSeek-R1及其变体基于 MIT 许可证发布,支持开源合作和商业使用,包括模型蒸馏。此举对促进创新和降低人工智能模型开发门槛具有关键意义。 模型格式:这些模型及其蒸馏版本支持 GGML、GGUF、GPTQ 和 HF 等多种格式,使其在本地部署上具有灵活性。 DeepSeek使用方式我们可以通过三种方式使用DeepSeek:官方web访问、API使用、本地部署。 1. 通过DeepSeek聊天平台进行网页访问:DeepSeek聊天平台提供了一个友好的用户界面,允许用户无需任何设置即可与DeepSeek-R1进行互动。
访问步骤: 浏览至DeepSeek聊天平台 注册一个账号,或者如果您已有账号,直接登录。 登录后,可以选择“深度思考”模式,体验DeepSeek-R1的逐步推理功能。 DeepSeek 提供了一个与 OpenAI 格式兼容的 API,方便开发者将其嵌入各种应用程序中进行程序化访问。 当前注册还可以享有10块钱的赠送额度 使用 API 的步骤: a. 获取 API 密钥: 访问DeepSeekAPI平台,注册账号并生成您的专属 API 密钥。 b. 配置您的环境: 设置base_url为https://api.deepseek.com/v1。 使用您的 API 密钥进行认证,通常在 HTTP 头部通过 Bearer Token 进行。 c. 发起 API 调用: 利用 API 向 DeepSeek-R1 发送指令并接收响应。 您可以在DeepSeekAPI文档中找到详细的文档和示例。 # 请先安装 OpenAI SDK:`pip3 install openai` from openai import OpenAI client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com") response = client.chat.completions.create( model="deepseek-chat", messages=[ {"role": "system", "content": "You are a helpful assistant"}, {"role": "user", "content": "Hello"}, ], stream=False ) print(response.choices[0].message.content) 3. 在本地部署 DeepSeek-R1:两种模型(R1 和 R1-Zero): **硬件需求:**由于模型规模庞大,完整模型需要较强的硬件支持。推荐使用具有大量视频内存(VRAM)的 GPU,例如 Nvidia RTX 3090 或更高级别。如果使用 CPU,你至少需要 48GB 的 RAM 和 250GB 的磁盘空间,但若不使用 GPU 加速,性能会显著下降。 **蒸馏模型:**对于硬件要求不那么高的本地部署,DeepSeek 提供了参数范围从 15 亿到 700 亿的蒸馏版本,适合硬件配置较低的系统。例如,一个 7B 参数的模型可以在至少拥有 6GB VRAM 的 GPU 上运行,或在大约 4GB RAM 的 CPU 上运行 GGML/GGUF 格式。 DeepSeek本地部署步骤: 1.Ollama:您可以使用Ollama来在本地部署和运行模型:(Ollama 是一个工具,允许您在个人计算机上本地运行开源 AI 模型。您可以从这里下载它: 在进一步操作之前,我们需要确保 Ollama 已经正确安装。请打开您的终端或命令提示符,输入以下命令: ollama--version如果您看到版本号显示出来,说明安装成功了!如果没有显示,那么请仔细检查您是否已按照安装步骤正确执行。 通过 Ollama 下载 DeepSeek R1 非常便捷。您只需在终端中执行以下命令: ollama run deepseek-r1默认版本是:7B 模型(CPU 大概需要4G内存,1.5B大概需要1.7G内存),DeepSeek R1 的参数范围从 1.5B 到 671B,可以使用ollama run deepseek-r1:1.5b适合自己的模型版本,下载时间可能会根据您的网络速度而异。下载期间,可以喝杯水或者活动一下身体,稍作等待吧? 下载完成后,您就可以启动 DeepSeek R1 了。使用以下命令: ollama run deepseek-r1就这样,您已经在本地机器上顺利启动了 DeepSeek R1!感觉如何,是不是so easy? 本地运行试用Deepseek R1现在我们已经成功启动了 DeepSeek R1,接下来就是更加有趣的部分——实际使用它!让我们一起探索这款强大的 AI 模型能做些什么神奇的事情。 1.创意写作DeepSeek R1 在创意写作方面非常擅长。尝试给它这样一个写作提示: 写一个短故事,讲述一个机器人发现自己拥有情感的经历。您会对它输出的既有创意又条理清晰的故事感到惊喜! 本地运行 DeepSeek R1:探索人工智能的未来可能本文即将结束,这次我们讲解了在本地环境中使用 Ollama 运行 DeepSeek R1。 DeepSeek R1 这样的强大 AI 模型运行在个人电脑上,不仅仅是展示一项引人注目的技术,更是我们对未来人工智能发展方向的一种探索。这样做让高级语言模型的强大功能直接落在我们的手中,使得个性化定制、深入实验以及更好的隐私保护成为可能。让我们想象以下几种可能: 开发者可以为特定领域创建出高度定制化的 AI 助手。 研究人员在没有云服务依赖的情况下,可以更自由地试验 AI 模型。 对于那些注重隐私的用户,他们可以利用先进的 AI 技术,而无需担心个人数据泄露。 这一切都指向一个无限的可能性世界! DeepSeek无疑是2025开年AI圈的一匹黑马,在一众AI大模型中,DeepSeek以低价高性能的优势脱颖而出。DeepSeek的上线实现了AI界的又一大突破,各大科技巨头都火速出手,争先抢占DeepSeek大模型的流量风口。 DeepSeek的爆火,远不止于此。它是一场属于每个人的科技革命,一次打破界限的机会,一次让普通人也能逆袭契机。 DeepSeek的优点 掌握DeepSeek对于转行大模型领域的人来说是一个很大的优势,目前懂得大模型技术方面的人才很稀缺,而DeepSeek就是一个突破口。现在越来越多的人才都想往大模型方向转行,对于想要转行创业,提升自我的人来说是一个不可多得的机会。 那么应该如何学习大模型大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。 不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机! 想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。 大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。 掌握大模型技术你还能拥有更多可能性: • 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程; • 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用; • 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域; • 更优质的项目可以为未来创新创业提供基石。 可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家。 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 👉AI大模型学习路线汇总👈 大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈) 第一阶段: 从大模型系统设计入手,讲解大模型的主要方法; 第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用; 第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统; 👉大模型实战案例👈 👉大模型视频和PDF合集👈 👉学会后的收获:👈 • 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力; • 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求; • 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握; • 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 |