![](https://cdn.statically.io/img/bucket-image.inkmaginecms.com/version/desktop/1/image/2024/06/54e45ce7-0962-440c-a2c4-880f84c3b1ca.jpg)
![](https://cdn.statically.io/img/bucket-image.inkmaginecms.com/version/desktop/1/image/2024/06/54e45ce7-0962-440c-a2c4-880f84c3b1ca.jpg)
第一款程式能力超越 GPT-4 Turbo 開源模型?中國 AI 新創釋出「DeepSeek Coder V2」
來自中國的 AI 新創「DeepSeek」 (深度求索)最近釋出新開源程市語言模型「DeepSeek Coder V2」,支援 300 多種程式語言,可執行程式碼編寫和數學任務,號稱表現優於大部分的封閉和開源模型,包括 GPT-4 Turbo、Gemini 1.5 Pro 等。
在評估 LLM 程式碼編寫和問題解決能力的 MBPP+、HumanEval、Aider 基準測試中,DeepSeek Coder V2 分別拿到 76.2、90.2 和 73.7,分數超過 GPT-4 Turbo、Gemini 1.5 Pro、Claude 3 Opus、Llama-3 70B (如下圖)。
![](https://cdn.statically.io/img/bucket-image.inkmaginecms.com/version/desktop/1/image/2024/06/bba7935d-be59-4c50-9b3a-58b0258ee06a.jpg)
不過,GPT-4o 表現仍優於 DeepSeek Coder V2,GPT-4o在 HumanEval、LiveCode Bench、MATH 和 GSM8K 等測試中,都獲得較高的分數。
至於 DeepSeek Coder V2 數學和程式碼之外的表現,模型在評估語言理解能力的 MMLU 基準測試中拿到 79.2,��近 Llama-3 70B 的 80.2,但 GPT-4o 和 Claude 3 Opus 仍以 88 分領先。
DeepSeek Coder V2 是基於該公司上個月推出的 MoE 模型 DeepSeek V2 所構建而成,V2 模型是藉由 6 兆個token 預訓練,資料來源包含來自 GitHub 和 CommonCrawl 的��式碼及數學資料。
MoE 架構讓 16B 參數的 DeepSeek V2 Lite 只用到 2.4B參數,而236B 的 DeepSeek V2 則僅用 21B,同時也針對不同的運算需求進行了最佳化。
DeepSeek Coder V2 是採 MIT 授權條款,可供研究和商業用,DeepSeek 有提供模型付費 API,也能藉官網上的聊天機器人體驗模型。
深度求索於 2023 年成立,由量化基金「幻方」所獨立出來的 LLM 組織,目標是研究和揭秘 AGI。去年底發布了以中英訓練的開源模型 DeepSeek LLM,表現接近Llama 2-70B。
今年釋出的 DeepSeek V2 模型,更是以 GPT 百分之一的價格吸引到目光,DeepSeek V2 人民幣 2 元 / 百萬输出 Tokens,GPT-4- turbo 則是 30 美元 / 百萬输出 Tokens。
責任編輯:Jocelyn
核稿編輯:Chris
本文初稿為 INSIDE 使用 AI 編撰;快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!
延伸閱讀:
- OpenAI 和 Stack Overflow 宣布合作!要提升 AI 模型程式碼能力
- Meta 公佈最新大型開源程式碼模型 Code Llama 70B!能力直逼 GPT-4
- Stability AI 發表程式碼 AI 模型 Stable Code 3B,普通筆電也跑得起來
最新發展: