INSIDE/塞掐

這是台灣 LLM 發展之路:跟聯發科資深研究員陳宜昌對談,揭開 AI 的黑盒

自製專題

聯發創新基地的資深機器學習研究員陳宜昌分���了大型語言模型的發展與應用方向,探討了聯發科投入大型語言模型研究的原因和方向,以及中文大型語言模型的發展現況。

聯發創新基地可說是台灣研究大型語言模型的翹楚之一!這是聯發科專注於人工智慧(AI)領域的研究單位,設有在國立台灣大學和英國劍橋的尖端研究中心。

陳宜昌是任職於聯發創新基地的資深機器學習研究員,專注於大型語言模型的研究,並致力於將研究成果應用於繁體中文環境,本文將整理陳宜昌在 INSIDE 訪談中對於大型語言模型發展與應用方向的看法。

什麼是大型語言模型 (LLM)?它神奇的地方在哪裡?

回顧一下,大型語言模型 (LLM) 是一種能夠理解和生成人類語言的 AI 模型,常見的縮寫是 LLM。在生成式 AI 熱潮之前,LLM 已經存在一段時間,但直到 2022 年底 ChatGPT 推出應用介面後,才真正爆紅。

LLM 的神奇之處在於它能夠根據輸入的文字,預測下一個字,進而生成流暢自然的語句 。

大型語言模型的發展與應用

先從 LLM 跟之前的 AI 談起,陳宜昌回顧,以往的 AI 模型如 BERT 屬於理解型模型,不具備生成文字的能力,其結構與大型語言模型 (LLM) 不同。

理解型模型的應用主要在於理解完整的段落並進行特定任務,例如判斷句子的情緒。而生成式模型如 GPT 則可以根據過去的文字內容生成下一個詞彙,實現文字接續的功能。

他認為語言模型的發展趨勢是朝向通用型模型發展,整合多種任務於單一模型中,藉由在輸入文字前加入敘述,就能引導模型執行特定任務,例如翻譯、寫文案。

這種通用型模型的出現,讓開發者可以更專注於強化特定功能,例如將其與其他模型串接,以完成更複雜的任務。

聯發科投入大型語言模型研究的原因和方向

儘管聯發科以硬體產業著稱,董事長仍於 5 年前成立聯發創新基地,致力於 AI 研究。陳宜昌說明,這是因為聯發科預見 AI 發展潛力,希望能及早投入並在台灣建立相關研究基礎。���發創新基地初期以學術研究為主,近期則著重於將研究成果轉化為產品。

聯發科的 LLM 研究始於 ChatGPT 推出前的兩三個月 。他們最初使用 Bloom 模型,後來轉向 Meta 開源的 Llama 模型 。

聯發創新基地在大型語言模型研究上,選擇了與其他公司不同的技術路線。聯發科也開發了獨特的技術,例如「詞表置換」,用於提升中文處理效率,並開源了 70 億參數的模型 Breeze (現在已新推出 BreeXE,能以 450 億組參數規模超越 OpenAI 的 GPT 3.5 表現,單次可處理超過 4 萬字的文字內容)。

陳宜昌舉例說明,他們的詞彙置換技術將常見的中文字詞組合成一個單位,提升模型學習中文的效率。這項技術也能應用於其他開源模型,加速中文領域的大型語言模型發展。然而,陳宜昌也坦言,這類技術研發過程常遇到模型效能下降的狀況,因此需要下苦工不斷調整參數。

中文大型語言模型發展現況

陳宜昌觀察到,目前大型語言模型的發展趨勢是公開模型但不公開訓練資料和技術細節,例如 Google 的 LaMDA 和 OpenAI 的 ChatGPT 都未公開訓練資料。他認為這是因為大型語言模型領域發展迅速,模型價值更新週期短,真正具備長期價值的是訓練資料和背後技術。

訓練大型語言模型需要大量的文字資料。一般來說,這些資料大多是從網路上抓取而來,例如論壇、新聞網站等 。

針對台灣是否需要發展自主的大型語言模型,陳宜昌從技術角度分析掌握基礎模型技術才是關鍵,才能在未來持續跟進新技術發展。

台灣在大型語言模型研究上面臨哪些挑戰?

台灣在大型語言模型研究上面臨著資源和人才的挑戰。相較於歐美地區,台灣在該領域的博士人才較少 。此外,學術界參與度不夠高,導致評測標準的建立也相對困難 。

大型語言模型的未來發展趨勢

大型語言模型的發展,將加速 AI 在各個領域的應用,例如程式碼自動生成、機器人控制等 。然而,AI 的快速發展也可能帶來新的社會問題,例如職業結構產生改變。陳宜昌預測,未來一到兩年內將出現高度自動化的 AI 工具,純手工撰寫程式碼的時代不再,未來人們的工作模式可能會轉變為監督 AI 撰寫程式碼。而聯發創新基地也會持續關注大型語言模型的發展,並將其應用於圖像和影片生成等領域。

快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!

延伸閱讀:

 

本文初稿由 INSIDE 使用 AI 編撰。