大語言模型

出自萝莉百科 - 最萌的百科全书

於 2026年4月7日 (二) 08:37 由 Yuqing（對話 | 貢獻）所做的修訂

(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)

大語言模型（Large Language Model，簡稱LLM）是一種基於深度學習的人工智能模型，專門用於處理、理解和生成人類語言。它通過在海量的文本數據上進行訓練，學會了語言的統計規律和語義結構。目前的LLM已經能夠實現流暢的多輪對話、代碼編寫以及複雜的邏輯推理。

核心架構：Transformer

現代LLM大多基於Transformer架構。該架構引入了注意力機制（Attention Mechanism），使模型能夠捕捉長距離的語義依賴。

訓練過程

LLM的構建通常包含以下兩個關鍵階段：

預訓練（Pre-training）：模型在大規模的互聯網文本語料庫上進行無監督學習。
指令微調（Instruction Tuning）：通過人類反饋強化學習等技術，教會模型如何準確理解並執行用戶的指令。

局限性：幻覺

儘管LLM表現卓越，但仍存在幻覺現象，即模型可能會生成看似合理但完全錯誤的事實。

應用領域

LLM目前已廣泛應用於多個前沿領域：

智能交互：作為虛擬助手提供情感陪伴與信息查詢。
輔助開發：幫助工程師快速生成代碼片段。
內容創作：協助進行多語言翻譯、文章撰寫。

參考資料

取自 "https://zh.lolipedia.org/index.php?title=大语言模型&oldid=17"