跳转到内容
主菜单
主菜单
移至侧栏
隐藏
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
萝莉百科 - 最萌的百科全书
搜索
搜索
外观
登录
个人工具
登录
查看“︁大语言模型”︁的源代码
页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
阅读
查看源代码
查看历史
工具
工具
移至侧栏
隐藏
操作
阅读
查看源代码
查看历史
常规
链入页面
相关更改
页面信息
外观
移至侧栏
隐藏
←
大语言模型
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
'''大语言模型'''(Large Language Model,简称LLM)是一种基于深度学习的人工智能模型,专门用于处理、理解和生成人类语言。它通过在海量的文本数据上进行训练,学会了语言的统计规律和语义结构。目前的LLM已经能够实现流畅的多轮对话、代码编写以及复杂的逻辑推理。 == 核心架构:Transformer == 现代LLM大多基于'''Transformer'''架构。该架构引入了注意力机制(Attention Mechanism),使模型能够捕捉长距离的语义依赖。 == 训练过程 == LLM的构建通常包含以下两个关键阶段: # '''预训练(Pre-training)''':模型在大规模的互联网文本语料库上进行无监督学习。 # '''指令微调(Instruction Tuning)''':通过人类反馈强化学习等技术,教会模型如何准确理解并执行用户的指令。 == 局限性:幻觉 == 尽管LLM表现卓越,但仍存在幻觉现象,即模型可能会生成看似合理但完全错误的事实。 == 应用领域 == LLM目前已广泛应用于多个前沿领域: * '''智能交互''':作为虚拟助手提供情感陪伴与信息查询。 * '''辅助开发''':帮助工程师快速生成代码片段。 * '''内容创作''':协助进行多语言翻译、文章撰写。 == 参考资料 == # [https://arxiv.org/abs/1706.03762 Vaswani, A., et al. (2017). ''Attention Is All You Need'']. # [https://openai.com/research/gpt-4 OpenAI. (2023). ''GPT-4 Technical Report'']. # [https://stanford.io/3lgdH2N Bommasani, R., et al. (2021). ''On the Opportunities and Risks of Foundation Models''].
返回
大语言模型
。
搜索
搜索
查看“︁大语言模型”︁的源代码
添加话题