记录最先进模型的论文解读、开源模型索引与算法案例
开发工具教程 · 纯个人学习交流
这是一个致力于分享本人AI技术学习经历的网站。记录我对SOTA(State of the Art,最先进模型)的论文解读、开源模型索引及算法案例的学习笔记,以及开发工具的使用教程。
纯个人学习交流,非商业运营。如有内容错误或建议,欢迎提出交流。
深入理解Transformer架构的核心机制,从Self-Attention到Multi-Head Attention的完整推导。
从GPT到GPT-4,梳理大语言模型的发展脉络与关键技术突破。
从DDPM到DDIM,详细解析扩散模型的去噪过程与条件引导机制。
对比语言-图像预训练,理解CLIP如何实现零样本图像分类。
解析基于人类反馈的强化学习如何让AI回答更加符合人类意图。
快速上手HuggingFace平台,掌握模型的下载、微调与部署全流程。
Meta开源的大语言模型,探讨如何在有限算力下训练出高性能语言模型的方法与实验结论。
Mistral AI发布的7B参数模型,通过Sliding Window Attention实现高效推理,性能超越更大模型。
DeepSeek团队的MoE架构创新,通过MLA和DeepSeekMOE Attention实现极致成本优化。
阿里通义千问团队开源的多语言大语言模型系列,在各项基准测试中表现优异。
快速在本地运行开源大语言模型
通过PagedAttention实现高吞吐推理
INT4/INT8量化让大模型跑在普通GPU
模型微调、评估与推理全流程指南
粤ICP备2024228068号-1 | SOTA学习站 · gongsh.cn