SOTA MODEL LEARNING

SOTA模型学习记录

记录最先进模型的论文解读、开源模型索引与算法案例
开发工具教程 · 纯个人学习交流

向下滚动，探索更多

关于本站

💻

AI技术学习笔记

这是一个致力于分享本人AI技术学习经历的网站。记录我对SOTA（State of the Art，最先进模型）的论文解读、开源模型索引及算法案例的学习笔记，以及开发工具的使用教程。

纯个人学习交流，非商业运营。如有内容错误或建议，欢迎提出交流。

学习笔记

Transformers

Attention Is All You Need

深入理解Transformer架构的核心机制，从Self-Attention到Multi-Head Attention的完整推导。

LLM

大语言模型进化史

从GPT到GPT-4，梳理大语言模型的发展脉络与关键技术突破。

Diffusion

Stable Diffusion 原理

从DDPM到DDIM，详细解析扩散模型的去噪过程与条件引导机制。

CLIP 多模态学习

对比语言-图像预训练，理解CLIP如何实现零样本图像分类。

RLHF 与人类反馈

解析基于人类反馈的强化学习如何让AI回答更加符合人类意图。

开源模型

HuggingFace 模型库指南

快速上手HuggingFace平台，掌握模型的下载、微调与部署全流程。

论文解读

2023

LLaMA: Open and Efficient Foundation Language Models

Meta开源的大语言模型，探讨如何在有限算力下训练出高性能语言模型的方法与实验结论。

2023

Mistral 7B: A 7B Parameter Language Model with Strong Performance

Mistral AI发布的7B参数模型，通过Sliding Window Attention实现高效推理，性能超越更大模型。

2024

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek团队的MoE架构创新，通过MLA和DeepSeekMOE Attention实现极致成本优化。

2024

Qwen2: A Family of Powerful Hybrid Language Models

阿里通义千问团队开源的多语言大语言模型系列，在各项基准测试中表现优异。

工具教程

⚙

Ollama 本地部署

快速在本地运行开源大语言模型

💾

vLLM 高效推理

通过PagedAttention实现高吞吐推理

🎯

llama.cpp 量化部署

INT4/INT8量化让大模型跑在普通GPU

📚

HuggingFace 工具链

模型微调、评估与推理全流程指南