Yan's World

生成式模型数学原理与 3D 生成分类全景

来源：综合周弈帆博客、知乎专栏、arXiv 论文、Web 调研原始格式：笔记收录日期：2026-03-12标签：[VAE, Diffusion, Flow Matching, Rectified Flow, U-Net, Transformer, DiT, 3D生成, 数学原理, 生成模型] 第一部分：三大生成式模型数学原理一、VAE（变分自编码器）1.1 核心思想——一句话版 VAE = 自编码器 + 概率正则化。编码器把数据压缩为一个分布（而非单点），解码器从分布中采样重建数据。 1.2 为什么需要 VAE？普通自编码器（AE）可以做信息压缩，但存在严重的过拟合问...

2026/01/21

3D Reconstruction

 LoRA微调技术：数学基础、原理与视觉应用

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）。报告部分内容由通义AI生成。引言LoRA（Low-Rank Adaptation）是一种革命性的参数高效微调方法，通过低秩矩阵分解将下游任务的参数更新限制在低维子空间，实现了在保留预训练模型知识的同时，...

2025/04/11

AI

 视觉Transformer发展简史：从ViT到DINOv2的技术演进

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）。报告部分内容由通义AI生成。视觉Transformer(ViT)及其后续改进模型如DINO、iBOT、AIM、MAE和DINOv2代表了计算机视觉领域的重要技术演进。这些模型不仅解决了传统卷积神经网...

2025/03/28

3D Vision

 基于Transformer的人体姿态重建（四）：引入高精度的手部姿态

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/） 1. 引言在视频动捕应用中，准确的人体姿态重建是至关重要的。然而，当前大多数方法通常将身体姿态和手部姿态分开处理，因为手部动作需要更高的精度和更细粒度的关注。为了提供更完整和自然的人形动画输出，本文将探讨...

2024/11/23

Human Motion

 基于Transformer的人体姿态重建（三）：几种SOTA工作的详细解析与未来展望

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）一、引言前两篇文章中，我准备在3D人形动作领域结合数据和网络的优势来落地一些技术尝试。实际上，随着深度学习技术的发展，尤其是Transformer架构的引入，人体姿态估计领域已经取得了一些显著进展。本...

2024/10/05

Human Motion

 基于Transformer的人体姿态重建（二）：实现模板

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）一、项目结构1234567891011121314151617181920212223242526272829transformer-pose-reconstruction/├── configs/ ...

2024/08/09

Human Motion

 基于Transformer的人体姿态重建：技术实践与原理详解

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）一、引言人体姿态重建（Human Pose Reconstruction）是计算机视觉与图形学中的核心问题，广泛应用于虚拟现实、增强现实、动作捕捉、人机交互等领域。近年来，随着Transformer架构的兴起...

2024/07/04

Human Motion

 Vision Transformer (ViT) 详细技术文档

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/） 1. 引言Vision Transformer（ViT）是由Google的研究团队在2020年提出的一种基于Transformer架构的图像处理模型。它首次将原本用于自然语言处理领域的Transformer...

2024/06/08

3D Vision

 3D人形动画系统技术：工业管线与AI赋能

原创性声明本文为作者原创，在个人Blog首次发布，如需转载请注明引用出处。（yanzhang.cg@gmail.com 或 https://graphicyan.github.io/）。一、引言在现代游戏开发、影视动画、虚拟现实、数字人和机器人仿真等领域，3D人形动画系统已成为核心技术支柱。它不仅承载着角色的视觉表现，更是交互与行为的基础。随着AI技术的飞速发展，传统基于骨骼与动画状态...

2024/04/26

Animations

一图对比众3D引擎的坐标系

2023/12/15

3D Engine

Yan's World.