avatar
geotle77
A blog for my learning and thinking

嗨,我是 葡萄糖 👋

坐标:北京
本科 @ 中国科学院大学(UCAS)计算机科学与技术
研究生 @ 中国科学院大学(UCAS) 计算机网络信息中心 计算机应用技术
方向:大模型训练与推理(LLM Train/Infer) · 系统与工程优化 · 分布式框架
关键词:GPU 集群、NCCL、DCGM 监控、可靠性与容错、性能工程、LLM


🧭 Now(此刻在做的事)

  • 🧪 研究 大模型训推框架 的可复现基线与 CI(权重 diff、流水线回归)
  • 🔧 折腾 GPU 集群稳定性:光模块 DDM、故障预测、慢节点定位

🪪 名片(Quick Facts)

🎓 学历 计算机应用技术 · 硕士
🏷️ 擅长 Python / C / Go(在学)
🧠 关注 Megatron-LM、RoPE、TP/PP/SP
☕ 偏好 “越简单越可靠”的工程实践
🧩 兴趣 摄影 / 烹饪 / 旅行 / 以及任何有趣的事
✨ 座右铭 在有限的时间内创造无限的可能

🚀 我做过 / 正在做的

  • 训推一体的实验基线:GitLab Runner + 复现实验脚本,自动比对权重、曲线与日志
  • GPU 故障预测:DDM + Telemetry → 特征工程 + 早期预警(尝试 MoE/时序 Patch 生成)
  • LLMBOOK:面向图书馆的向量检索系统(Postgres + Embedding + FastAPI + Docker)
  • 个人事件记录器:Whisper + Embedding 打标签,日记/会议一键检索
  • 选课/排课系统(最小可行):Gin/FastAPI + OAuth + Postgres,移动端友好
🔎 展开看一些「怪有用的小工具」
  • deepwiki: 一个基于LLM的code项目问答工具,非常方便查看code项目
  • Grafana: 监控平台

🧰 技术栈(选)

  • 语言:Python、C;Go 进阶中
  • 训练框架:PyTorch、Megatron-LM
  • 分布式:NCCL、TP/PP/SP、torchrun
  • DevOps:Docker、GitLab CI/CD、JuiceFS、Prometheus/Grafana
  • 数据库/搜索:Postgres(含向量扩展)、MongoDB

📝 我写作的方式

  • 文章尽量 小而完整:能复制就能跑,由简入繁
  • 更偏 技术向,不玩虚的
  • 主要记录自己的学习过程和思考
  • 偶尔分享一些自己的小工具
  • 更重要的是,我会更新一些论文阅读笔记

🗺️ 时间线(Milestones)

  • 2025 — 聚焦 LLM 训推框架 + GPU 可靠性研究,论文与开源模板同步推进
  • 2024 — 开始做集群稳定性与监控可视化、慢节点定位
  • 更早 — 计算机科班;系统与工程兴趣逐步加深

📫 联系我


🎯 关于这个站

  • 主题:Fluid | 部署:GitHub Pages | 评论:Waline
  • 原则:中文为主,英文化的工程术语不回避
  • 欢迎留言交流想法,PR / Issue / 指正都超欢迎 🙌

Last updated: 2025-10-05