嗨,我是 葡萄糖 👋
坐标:北京
本科 @ 中国科学院大学(UCAS)计算机科学与技术
研究生 @ 中国科学院大学(UCAS) 计算机网络信息中心 计算机应用技术
方向:大模型训练与推理(LLM Train/Infer) · 系统与工程优化 · 分布式框架
关键词:GPU 集群、NCCL、DCGM 监控、可靠性与容错、性能工程、LLM
🧭 Now(此刻在做的事)
- 🧪 研究 大模型训推框架 的可复现基线与 CI(权重 diff、流水线回归)
- 🔧 折腾 GPU 集群稳定性:光模块 DDM、故障预测、慢节点定位
🪪 名片(Quick Facts)
| 🎓 学历 | 计算机应用技术 · 硕士 |
| 🏷️ 擅长 | Python / C / Go(在学) |
| 🧠 关注 | Megatron-LM、RoPE、TP/PP/SP |
| ☕ 偏好 | “越简单越可靠”的工程实践 |
| 🧩 兴趣 | 摄影 / 烹饪 / 旅行 / 以及任何有趣的事 |
| ✨ 座右铭 | 在有限的时间内创造无限的可能 |
🚀 我做过 / 正在做的
- 训推一体的实验基线:GitLab Runner +
复现实验脚本,自动比对权重、曲线与日志
- GPU 故障预测:DDM + Telemetry → 特征工程 +
早期预警(尝试 MoE/时序 Patch 生成)
- LLMBOOK:面向图书馆的向量检索系统(Postgres +
Embedding + FastAPI + Docker)
- 个人事件记录器:Whisper + Embedding
打标签,日记/会议一键检索
- 选课/排课系统(最小可行):Gin/FastAPI + OAuth + Postgres,移动端友好
🔎 展开看一些「怪有用的小工具」
- deepwiki: 一个基于LLM的code项目问答工具,非常方便查看code项目
- Grafana: 监控平台
🧰 技术栈(选)
- 语言:Python、C;Go 进阶中
- 训练框架:PyTorch、Megatron-LM
- 分布式:NCCL、TP/PP/SP、torchrun
- DevOps:Docker、GitLab
CI/CD、JuiceFS、Prometheus/Grafana
- 数据库/搜索:Postgres(含向量扩展)、MongoDB
📝 我写作的方式
- 文章尽量 小而完整:能复制就能跑,由简入繁
- 更偏 技术向,不玩虚的
- 主要记录自己的学习过程和思考
- 偶尔分享一些自己的小工具
- 更重要的是,我会更新一些论文阅读笔记
🗺️ 时间线(Milestones)
- 2025 — 聚焦 LLM 训推框架 + GPU
可靠性研究,论文与开源模板同步推进
- 2024 —
开始做集群稳定性与监控可视化、慢节点定位
- 更早 — 计算机科班;系统与工程兴趣逐步加深
📫 联系我
- 📮 Email:
franxxx2277@gmail.com
- 🧑💻 GitHub:https://github.com/geotle77
🎯 关于这个站
- 主题:Fluid | 部署:GitHub Pages
| 评论:Waline
- 原则:中文为主,英文化的工程术语不回避
- 欢迎留言交流想法,PR / Issue / 指正都超欢迎 🙌
Last updated: 2025-10-05