Tranformer 原理及应用 Tranformer 原理及应用 Transformer由论文《Attention is All You Need》提出,这之后这句话也是一直贯穿深度学习的研究当中。简单来说,Transformer的作用就是将一个序列转换为另一个序列,例如说中英文翻译。 2025-10-03 LLM #LLM
强化学习——时序差分算法 时序差分算法 之前介绍的马尔可夫决策过程和动态规划算法是已知的,即要求与智能体交互的环境是完全已知的(例如迷宫或者给定规则的网格世界)。DP要求我们知道环境的所有细节(即状态转移概率 P 和奖励函数 R),这被称为有模型(Model-Based)。然而在现实世界(如机器人控制、玩游戏、自动驾驶)中,我们通常不知道这些规则。我们需要通过与环境交互来学习,这就是无模型(Model-based)。 2025-12-11 强化学习 #强化学习,Sarsa,Q-learning
强化学习——动态规划 动态规划算法 动态规划(dynamic programming)是程序设计算法中非常重要的内容,它的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。 2025-12-10 强化学习 #强化学习,动态规划
强化学习——马尔可夫决策过程 马尔可夫决策过程 强化学习的基础算法之一就是马尔可夫决策过程(Markov Decision Process, MDP),是一个用于在结果部分随机、部分由决策者控制的场景下建模决策的数学框架。它由状态集、动作集、状态转移概率、奖励函数和折扣因子组成,是强化学习(RL)中的基础概念,用于在机器人学、自动化、经济学等领域解决序贯决策问题。 2025-12-07 强化学习 #强化学习,MDP
AI赋能——vibe coding篇 这篇博客是我想尝试一下如何以项目经理的视角来分析一个AI产品。这之后或许将成为一个合集,这次我会最开始以Vibe coding为例,来分析一下市场上的code 工具的优劣和受众。 2025-11-25 ai-PM #AI, Vibe coding
Grafana Loki 介绍和使用 Grafana Loki 介绍和使用 Grafana Grafana 是一个开源的可视化和监控工具,广泛用于分析和展示时间序列数据(如系统性能指标、应用程序日志和业务数据)。它提供了强大的数据可视化功能,支持多种数据源,并能够通过动态仪表板展示各种实时监控信息。Grafana 常用于运维监控、DevOps、IoT、云计算等领域。 2025-10-03 数据库 #Grafana,Loki,数据库
Deep Q-Network DQN DQN (Deep Q-Network) 是强化学习(Reinforcement Learning)领域的一个里程碑,由 DeepMind 团队在 2013 年和 2015 年提出。它成功地将深度学习(感知能力)与强化学习(决策能力)结合,标志着深度强化学习(DRL)时代的开启。简单来说,DQN 的目标是让智能体(Agent)在给定的环境状态下,学会选择能够获得最大长期累积奖励的动作。 原 2025-12-22 强化学习 #强化学习, Q-learning