geotle77's Blog

Tranformer 原理及应用

Tranformer 原理及应用

Tranformer 原理及应用 Transformer由论文《Attention is All You Need》提出，这之后这句话也是一直贯穿深度学习的研究当中。简单来说，Transformer的作用就是将一个序列转换为另一个序列，例如说中英文翻译。

2025-10-03

LLM

#LLM

强化学习——时序差分算法

强化学习——时序差分算法

时序差分算法之前介绍的马尔可夫决策过程和动态规划算法是已知的，即要求与智能体交互的环境是完全已知的（例如迷宫或者给定规则的网格世界）。DP要求我们知道环境的所有细节（即状态转移概率 P 和奖励函数 R），这被称为有模型（Model-Based）。然而在现实世界（如机器人控制、玩游戏、自动驾驶）中，我们通常不知道这些规则。我们需要通过与环境交互来学习，这就是无模型（Model-based）。

2025-12-11

强化学习

#强化学习,Sarsa,Q-learning

强化学习——动态规划

强化学习——动态规划

动态规划算法动态规划（dynamic programming）是程序设计算法中非常重要的内容，它的基本思想是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到目标问题的解。

2025-12-10

强化学习

#强化学习,动态规划

强化学习——马尔可夫决策过程

强化学习——马尔可夫决策过程

马尔可夫决策过程强化学习的基础算法之一就是马尔可夫决策过程（Markov Decision Process, MDP），是一个用于在结果部分随机、部分由决策者控制的场景下建模决策的数学框架。它由状态集、动作集、状态转移概率、奖励函数和折扣因子组成，是强化学习（RL）中的基础概念，用于在机器人学、自动化、经济学等领域解决序贯决策问题。

2025-12-07

强化学习

#强化学习,MDP

AI赋能——vibe coding篇

AI赋能——vibe coding篇

这篇博客是我想尝试一下如何以项目经理的视角来分析一个AI产品。这之后或许将成为一个合集，这次我会最开始以Vibe coding为例，来分析一下市场上的code 工具的优劣和受众。

2025-11-25

ai-PM

#AI, Vibe coding

统计学习基础

统计学习基础

统计学习基础熵是信息论中一个非常重要的概念，它描述了信息的不确定性。

2025-10-03

数学

#数学，信息论

Grafana Loki 介绍和使用

Grafana Loki 介绍和使用

Grafana Loki 介绍和使用 Grafana Grafana 是一个开源的可视化和监控工具，广泛用于分析和展示时间序列数据（如系统性能指标、应用程序日志和业务数据）。它提供了强大的数据可视化功能，支持多种数据源，并能够通过动态仪表板展示各种实时监控信息。Grafana 常用于运维监控、DevOps、IoT、云计算等领域。

2025-10-03

数据库

#Grafana,Loki,数据库

Prometheus介绍

Prometheus介绍

Prometheus介绍 Prometheus是一个系统监控和警报系统。

2025-10-03

数据库

#Prometheus,时序数据

Deep Q-Network

Deep Q-Network

DQN DQN (Deep Q-Network) 是强化学习（Reinforcement Learning）领域的一个里程碑，由 DeepMind 团队在 2013 年和 2015 年提出。它成功地将深度学习（感知能力）与强化学习（决策能力）结合，标志着深度强化学习（DRL）时代的开启。简单来说，DQN 的目标是让智能体（Agent）在给定的环境状态下，学会选择能够获得最大长期累积奖励的动作。原

2025-12-22

强化学习

#强化学习, Q-learning

Apoc

Apoc

更新日志： 2025-11-25 更新与GPT5.1的深度访谈话题的对话

2025-11-25

AI

#AI, 深度访谈