Soulmate
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
Tranformer 原理及应用

Tranformer 原理及应用

Tranformer 原理及应用 Transformer由论文《Attention is All You Need》提出,这之后这句话也是一直贯穿深度学习的研究当中。简单来说,Transformer的作用就是将一个序列转换为另一个序列,例如说中英文翻译。
2025-10-03
LLM
#LLM
强化学习——时序差分算法

强化学习——时序差分算法

时序差分算法 之前介绍的马尔可夫决策过程和动态规划算法是已知的,即要求与智能体交互的环境是完全已知的(例如迷宫或者给定规则的网格世界)。DP要求我们知道环境的所有细节(即状态转移概率 P 和奖励函数 R),这被称为有模型(Model-Based)。然而在现实世界(如机器人控制、玩游戏、自动驾驶)中,我们通常不知道这些规则。我们需要通过与环境交互来学习,这就是无模型(Model-based)。
2025-12-11
强化学习
#强化学习,Sarsa,Q-learning
强化学习——动态规划

强化学习——动态规划

动态规划算法 动态规划(dynamic programming)是程序设计算法中非常重要的内容,它的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。
2025-12-10
强化学习
#强化学习,动态规划
强化学习——马尔可夫决策过程

强化学习——马尔可夫决策过程

马尔可夫决策过程 强化学习的基础算法之一就是马尔可夫决策过程(Markov Decision Process, MDP),是一个用于在结果部分随机、部分由决策者控制的场景下建模决策的数学框架。它由状态集、动作集、状态转移概率、奖励函数和折扣因子组成,是强化学习(RL)中的基础概念,用于在机器人学、自动化、经济学等领域解决序贯决策问题。
2025-12-07
强化学习
#强化学习,MDP
AI赋能——vibe coding篇

AI赋能——vibe coding篇

这篇博客是我想尝试一下如何以项目经理的视角来分析一个AI产品。这之后或许将成为一个合集,这次我会最开始以Vibe coding为例,来分析一下市场上的code 工具的优劣和受众。
2025-11-25
ai-PM
#AI, Vibe coding
统计学习基础

统计学习基础

统计学习基础 熵是信息论中一个非常重要的概念,它描述了信息的不确定性。
2025-10-03
数学
#数学,信息论
Grafana Loki 介绍和使用

Grafana Loki 介绍和使用

Grafana Loki 介绍和使用 Grafana Grafana 是一个开源的可视化和监控工具,广泛用于分析和展示时间序列数据(如系统性能指标、应用程序日志和业务数据)。它提供了强大的数据可视化功能,支持多种数据源,并能够通过动态仪表板展示各种实时监控信息。Grafana 常用于运维监控、DevOps、IoT、云计算等领域。
2025-10-03
数据库
#Grafana,Loki,数据库
Prometheus介绍

Prometheus介绍

Prometheus介绍 Prometheus是一个系统监控和警报系统。
2025-10-03
数据库
#Prometheus,时序数据
Deep Q-Network

Deep Q-Network

DQN DQN (Deep Q-Network) 是强化学习(Reinforcement Learning)领域的一个里程碑,由 DeepMind 团队在 2013 年和 2015 年提出。它成功地将深度学习(感知能力)与强化学习(决策能力)结合,标志着深度强化学习(DRL)时代的开启。简单来说,DQN 的目标是让智能体(Agent)在给定的环境状态下,学会选择能够获得最大长期累积奖励的动作。 原
2025-12-22
强化学习
#强化学习, Q-learning
Apoc

Apoc

更新日志: 2025-11-25 更新与GPT5.1的深度访谈话题的对话
2025-11-25
AI
#AI, 深度访谈
123

搜索

Hexo Fluid
总访问量 次 总访客数 人