强化学习中的关键概念
强化学习中的关键概念
强化学习的主要角色是智能体和环境,环境是智能体存在和互动的世界。智能体在每一步的交互中,都会获得对于所处环境状态的观察(有可能只是一部分),然后决定下一步要执行的动作。环境会因为智能体对它的动作而改变,也可能自己改变。
智能体也会从环境中感知到奖励信号,奖励是一个表明当前状态好坏的数字。智能体的目标是最大化累计奖励,也就是回报。强化学习就是智能体通过学习来完成目标的方法。
为了便于后面的学习,我们介绍一些术语:
状态和观察(states and observations)
动作空间(action spaces)
策略(policies)
动作轨迹(trajectories)
不同的回报公式(formulations of return)
强化学习优化问题(the RL optimization problem)
值函数(value functions)
状态和观察
一个状态\(s\)是一个关于这个世界状态的完整描述。这个世界除了状态以外没有别的信息。观察\(o\)是对于一个状态的部分描述,可能会漏掉一些信息。
在深度强化学习中,我们一般用实数向量、矩阵或者更高 ...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick Start
Create a new post
1$ hexo new "My New Post"
More info: Writing
Run server
1$ hexo server
More info: Server
Generate static files
1$ hexo generate
More info: Generating
Deploy to remote sites
1$ hexo deploy
More info: Deployment