研究文章

上下文传递强化学习使用行为价值的功能

图5

十字路口交通控制器。旧系统:传感器:距离传感器, , :距离第一辆车在垂直通道, :距离第一辆汽车在水平巷, :垂直巷是绿色的, :横巷是绿色的, , :垂直车道改为绿色, :横向车道改为绿色, :不行动。新系统:传感器:相机, , :汽车存在编码前十平方的垂直通道, :汽车的存在编码前十横巷的广场, :垂直巷是绿色的, :横巷是绿色的, , :改变光线, :不行动。