研究文章

上下文传递强化学习使用行为价值的功能

图1

一个 网格与三个作物和三个农场收获机器人。机器人1:传感器模块:GPS, color&weight传感器, , 列号, :行号, :红、 :绿色, :黄色, :轻、 :重,0:没什么, , :北移动, :向南推进, :往东走, :西迁,0:没什么, :皮卡, :跳伞。机器人2:传感器模块:GPS,指南针,黑白相机, , 是一样的机器人, :方向, :小世界, :杆, :大全球,0:没什么, , :前进, :向后移动, :左转, :向右转, :左转& , :右转 0:没什么, :皮卡, :跳伞。机器人3:传感器模块:梁的信号距离指标,指南针、颜色和重量传感器, , 梁:1-norm距离 , 是一样的机器人2 作为机器人1,