研究文章
上下文传递强化学习使用行为价值的功能
图1
一个网格与三个作物和三个农场收获机器人。机器人1:传感器模块:GPS, color&weight传感器,,列号,:行号,:红、:绿色,:黄色,:轻、:重,0:没什么,,:北移动,:向南推进,:往东走,:西迁,0:没什么,:皮卡,:跳伞。机器人2:传感器模块:GPS,指南针,黑白相机,,是一样的机器人,:方向,:小世界,:杆,:大全球,0:没什么,,:前进,:向后移动,:左转,:向右转,:左转&,:右转0:没什么,:皮卡,:跳伞。机器人3:传感器模块:梁的信号距离指标,指南针、颜色和重量传感器,,梁:1-norm距离,是一样的机器人2作为机器人1,。