gymnasium の BipedalWalker 環境について:
“観測空間 (observation space)” の配列は、以下の構成です。
- 観測ベクトルの長さは 24 要素
- 要素の内容は主に以下のような順序 (ただしバージョンや仕様で微妙に異なる可能性あり):
1. 各関節の角度 (膝・股関節など)
2. 各関節の角速度
3. 脚の接地状態 (脚が地面に着いているかのブール値)
4. 地面とキャラクターとの相対位置/速度
5. 身体/胴体の傾きや回転情報
6. その他、速度・加速度などの物理状態量
つまり、数値の配列が「関節 + 速度 + 接地 + 空間情報 + 身体の傾き/回転 + 物理量」のようなまとまりで格納されており、
Agent (操作するキャラ) はこの 24 次元ベクトルを入力として「次にどう動くか (行動)」を決めます。
もしよければ、実際の観測配列を index と意味付きでリストにしたもの (英語コメント付き) をつくるよ。