①について
集約で情報を失わないように、どういう風に集約した特徴量を作るのかが重要な問題という感じになります。集約の仕方によっては機械学習で役立つ変数にならないし、うまい集約だったら役立つ変数になります。試行錯誤して集約方法を検討する必要があります。
②について
1ロットの個体が少ないのは捨てて解析した方がいいかもです。データの品質が悪いので。機械学習モデルを1ロットの個体が少ないものに当てはめるのは、できはします。
③について
機械学習では1ロット当たりの不良品率の生データをそのまま使います。10%と100%を同一視しないほうがよいです。つまり2値分類ではなく、不良品率を目的変数にした予測が良いです。損失関数としてはlogitとかを使うことになると思います。機械学習モデルで不良品率を予測した後に、10%以上だから要注意と運用するのはありです。