実務における機械学習について不良品率が閾値を超えるロットを、検査前に予測するモデルを構築したいです。工程データが3つと検査データがあり、1行1個体で数万行以上あります。(データによって行はバラツキあり)当初私は、全個体のリンクを行い検査データの個体に工程データをマージして学習データの構築を行おうとしました。しかし、どう見ても個体ごとの追跡が不可能で、検査データの個体が前工程のどの個体かを判別することが不可能でした。なのでロット単位でデータを集約しようと思うんですが、以下の点について教えてください。①1ロット1行に集約してデータが数万行から1000行程度まで減るのは、データを集約し過ぎて意味を持たなくなる危険性はあるでしょうか。②1ロット1個体〜200個体とバラつきがあるのですが、1行の重みが違うのは問題ないのでしょうか。③不良品率10％を閾値にした場合、ロットごとの目的変数を二値分類で作るなら、不良品率10％と100%が同一視されるのは悪影響が出ませんでしょうか？

1件の回答

1221829

2026-03-09 19:25

①について

集約で情報を失わないように、どういう風に集約した特徴量を作るのかが重要な問題という感じになります。集約の仕方によっては機械学習で役立つ変数にならないし、うまい集約だったら役立つ変数になります。試行錯誤して集約方法を検討する必要があります。

②について

１ロットの個体が少ないのは捨てて解析した方がいいかもです。データの品質が悪いので。機械学習モデルを１ロットの個体が少ないものに当てはめるのは、できはします。

③について

機械学習では１ロット当たりの不良品率の生データをそのまま使います。10%と100%を同一視しないほうがよいです。つまり２値分類ではなく、不良品率を目的変数にした予測が良いです。損失関数としてはlogitとかを使うことになると思います。機械学習モデルで不良品率を予測した後に、10%以上だから要注意と運用するのはありです。

うったえる有益だ（0）シェアするブックマークする

1件の回答

1221829

人気話題

関連質問