500枚ですharchive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.dataこのデータから、重回帰分析をつかって値段に最も関係する2要因を求めたいのですが、求め方は説明変数が二つの重回帰分析を全パターン試して、決定係数が一番大きい組み合わせを最も関係する2要因とします。そこで、engine-sizeやcurb-weightは数値なのでそのまま分析に使えますが、makeとかは数値じゃないからどうやって分析に使えばいいですか？

1件の回答

1136678

2026-03-22 21:00

数値でない列（make や fuel-type など）などのカテゴリー変数は、そのままでは線形回帰モデルが扱えません。

「ダミー変数化（one-hot エンコーディング）」で数値化します。

fuel-type 列に現れる燃料は2種類だけです。1列でgas=0, diesel=1とかとやればいいです。

make が alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo は22変数あります。

make = \u0026quot;honda\u0026quot; と make = \u0026quot;bmw\u0026quot; は大小関係を持たないため、

そのまま数値（例：honda=1, bmw=2, alfa-romero=3,...）にすると意味のない順序が回帰に影響してしまうので注意してください。

なので, makeを22列に分割して 0/1 のダミー変数に変換します。特定の１社をたとえばalfa-romeroだけ全部0で表現すると, 21列で表現できます。

うったえる有益だ（0）シェアするブックマークする

1件の回答

1136678

人気話題

関連質問