500枚ですharchive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.dataこのデータから、重回帰分析をつかって値段に最も関係する2要因を求めたいのですが、求め方は説明変数が二つの重回帰分析を全パターン試して、決定係数が一番大きい組み合わせを最も関係する2要因とします。そこで、engine-sizeやcurb-weightは数値なのでそのまま分析に使えますが、makeとかは数値じゃないからどうやって分析に使えばいいですか?

1件の回答

回答を書く

1136678

2026-03-22 21:00

+ フォロー

数値でない列(make や fuel-type など)などのカテゴリー変数は、そのままでは線形回帰モデルが扱えません。



「ダミー変数化(one-hot エンコーディング)」 で数値化します。



fuel-type 列に現れる燃料は2種類 だけです。1列でgas=0, diesel=1とかとやればいいです。



make が alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo は22変数あります。



make = \u0026quot;honda\u0026quot; と make = \u0026quot;bmw\u0026quot; は大小関係を持たないため、

そのまま数値(例:honda=1, bmw=2, alfa-romero=3,...)にすると意味のない順序が回帰に影響してしまうので注意してください。



なので, makeを22列に分割して 0/1 のダミー変数に変換します。特定の1社をたとえばalfa-romeroだけ全部0で表現すると, 21列で表現できます。

うったえる有益だ(0シェアするブックマークする

関連質問

Copyright © 2026 AQ188.com All Rights Reserved.

博識 著作権所有