Цель анализа — узнать, какие факторы будут определять текущую цену автомобиля.

Набор данных содержит цену продажи, год, текущую цену, пробег, тип топлива, тип продавца, трансмиссию, владельца.

СЛОВАРЬ ДАННЫХ

Цена продажи: цена автомобиля на аукционе или год его выпуска.

Год: это год выпуска автомобиля.

Текущая цена: именно по этой причине мы используем линейную регрессию. Мы хотим узнать текущую цену на основе заданных параметров.

Пройденный километраж: расстояние, которое проехал автомобиль, измеряется в километрах.

Тип топлива: это тип топлива, который использует двигатель автомобиля.

Тип продавца: в этом поле содержится информация о продавце — дилере или физическом лице.

Трансмиссия: это зависит от того, автоматическая или механическая машина.

Владелец: показывает количество людей, владеющих автомобилем.

ПОДГОТОВКА ДАННЫХ

Перед запуском машинного обучения (линейной регрессии) были выполнены некоторые шаги, которые описаны ниже.

ОЧИСТКА ДАННЫХ

Данные на 100% чистые. поэтому очистка данных не производилась. Кроме того, в наборах данных нет выбросов, поэтому их не нужно обрабатывать.

СОЗДАНИЕ фиктивных переменных

Категориальные данные не могут быть введены в нашу модель. Необходимо создать фиктивную переменную, позволяющую использовать категориальные переменные. В нашем наборе данных есть три поля, которые являются категориальными данными: тип топлива, тип продавца и трансмиссия. Фиктивная переменная создается с использованием только чисел 1 и 0. Количество создаваемых фиктивных переменных будет зависеть от количества различных значений минус один (1).

В поле типа топлива есть три различных значения: бензин, дизельное топливо и КПГ. В этом столбце будут созданы две фиктивные переменные для любого из двух полей, при этом другое останется постоянным. Фиктивные переменные были созданы как для дизельного топлива, так и для бензина. где и дизельное топливо, и бензин равны 0, это означает, что тип топлива — СПГ.

В поле типа продавца у нас есть дилер и физическое лицо, мы выбираем дилера в качестве манекена. поэтому каждый раз, когда он у нас есть, это означает, что наш тип продавца — дилер, если не индивидуальный тип продавца.

В полях трансмиссии была создана фиктивная переменная для ручного типа: каждый раз, когда значение Transmission_Manual равно 1, это означает, что тип трансмиссии автомобиля — ручной, в противном случае — автоматический.

КОРРЕЛЯЦИЯ

Коэффициент корреляции рассчитывается для каждого поля. Это делается для того, чтобы проверить, есть ли коррелированные поля. Это важно для устранения любой проблемы многолинейности. В данных нет поля с высокой степенью корреляции.

РЕГРЕССИОННЫЙ АНАЛИЗ

После того, как данные подготовлены, следующий процесс — ввести наши данные в нашу модель и запустить множественную регрессию.

ОБЪЯСНЕНИЕ РЕЗУЛЬТАТОВ

После запуска модели необходимо проверить необходимые параметры для проверки результатов модели.

Минимальный скорректированный квадрат R для любой регрессионной модели должен составлять не менее 0,5. В нашей модели скорректированный квадрат R составляет более 0,8, что показывает, что наша модель движется в правильном направлении.

Кроме того, уместно проверить p-значения каждого бета-значения нашего поля. Все поля со значением бета больше 0,01 и 0,01 считаются полезными для определения текущей цены автомобилей. Знак полученных значений бета будет определять, приведет ли каждая единица переменной к соответствующему увеличению или уменьшению текущей цены автомобиля.

Следовательно, цена продажи, год и пробег — это три переменные, которые будут полезны для определения текущей цены автомобилей.