Приступая к работе с данными с помощью R

Установка R, выполнение манипуляций с данными, вплоть до применения машинного обучения с R.

Специалисты по анализу данных в настоящее время могут выбирать из множества вариантов создания статистической визуализации. Допустим, у нас самый популярный Python. С Python мы можем выполнять практически все, от классификации и регрессии машинного обучения, глубокого обучения для компьютерного зрения, НЛП до анализа звука. Помимо Python, мы можем выполнять алгоритмы машинного обучения на многих других языках, таких как JAVA, Scala, Lisp, C ++ или C #. Однако нельзя отрицать, что R является вторым наиболее востребованным навыком от Data Scientist, по крайней мере, до 2021 года согласно LinkedIn, как указано в приведенной ниже ссылке:

Анализ набора навыков в LinkedIn: специалисты по данным, инженеры, аналитики и объявления о вакансиях
Сфера науки о данных кардинально изменилась, и специалистам-аналитикам трудно знать, куда обратиться фокус… www.iadss.org

Приступим к загрузке

Самое первое, что нам нужно сделать, это установка. Ниже приведены инструкции по установке R как для Windows, так и для OS X:

Для Windows

1. Щелкните следующую ссылку: http://www.r-project.org/.
2. Выберите CRAN, после чего появится несколько зеркальных сайтов, отсортированных по странам.
3 . Выберите один из перечисленных сайтов в зависимости от вашей страны или страны, близкой к вашей.
4. Затем выберите Windows в разделе Загрузить и установить R.
5. Выберите base.
6. Выберите ссылку, чтобы загрузить последнюю версию R в формате .exe.
7. После завершения дважды щелкните файл .exe и начните установку, ответив на необходимые вопросы.

Для OS X

1. Щелкните следующую ссылку: http://www.r-project.org/.
2. Выберите CRAN, после чего появится несколько зеркальных сайтов, отсортированных по странам.
3 . Выберите один из перечисленных сайтов в зависимости от вашей страны или страны, близкой к вашей.
4. Затем выберите MacOS X.
5. Выберите последнюю версию предоставленного файла .pkg
6. Выберите ссылку, чтобы загрузить последнюю версию R в формате .exe.
7. После завершения дважды щелкните файл .pkg и начните установку, ответив на необходимые вопросы.

После установки вы заметите, что установлено два типа R: R i386 или R x64. Если вы думаете, что они предназначены для 32-битных и 64-битных пакетов, то вы правы. I386 предназначен для 32-разрядной версии, что немного быстрее, но вы можете использовать только 3 ГБ оперативной памяти. Между тем, для 64-разрядной версии вы можете использовать столько оперативной памяти, сколько у вас есть. Откройте то, что вам подходит, и вы увидите следующий экран:

Первая команда

Начнем с вашей самой первой команды. Как и Python, R довольно прост, например, если вы введете 1 + 1, он даст вам результат [1] 2. Здесь [1] не дает никакого значения и не дает вам количество ваших выходов. Однако, если вы не хотите его отображать, вам пригодится cat ().

Вы также можете использовать max или min, чтобы найти конкретное число, например max (5,8,7). R запросит дальнейший ввод, если знак ›изменится на +. Итак, если вы вставите max (5,8, only и нажмете Enter, нам нужно будет ввести еще один номер после +, который будет включен в команду предыдущей строки и даст нам правильный результат.

В R есть несколько методов присвоения значений переменным. Обычно мы используем x = 1. Тем не менее, также можно использовать знаки ‹-, -› или даже ‹

x <- .Last.value

Получать помощь

R легко изучить, но если вы забудете некоторые функции, вы можете просто использовать команду args (). Например, если вы используете args (mean), R расскажет вам, как использовать функцию mean:

function (x, ...) 
NULL

Если вы спросите, что такое функция sd, используя args (sd), он ответит вам:

function (x, na.rm = FALSE) 
NULL

Если вы даже не понимаете, как снова использовать функцию из примера функции, вы можете использовать команду example (), чтобы попросить R предоставить вам пример использования функции. Например, пример (sd) покажет нам:

sd> sd(1:2) ^ 2
[1] 0.5

Встроенные пакеты и наборы данных R

Подобно Python, мы также можем устанавливать пакеты в R, чтобы помочь нам в выполнении наших задач с помощью R. Есть также несколько интересных команд, связанных с пакетами, например, если мы введем

> library()

И он покажет все пакеты, которые были установлены в R, как показано ниже:

Чтобы установить новый пакет, например, чтобы установить пакет e1071, мы можем просто использовать:

> install.packages(“e1071”)

А для его обновления мы можем использовать:

> update.packages("e1071")

После установки мы можем загрузить его для использования с помощью команды:

> library(e1071)

Помимо этих предоставленных библиотек, в R также есть встроенные наборы данных, которые вы можете проверить с помощью следующей команды:

> data()

И он отобразит все предоставленные данные следующим образом:

Эти наборы данных включают хорошо известные наборы данных Iris и Titanic, которые широко используются новичками для начала работы с машинным обучением.

Управление данными диафрагмы с помощью R

Поскольку мы знаем, что набор данных Iris всегда был Hello World для машинного обучения, почему бы нам не применить его для обучения R. Во-первых, давайте загрузим данные:

> data(iris)

В Python мы можем суммировать данные, используя функцию головы Панды. В R мы можем просто использовать функцию str (), например:

> str(iris)

Отобразит нам все 5 переменных, таких как длина чашелистика, ширина чашелистика, длина лепестка, ширина лепестка и вид, как показано ниже:

Чтобы назначить переменную для выбора определенных столбцов, мы можем использовать функцию c (), например, мы можем назначить переменную Sepal.iris, чтобы указать все столбцы ширины и длины сепала, как показано ниже:

> Sepal.iris = iris[, c("Sepal.Length", "Sepal.Width")]

Следовательно, если мы суммируем Sepal.iris, он даст нам только результаты длины и ширины Sepal:

Или, отображая только первые 5 данных, мы можем установить их перед функцией c () следующим образом:

> Sepal.iris = iris[1:5, c("Sepal.Length", "Sepal.Width")]

Следовательно, мы получим только 5 данных в результате обобщения нового Sepal.iris следующим образом:

Чтобы показать, какие индексы отображают виды Setosa, мы можем использовать функцию which () следующим образом:

> which(iris$Species=="setosa")

Что покажет нам индексы:

Из этих индексов мы можем отобразить только первые 5 наборов данных по видам Setosa, установив новую переменную следующим образом:

> setosa.data = iris[which(iris$Species=="setosa"),1:5]

А если просуммировать переменную, мы получим только желаемые данные:

Вы также можете применить логическое выражение И, ИЛИ, ‹, = или› для фильтрации данных с помощью функции подмножества. Например, мы пытаемся отфильтровать данные с длиной лепестка меньше 1,4 и шириной лепестка более 1,2:

> example.data = subset(iris, Petal.Length<=1.4 & Petal.Width >= 0.2, select=Species)

Тогда мы можем узнать, что существует 21 данные с такими конкретными размерами, как следующие:

Наконец, мы можем отображать упорядоченные данные с помощью функции заказа. Например, если мы упорядочиваем данные на основе длины лепестка, это выглядит следующим образом:

> head(iris[order(iris$Sepal.Length, decreasing = TRUE),])

Он будет отображать фактический номер заказа, а также другие переменные:

Применение статистики к данным радужной оболочки с помощью R

Во-первых, давайте попробуем несколько описательных статистических данных, таких как среднее значение, стандартное отклонение, дисперсия, минимум, максимум, медиана, диапазон и квантиль от длины Iris Sepal, как показано ниже:

Иметь в виду:

mean(iris$Sepal.Length)

Среднеквадратичное отклонение:

sd(iris$Sepal.Length)

Разница:

var(iris$Sepal.Length)

Минимум:

min(iris$Sepal.Length)

Максимум:

max(iris$Sepal.Length)

Медиана:

median(iris$Sepal.Length)

Диапазон:

range(iris$Sepal.Length)

Квантиль:

quantile(iris$Sepal.Length)

Это даст нам следующий результат:

Мы также можем суммировать каждую числовую переменную, используя команду Sapply, как показано ниже:

sapply(iris[1:4],mean)

1: 4 указывает количество переменных, которые должны быть показаны в этой сводной команде. Результат следующий:

Чтобы отобразить другую статистику, например, стандартное отклонение, мы можем просто заменить команду mean на команду sd следующим образом:

sapply(iris[1:4],sd)

Чтобы отобразить всю описательную статистику без ввода каждой команды, просто используйте команду summary (), тогда R покажет нам каждую из этих статистических данных, включая квантиль 25% и 75% для каждой переменной. Это похоже на команду describe () из Pandas в Python.

summary(iris)

Другими простыми и интересными командами для анализа статистики являются команды cor () и cov (), которые покажут нам матрицы корреляции и ковариации между каждой переменной. Например:

Чтобы отобразить корреляционную матрицу между 4 числовыми переменными:

cor(iris[1:4])

Чтобы отобразить ковариационную матрицу между 4 числовыми переменными:

cov(iris[1:4])

Еще одна причина, по которой R делает нашу жизнь как Data Scientist намного проще, заключается в том, что мы можем выполнить T-тест с помощью предоставленной команды: t.test (), чтобы определить разницу между двумя указанными переменными. Например, мы можем измерить разницу между шириной лепестка от сетозы до разноцветного следующим образом:

t.test(iris$Petal.Width[iris$Species=="setosa"],iris$Petal.Width[iris$Species=="versicolor"])

как мы видим, p-значение меньше 2.2x10 ^ -16, следовательно, они значительно отличаются, потому что единственное допустимое p-значение, чтобы они считались похожими, - это не менее 0,5.

Еще одна команда статистического расчета, которую мы можем выполнить, - это определение значения корреляции между двумя переменными с помощью команды cor.test (). Переменные более коррелированы, если их значение ближе к 1, и вряд ли будут коррелированы, если они будут ближе к -1. Давайте попробуем определить значение корреляции между длиной чашелистика и шириной чашелистика следующим образом:

cor.test(iris$Sepal.Length, iris$Sepal.Width)

Как мы видим, результат равен -0,1176, следовательно, они вряд ли будут коррелированы.

Визуализация данных для набора данных Iris с помощью R

Визуализация данных с помощью R - простая задача, поскольку команды аналогичны предполагаемой визуализации. Например, мы можем отобразить частоту появления каждого вида ирисов на круговой диаграмме с помощью команды pie (). Во-первых, давайте создадим таблицу, в которой будут отображаться следующие значения частоты:

table.iris = table(iris$Species)

Затем мы можем просто вставить значения таблицы в круговую диаграмму, чтобы отобразить их следующим образом:

pie(table.iris)

Затем R откроет новое окно, в котором отображается наша новая круговая диаграмма:

Другой пример - создание гистограммы. Мы можем отобразить его с помощью команды hist () и вставить переменную, которую мы хотели бы проанализировать, например, длину чашелистника.

hist(iris$Sepal.Length)

Далее следует коробчатая диаграмма. Так же проста, как и другие, команда boxplot также называется boxplot (). С помощью коробчатой диаграммы мы можем понять распределение переменной по квартилям. Давайте попробуем отобразить блок-схему ширины лепестка:

boxplot(Petal.Width ~ Species, data = iris)

И, наконец, мы можем создать диаграмму рассеяния, указав переменные для осей x и y с помощью команды plot (). Давайте попробуем создать диаграмму рассеяния ширины и длины лепестка для каждого вида следующим образом:

plot(x=iris$Petal.Length, y=iris$Petal.Width, col=iris$Species)

Завершение

Есть еще много функций, которые необходимо охватить, чтобы начать работу с R, однако в этой статье были рассмотрены необходимые базовые функции R и соответствующие знания для начинающих, чтобы начать получать представление об игре с R. Я надеюсь, что вы кое-что узнали и Спасибо за чтение.