Добро пожаловать обратно! R — отличный язык программирования, который широко используется в науке о данных, поэтому, если вы начинающий специалист по данным и, возможно, пытаетесь найти несколько проектов для создания, вы попали в нужное место! Давайте рассмотрим некоторые из моих любимых проектов R, которые идеально подходят для начинающих специалистов по данным!

Машинное обучение с помощью R + Tidymodels

Во-первых, у нас есть очень простой проект машинного обучения с R и tidymodels, этот проект разбирает основы машинного обучения в R, мы также разрабатываем модель машинного обучения, ознакомьтесь с проектом ниже:



Хотя такие языки, как Python, рассматриваются как язык для машинного обучения, R по-прежнему имеет большую поддержку для своих пакетов машинного обучения. Tidymodels — отличный ресурс для машинного обучения в R, у них есть отличная документация и довольно большое сообщество разработчиков машинного обучения, я настоятельно рекомендую проверить этот проект выше, чтобы получить некоторый сложный опыт машинного обучения в R.

Скрапинг данных Reddit в R:

Далее у нас есть довольно простой проект очистки данных, мы по существу извлекаем необработанные данные из Reddit, используя JSON-версию Reddit, перейдите по ссылке ниже, чтобы просмотреть весь проект:



Этот проект является очень сильным проектом для начинающих, он показывает, как извлекать данные JSON с веб-сайтов, сохранять эти файлы JSON в переменных и даже извлекать данные из списка списков. Хотя этот конкретный проект довольно прост, я бы попросил вас посмотреть, как вы можете улучшить этот проект, вот лишь несколько мыслей, которые приходят на ум: не могли бы вы провести анализ частоты текста в заголовках? Не могли бы вы выполнить обратный поиск по самым высоким ключевым словам? Это всего лишь несколько способов, которые я бы рекомендовал для улучшения проекта выше.

Парсинг веб-сайта с помощью R

Затем у нас есть парсинг веб-страниц с помощью R, этот небольшой проект показывает нам стандартную структуру веб-сайта, а также то, как извлечь определенные элементы с определенной веб-страницы, чтобы просмотреть весь проект, перейдите по ссылке ниже:



веб-скрапинг — один из моих любимых способов создания наборов данных. Мне нравится собирать данные с таких веб-сайтов, как Reddit или Tiktok, потому что их данные постоянно обновляются, а использование таких пакетов, как rvest, позволяет нам очень легко очищать данные. Кроме того, изучая парсинг веб-страниц в R, вы даже можете очень легко перейти к изучению парсинга веб-страниц и на любом другом языке!

Кроме того, обязательно ознакомьтесь с этой статьей о некоторых из самых популярных пакетов R для специалистов по данным:



Вот оно! Это одни из моих любимых проектов R, специально предназначенных для специалистов по данным. Планируете ли вы заняться каким-либо из них? Я хотел бы услышать ваши мысли по этому поводу!

Как всегда

если у вас есть какие-либо предложения, мысли или вы просто хотите связаться, не стесняйтесь связаться со мной / подписаться на меня в Твиттере! Кроме того, ниже приведены ссылки на некоторые из моих любимых ресурсов для изучения программирования, Python, R, Data Science и т. д.



Спасибо за прочтение!