Публикации по тегам apache-spark

Публикации по теме 'apache-spark'

Работа с «java.lang.VerifyError: невозможно наследовать от конечного класса» в Scala с использованием Maven.

Снова и снова эта ошибка преследовала меня, поэтому я решил, что раз и навсегда я буду записывать в журнал подробности и шаги, которые я предпринимаю для ее устранения. Обратите внимание, что эта ошибка может возникать по нескольким причинам и что подробности и решения в этой статье могут не относиться к вашему случаю, но я стараюсь начать с краткого описания ошибки и ее происхождения, чтобы вы могли продолжить поиск. для решения с большей уверенностью. Эта проблема возникает из-за класса..

Запуск службы Spark Thrift в Kubernetes: подробное руководство

Понимание архитектуры сервера Spark Thrift Apache Spark Thrift Server — отличный инструмент, который можно использовать для создания многопользовательской службы с поддержкой JDBC/ODBC для Spark. Эта служба позволяет нескольким пользователям одновременно запускать задания Spark в одном и том же контексте Spark. Однако по замыслу Spark Thrift Server может работать только в клиентском режиме. Это означает, что Spark Submit при запуске в клиентском режиме запускается на узле, где была..

От scikit-learn к Spark ML

Перевод проекта машинного обучения с Python на Scala В предыдущем посте я показал, как взять необработанный набор данных о продажах жилья и применить методы разработки функций на Python с помощью pandas. Это позволило нам производить и улучшать прогнозы цен на продажу домов с помощью моделей машинного обучения scikit-learn. Но что произойдет, если вы захотите запустить такой проект в производство, и вместо 10 000 точек данных, возможно, будут использоваться десятки или сотни..

Как установить и использовать Apache Spark в Windows

Мы уже знаем, что нам нужен Hadoop для хранения как структурированных, так и неструктурированных данных, которые настолько велики, что их обычное хранение на диске не будет хорошим выбором, но что с ними делать потом? вот тут-то и появляется Apache Spark. Согласно их официальному сайту , Apache Spark™ — это многоязычный движок для выполнения инженерии данных, науки о данных и машинного обучения на одноузловых машинах или кластерах. Следовательно, вы можете разобраться в больших..

Apache Spark - серия из нескольких частей: что такое Apache Spark?

Основная движущая цель Apache Spark - дать пользователям возможность создавать приложения для работы с большими данными на единой платформе доступным и привычным способом. Spark разработан таким образом, что традиционные инженеры по обработке данных и разработчики аналитических данных смогут легко интегрировать свои текущие навыки, будь то языки программирования или структуры данных. Но что все это значит, а вы до сих пор не ответили на вопрос! Apache Spark - это вычислительный..

Apache Spark - биты и байты

Идеальная платформа для обработки больших данных Apache Spark - это технология, которая занимает значительное место в общем стеке технологий больших данных, а также в экосистеме Hadoop. Существует высокая вероятность того, что даже новичок в инженерии больших данных знаком со словом «Spark» из-за той искры, которую оно вызвало в сообществах больших данных. Но знаете ли вы его основы и возможности? Честно говоря, я не знал, когда начал, хотя был хорошо знаком с термином «Apache..

Упрощение классификации изображений с помощью Spark Deep Learning

Упрощение классификации изображений с помощью Spark Deep Learning Вступление Мы в Linagora верим, что все следующее поколение программного обеспечения будет включать инновационные функции, основанные на искусственном интеллекте и машинном обучении (ML). Два года назад Linagora приступила к разработке совместной платформы с открытым исходным кодом под названием OpenPaas . В этом контексте я начал разрабатывать инновационные функции на основе машинного обучения и искусственного..