Публикации по тегам apache-spark-mllib

Вопросы по теме 'apache-spark-mllib'

Совместная фильтрация Apache Spark MlLib

Я пытаюсь использовать MlLib для совместной фильтрации. Я сталкиваюсь со следующей ошибкой в своей программе Scala, когда запускаю ее в Apache Spark 1.0.0. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for...

2221 просмотров

08.12.2023

REPL возвращает значения RDD, но SBT не компилируется

При запуске приведенного ниже метода из нового сеанса REPL оболочки искры все работает нормально. Однако, когда я пытаюсь скомпилировать класс, содержащий этот метод, я получаю следующие ошибки Error:(21, 50) value values is not a member of...

349 просмотров

apache-spark scala sbt apache-spark-mllib

15.10.2022

apache spark MLLib: как построить помеченные точки для строковых функций?

Я пытаюсь создать классификатор NaiveBayes с помощью Spark MLLib, который принимает в качестве входных данных набор документов. Я хотел бы указать некоторые вещи как функции (например, авторов, явные теги, неявные ключевые слова, категорию), но...

3817 просмотров

java machine-learning apache-spark apache-spark-mllib feature-selection

11.11.2023

объединение строк / столбцов из фреймов данных Spark с помощью математической операции

У меня есть два фрейма данных искры (A и B) с соответствующими размерами a x m и b x m, содержащие значения с плавающей запятой. Кроме того, каждый фрейм данных имеет столбец «ID», который является строковым идентификатором. A и B имеют одинаковый...

2547 просмотров

apache-spark pyspark apache-spark-sql apache-spark-mllib

27.03.2024

Создание искрового конвейера без использования токенизатора

Я изучаю создание конвейера для запуска логистической регрессии в spark, и у меня возникла проблема с тем, есть ли способ расширить или обойти объект «Tokenizer». По сути, проблема, с которой я сталкиваюсь, заключается в том, что токенизатор...

270 просмотров

apache-spark scala apache-spark-mllib logistic-regression

10.10.2023

Умножение матриц в Apache Spark

Я пытаюсь выполнить умножение матриц с помощью Apache Spark и Java. У меня 2 основных вопроса: Как создать RDD, который может представлять матрицу в Apache Spark? Как перемножить два таких СДР?

19420 просмотров

java apache-spark scala rdd apache-spark-mllib

08.02.2024

Многоклассовая классификация Spark — Категориальные переменные

У меня есть набор данных в виде файла csv. Он имеет около 50 столбцов, большинство из которых являются категориальными. Я планирую запустить многоклассовую классификацию RandomForest с новым набором тестовых данных. Проблема этого заключается в...

597 просмотров

apache-spark scala multilabel-classification apache-spark-mllib categorical-data

24.04.2024

Проблема неизменяемости Apache Spark RDD[Vector]

Я знаю, что RDD неизменяемы, и поэтому их значение нельзя изменить, но я вижу следующее поведение: Я написал реализацию для алгоритма FuzzyCMeans ( https://github.com/salexln/FinalProject_FCM ), и теперь я Я тестирую это, поэтому я запускаю...

290 просмотров

apache-spark scala rdd apache-spark-mllib

21.02.2024

Задание Spark использует слишком много ресурсов

Я запускаю исследование перекрестной проверки 50 контейнеров кластера пряжи. Данные составляют около 600 000 строк. Задание работает хорошо большую часть времени, но использует много ресурсов ОЗУ и ЦП на сервере драйверов кластера (машина, на...

1812 просмотров

apache-spark scala apache-spark-mllib

05.04.2024

Почему алгоритм Spark Mllib KMeans работает очень медленно?

У меня та же проблема, что и в этом сообщении , но я не У меня недостаточно баллов, чтобы добавить комментарий. В моем наборе данных 1 миллион строк, 100 столбцов. Я также использую Mllib KMeans, и это очень медленно. Работа никогда не...

3084 просмотров

apache-spark cluster-analysis apache-spark-mllib k-means data-mining

14.04.2024

Связывание полученных разреженных векторов TFIDF с исходными документами в Spark

Я рассчитываю TFIDF, используя Spark с Python, используя следующий код: hashingTF = HashingTF() tf = hashingTF.transform(documents) idf = IDF().fit(tf) tfidf = idf.transform(tf) for k in tfidf.collect(): print(k) Я...

884 просмотров

python apache-spark pyspark apache-spark-mllib tf-idf

08.12.2023

Как преобразовать искровой DataFrame в RDD mllib LabeledPoints?

Я попытался применить PCA к своим данным, а затем применить RandomForest к преобразованным данным. Тем не менее, PCA.transform(data) дал мне DataFrame, но мне нужна библиотека LabeledPoints для библиотеки RandomForest. Как я могу это сделать? Мой...

13178 просмотров

apache-spark scala rdd apache-spark-mllib pca

25.10.2022

Pyspark: спасти трансформеров

Я использую некоторые преобразователи Pyspark, такие как StringIndexer, StandardScaler и другие. Сначала я применяю их к тренировочному набору, а затем я хочу использовать те же объекты преобразования (те же параметры StringIndexerModel,...

1488 просмотров

apache-spark pyspark apache-spark-mllib

29.02.2024

Вычисление сходства Spark Jaccard путем минимального хеширования медленно по сравнению с тривиальным подходом

Учитывая два огромных списка значений, я пытаюсь вычислить сходство jaccard между ними в Spark с помощью Scala. Предположим, что colHashed1 содержит первый список значений, а colHashed2 содержит второй список. Подход 1 (тривиальный...

3191 просмотров

apache-spark scala apache-spark-mllib

15.04.2024

Дерево решений Spark с ошибкой данных LIBSVM

Я преобразовал CSV в формат данных LIBSVM с помощью Python. Формат LIBSVM показан ниже. Первый столбец является целью. 0 0:1 1:2 2:1 4:11 6:4 7:7 8:1 9:99 10:70 11:1 0 0:1 1:2 2:1 4:8 5:1 6:3 7:7 8:1 9:99 10:62 11:1 Мой код в дереве...

388 просмотров

python apache-spark pyspark apache-spark-mllib libsvm

06.11.2022

Как рассчитать потери журнала для обученной модели?

Я создаю конвейер ML для логистической регрессии. val lr = new LogisticRegression() lr.setMaxIter(100).setRegParam(0.001) val pipeline = new Pipeline().setStages(Array(geoDimEncoder,clientTypeEncoder,...

1004 просмотров

apache-spark apache-spark-mllib apache-spark-ml

17.02.2024

Перезапись потоковой модели Spark

Это так прямолинейный вопрос. Как я могу сохранить свою обновленную модель с тем же именем в том же каталоге. org.apache.spark.sql.AnalysisException: path file:/home/mali/model/UpdatedmyRandomForestClassificationModel/data already exists Есть...

100 просмотров

java apache-spark spark-streaming apache-spark-mllib

07.10.2022

Apache Spark: StackOverflowError при попытке индексации строковых столбцов

У меня есть файл csv с примерно 5000 строками и 950 столбцами. Сначала я загружаю его в DataFrame: val data = sqlContext.read .format(csvFormat) .option("header", "true") .option("inferSchema", "true") .load(file) .cache() После...

5355 просмотров

java apache-spark scala apache-spark-mllib

04.05.2024

перекрестная проверка с трубопроводом в искре

Перекрестная проверка вне конвейера. val naivebayes val indexer val pipeLine = new Pipeline().setStages(Array(indexer, naiveBayes)) val paramGrid = new ParamGridBuilder() .addGrid(naiveBayes.smoothing, Array(1.0, 0.1, 0.3, 0.5)) .build()...

709 просмотров

apache-spark pipeline apache-spark-mllib apache-spark-ml cross-validation

04.12.2023

Spark CrossValidatorModel доступ к другим моделям, кроме bestModel?

Я использую Spark 1.6.1: В настоящее время я использую CrossValidator для обучения моего конвейера машинного обучения с различными параметрами. После процесса обучения я могу использовать свойство bestModel CrossValidatorModel, чтобы получить...

4910 просмотров

apache-spark apache-spark-mllib cross-validation apache-spark-1.6

03.07.2022

Вопросы по теме 'apache-spark-mllib'

Похожие вопросы