Вопросы по теме 'apache-spark-mllib'

Совместная фильтрация Apache Spark MlLib
Я пытаюсь использовать MlLib для совместной фильтрации. Я сталкиваюсь со следующей ошибкой в ​​своей программе Scala, когда запускаю ее в Apache Spark 1.0.0. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for...
2221 просмотров

REPL возвращает значения RDD, но SBT не компилируется
При запуске приведенного ниже метода из нового сеанса REPL оболочки искры все работает нормально. Однако, когда я пытаюсь скомпилировать класс, содержащий этот метод, я получаю следующие ошибки Error:(21, 50) value values is not a member of...
349 просмотров

apache spark MLLib: как построить помеченные точки для строковых функций?
Я пытаюсь создать классификатор NaiveBayes с помощью Spark MLLib, который принимает в качестве входных данных набор документов. Я хотел бы указать некоторые вещи как функции (например, авторов, явные теги, неявные ключевые слова, категорию), но...
3817 просмотров

объединение строк / столбцов из фреймов данных Spark с помощью математической операции
У меня есть два фрейма данных искры (A и B) с соответствующими размерами a x m и b x m, содержащие значения с плавающей запятой. Кроме того, каждый фрейм данных имеет столбец «ID», который является строковым идентификатором. A и B имеют одинаковый...
2547 просмотров

Создание искрового конвейера без использования токенизатора
Я изучаю создание конвейера для запуска логистической регрессии в spark, и у меня возникла проблема с тем, есть ли способ расширить или обойти объект «Tokenizer». По сути, проблема, с которой я сталкиваюсь, заключается в том, что токенизатор...
270 просмотров

Умножение матриц в Apache Spark
Я пытаюсь выполнить умножение матриц с помощью Apache Spark и Java. У меня 2 основных вопроса: Как создать RDD, который может представлять матрицу в Apache Spark? Как перемножить два таких СДР?
19420 просмотров

Многоклассовая классификация Spark — Категориальные переменные
У меня есть набор данных в виде файла csv. Он имеет около 50 столбцов, большинство из которых являются категориальными. Я планирую запустить многоклассовую классификацию RandomForest с новым набором тестовых данных. Проблема этого заключается в...
597 просмотров

Проблема неизменяемости Apache Spark RDD[Vector]
Я знаю, что RDD неизменяемы, и поэтому их значение нельзя изменить, но я вижу следующее поведение: Я написал реализацию для алгоритма FuzzyCMeans ( https://github.com/salexln/FinalProject_FCM ), и теперь я Я тестирую это, поэтому я запускаю...
290 просмотров

Задание Spark использует слишком много ресурсов
Я запускаю исследование перекрестной проверки 50 контейнеров кластера пряжи. Данные составляют около 600 000 строк. Задание работает хорошо большую часть времени, но использует много ресурсов ОЗУ и ЦП на сервере драйверов кластера (машина, на...
1812 просмотров
schedule 05.04.2024

Почему алгоритм Spark Mllib KMeans работает очень медленно?
У меня та же проблема, что и в этом сообщении , но я не У меня недостаточно баллов, чтобы добавить комментарий. В моем наборе данных 1 миллион строк, 100 столбцов. Я также использую Mllib KMeans, и это очень медленно. Работа никогда не...
3084 просмотров

Связывание полученных разреженных векторов TFIDF с исходными документами в Spark
Я рассчитываю TFIDF, используя Spark с Python, используя следующий код: hashingTF = HashingTF() tf = hashingTF.transform(documents) idf = IDF().fit(tf) tfidf = idf.transform(tf) for k in tfidf.collect(): print(k) Я...
884 просмотров

Как преобразовать искровой DataFrame в RDD mllib LabeledPoints?
Я попытался применить PCA к своим данным, а затем применить RandomForest к преобразованным данным. Тем не менее, PCA.transform(data) дал мне DataFrame, но мне нужна библиотека LabeledPoints для библиотеки RandomForest. Как я могу это сделать? Мой...
13178 просмотров

Pyspark: спасти трансформеров
Я использую некоторые преобразователи Pyspark, такие как StringIndexer, StandardScaler и другие. Сначала я применяю их к тренировочному набору, а затем я хочу использовать те же объекты преобразования (те же параметры StringIndexerModel,...
1488 просмотров

Вычисление сходства Spark Jaccard путем минимального хеширования медленно по сравнению с тривиальным подходом
Учитывая два огромных списка значений, я пытаюсь вычислить сходство jaccard между ними в Spark с помощью Scala. Предположим, что colHashed1 содержит первый список значений, а colHashed2 содержит второй список. Подход 1 (тривиальный...
3191 просмотров
schedule 15.04.2024

Дерево решений Spark с ошибкой данных LIBSVM
Я преобразовал CSV в формат данных LIBSVM с помощью Python. Формат LIBSVM показан ниже. Первый столбец является целью. 0 0:1 1:2 2:1 4:11 6:4 7:7 8:1 9:99 10:70 11:1 0 0:1 1:2 2:1 4:8 5:1 6:3 7:7 8:1 9:99 10:62 11:1 Мой код в дереве...
388 просмотров

Как рассчитать потери журнала для обученной модели?
Я создаю конвейер ML для логистической регрессии. val lr = new LogisticRegression() lr.setMaxIter(100).setRegParam(0.001) val pipeline = new Pipeline().setStages(Array(geoDimEncoder,clientTypeEncoder,...
1004 просмотров

Перезапись потоковой модели Spark
Это так прямолинейный вопрос. Как я могу сохранить свою обновленную модель с тем же именем в том же каталоге. org.apache.spark.sql.AnalysisException: path file:/home/mali/model/UpdatedmyRandomForestClassificationModel/data already exists Есть...
100 просмотров

Apache Spark: StackOverflowError при попытке индексации строковых столбцов
У меня есть файл csv с примерно 5000 строками и 950 столбцами. Сначала я загружаю его в DataFrame: val data = sqlContext.read .format(csvFormat) .option("header", "true") .option("inferSchema", "true") .load(file) .cache() После...
5355 просмотров

перекрестная проверка с трубопроводом в искре
Перекрестная проверка вне конвейера. val naivebayes val indexer val pipeLine = new Pipeline().setStages(Array(indexer, naiveBayes)) val paramGrid = new ParamGridBuilder() .addGrid(naiveBayes.smoothing, Array(1.0, 0.1, 0.3, 0.5)) .build()...
709 просмотров

Spark CrossValidatorModel доступ к другим моделям, кроме bestModel?
Я использую Spark 1.6.1: В настоящее время я использую CrossValidator для обучения моего конвейера машинного обучения с различными параметрами. После процесса обучения я могу использовать свойство bestModel CrossValidatorModel, чтобы получить...
4910 просмотров