Вопросы по теме 'apache-spark-mllib'
Совместная фильтрация Apache Spark MlLib
Я пытаюсь использовать MlLib для совместной фильтрации.
Я сталкиваюсь со следующей ошибкой в своей программе Scala, когда запускаю ее в Apache Spark 1.0.0.
14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for...
2221 просмотров
schedule
08.12.2023
REPL возвращает значения RDD, но SBT не компилируется
При запуске приведенного ниже метода из нового сеанса REPL оболочки искры все работает нормально. Однако, когда я пытаюсь скомпилировать класс, содержащий этот метод, я получаю следующие ошибки
Error:(21, 50) value values is not a member of...
349 просмотров
schedule
15.10.2022
apache spark MLLib: как построить помеченные точки для строковых функций?
Я пытаюсь создать классификатор NaiveBayes с помощью Spark MLLib, который принимает в качестве входных данных набор документов.
Я хотел бы указать некоторые вещи как функции (например, авторов, явные теги, неявные ключевые слова, категорию), но...
3817 просмотров
schedule
11.11.2023
объединение строк / столбцов из фреймов данных Spark с помощью математической операции
У меня есть два фрейма данных искры (A и B) с соответствующими размерами a x m и b x m, содержащие значения с плавающей запятой. Кроме того, каждый фрейм данных имеет столбец «ID», который является строковым идентификатором. A и B имеют одинаковый...
2547 просмотров
schedule
27.03.2024
Создание искрового конвейера без использования токенизатора
Я изучаю создание конвейера для запуска логистической регрессии в spark, и у меня возникла проблема с тем, есть ли способ расширить или обойти объект «Tokenizer».
По сути, проблема, с которой я сталкиваюсь, заключается в том, что токенизатор...
270 просмотров
schedule
10.10.2023
Умножение матриц в Apache Spark
Я пытаюсь выполнить умножение матриц с помощью Apache Spark и Java.
У меня 2 основных вопроса:
Как создать RDD, который может представлять матрицу в Apache Spark?
Как перемножить два таких СДР?
19420 просмотров
schedule
08.02.2024
Многоклассовая классификация Spark — Категориальные переменные
У меня есть набор данных в виде файла csv. Он имеет около 50 столбцов, большинство из которых являются категориальными. Я планирую запустить многоклассовую классификацию RandomForest с новым набором тестовых данных.
Проблема этого заключается в...
597 просмотров
schedule
24.04.2024
Проблема неизменяемости Apache Spark RDD[Vector]
Я знаю, что RDD неизменяемы, и поэтому их значение нельзя изменить, но я вижу следующее поведение:
Я написал реализацию для алгоритма FuzzyCMeans ( https://github.com/salexln/FinalProject_FCM ), и теперь я Я тестирую это, поэтому я запускаю...
290 просмотров
schedule
21.02.2024
Задание Spark использует слишком много ресурсов
Я запускаю исследование перекрестной проверки 50 контейнеров кластера пряжи. Данные составляют около 600 000 строк.
Задание работает хорошо большую часть времени, но использует много ресурсов ОЗУ и ЦП на сервере драйверов кластера (машина, на...
1812 просмотров
schedule
05.04.2024
Почему алгоритм Spark Mllib KMeans работает очень медленно?
У меня та же проблема, что и в этом сообщении , но я не У меня недостаточно баллов, чтобы добавить комментарий. В моем наборе данных 1 миллион строк, 100 столбцов. Я также использую Mllib KMeans, и это очень медленно. Работа никогда не...
3084 просмотров
schedule
14.04.2024
Связывание полученных разреженных векторов TFIDF с исходными документами в Spark
Я рассчитываю TFIDF, используя Spark с Python, используя следующий код:
hashingTF = HashingTF()
tf = hashingTF.transform(documents)
idf = IDF().fit(tf)
tfidf = idf.transform(tf)
for k in tfidf.collect():
print(k)
Я...
884 просмотров
schedule
08.12.2023
Как преобразовать искровой DataFrame в RDD mllib LabeledPoints?
Я попытался применить PCA к своим данным, а затем применить RandomForest к преобразованным данным. Тем не менее, PCA.transform(data) дал мне DataFrame, но мне нужна библиотека LabeledPoints для библиотеки RandomForest. Как я могу это сделать? Мой...
13178 просмотров
schedule
25.10.2022
Pyspark: спасти трансформеров
Я использую некоторые преобразователи Pyspark, такие как StringIndexer, StandardScaler и другие. Сначала я применяю их к тренировочному набору, а затем я хочу использовать те же объекты преобразования (те же параметры StringIndexerModel,...
1488 просмотров
schedule
29.02.2024
Вычисление сходства Spark Jaccard путем минимального хеширования медленно по сравнению с тривиальным подходом
Учитывая два огромных списка значений, я пытаюсь вычислить сходство jaccard между ними в Spark с помощью Scala.
Предположим, что colHashed1 содержит первый список значений, а colHashed2 содержит второй список.
Подход 1 (тривиальный...
3191 просмотров
schedule
15.04.2024
Дерево решений Spark с ошибкой данных LIBSVM
Я преобразовал CSV в формат данных LIBSVM с помощью Python. Формат LIBSVM показан ниже. Первый столбец является целью.
0 0:1 1:2 2:1 4:11 6:4 7:7 8:1 9:99 10:70 11:1
0 0:1 1:2 2:1 4:8 5:1 6:3 7:7 8:1 9:99 10:62 11:1
Мой код в дереве...
388 просмотров
schedule
06.11.2022
Как рассчитать потери журнала для обученной модели?
Я создаю конвейер ML для логистической регрессии.
val lr = new LogisticRegression()
lr.setMaxIter(100).setRegParam(0.001)
val pipeline = new Pipeline().setStages(Array(geoDimEncoder,clientTypeEncoder,...
1004 просмотров
schedule
17.02.2024
Перезапись потоковой модели Spark
Это так прямолинейный вопрос. Как я могу сохранить свою обновленную модель с тем же именем в том же каталоге.
org.apache.spark.sql.AnalysisException: path file:/home/mali/model/UpdatedmyRandomForestClassificationModel/data already exists
Есть...
100 просмотров
schedule
07.10.2022
Apache Spark: StackOverflowError при попытке индексации строковых столбцов
У меня есть файл csv с примерно 5000 строками и 950 столбцами. Сначала я загружаю его в DataFrame:
val data = sqlContext.read
.format(csvFormat)
.option("header", "true")
.option("inferSchema", "true")
.load(file)
.cache()
После...
5355 просмотров
schedule
04.05.2024
перекрестная проверка с трубопроводом в искре
Перекрестная проверка вне конвейера.
val naivebayes
val indexer
val pipeLine = new Pipeline().setStages(Array(indexer, naiveBayes))
val paramGrid = new ParamGridBuilder()
.addGrid(naiveBayes.smoothing, Array(1.0, 0.1, 0.3, 0.5))
.build()...
709 просмотров
schedule
04.12.2023
Spark CrossValidatorModel доступ к другим моделям, кроме bestModel?
Я использую Spark 1.6.1:
В настоящее время я использую CrossValidator для обучения моего конвейера машинного обучения с различными параметрами. После процесса обучения я могу использовать свойство bestModel CrossValidatorModel, чтобы получить...
4910 просмотров
schedule
03.07.2022