Вопросы по теме 'bigdata'

Bigglm в R: ограничения и улучшения исходного кода (например, вызов Fortran)
Недавно я использовал R для запуска обобщенной линейной модели (GLM) в файле csv размером 100 МБ (9 миллионов строк по 5 столбцов). Содержимое этого файла включает 5 столбцов, называемых depvar, var1, var2, var3, var4, и все они распределены...
3006 просмотров
schedule 26.09.2022

На какой машине работает Редуктор Hadoop?
Если у меня есть кластер из 4 узлов, где 1 машина является именным узлом, а остальные 3 машины — узлами данных, и если я установлю количество редукторов равным 1, какой из узлов данных будет запускать редюсер?
883 просмотров
schedule 28.12.2023

Hbase быстро подсчитывает количество строк
Прямо сейчас я реализую подсчет строк по ResultScanner вот так for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } Если данные достигают миллионов вычислений, время вычислений велико. Я хочу вычислять в...
116862 просмотров
schedule 18.02.2024

В JTextArea закончилось место? Сколько текста может поместиться, могу ли я поместиться больше?
Я работаю над визуализатором для шаблона, который я нашел в простых числах. Вот ссылка на математику об этом из StackMath: Шаблоны в простых числах и полный код из StackCodeReview: Оптимизация кода Кажется, моя проблема в том, что мне не хватает...
503 просмотров
schedule 05.10.2023

Что происходит, когда запрос дает очень большие результаты
большинство использования / учебники / руководства объясняют, как использовать методы в контексте управляемой БД. Так что, если User.where( some condition) вернет результат в десятки или сотни, разумно будет думать, что Rails / DB / server может...
158 просмотров
schedule 29.12.2023

Hive ParseException - не может распознать ввод рядом с «концом» «строки»
Я получаю следующую ошибку при попытке создать таблицу Hive из существующей таблицы DynamoDB: NoViableAltException(88@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123) at...
111515 просмотров

Алгоритм подсчета больших данных в R
У меня есть большой фрейм данных с почти 1 млн строк (транзакций) и 2600 столбцов (элементов). Значения в наборе данных - это 1 и NA. Тип данных всех значений фактор. Я хочу добавить новый столбец в конец кадра данных, который показывает сумму всех...
196 просмотров
schedule 27.09.2022

Только для чтения n-й столбец текстового файла, который не имеет заголовка с R и sqldf
У меня есть аналогичная проблема, подобная этому вопросу: выбор каждый N-й столбец при использовании SQLDF или read.csv.sql Я хочу прочитать некоторые столбцы больших файлов (таблица из 150 строк,> 500 000 столбцов, разделенных пробелами,...
439 просмотров
schedule 22.12.2023

Методы выборки данных для Netezza/больших баз данных
Мы используем IBM Netezza. У нас есть таблица, которая ежедневно получает почти 10 миллиардов записей, которые нам нужно обработать. Одно из полей таблицы идентифицирует пользователя через 38-символьную цифровую строку, назовем ее UserID. У нас эта...
1300 просмотров

Альтернативы для проблем, связанных с индексацией очень больших массивов, сохраняющих очень большие значения
Пожалуйста, предложите некоторые альтернативы для решения проблем, в которых решение грубой силы использует массивы с очень большим индексом и хранит очень большие значения (очень большие значения за пределами диапазона INT ). Я использую Java для...
555 просмотров
schedule 07.09.2022

хранить уникальных посетителей в распределенной базе данных
У меня есть такие структурные данные (веб-посетители) List(p1,p1,p1,p2,p3,p3,p4,p4,p5...) один посетитель может посетить 1 --> много раз объемы данных: около 100 млн/день Как насчет того, в какой базе данных я могу хранить...
222 просмотров

Задержка для набора данных в Oozie Coordinator
Нужна работа, которая выполняется в зависимости от наличия наборов данных, созданных в разделах Hive. Я заставил это работать, но теперь я хочу, чтобы все мои каналы запускались в номинальное время, но один всегда запускался с задержкой на день....
277 просмотров
schedule 10.02.2024

RDD имеет только значение первого столбца: Hbase, PySpark
Мы читаем таблицу Hbase с помощью Pyspark, используя следующие команды. from pyspark.sql.types import * host=<Host Name> port=<Port Number> keyConv =...
2267 просмотров
schedule 01.02.2024

Подавление запятой внутри двойных кавычек при чтении файла CSV в файл .Xdf Использование функции rxImport
Я пытаюсь преобразовать большой файл .CSV в файл .Xdf , используя функцию rxImport() с приведенным ниже кодом: rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv", outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...
268 просмотров
schedule 23.12.2023

Создание таблиц Hive с помощью Informatica Big Data Edition
Я старый специалист по Informatica PowerCenter 8 и возглавляю команду, использующую Informatica Big Data Edition 9.5.1. У меня вопрос по Hive. Может ли Informatica создавать таблицы Hive или их нужно создавать отдельно? Если их можно построить,...
1659 просмотров
schedule 28.10.2023

семантическое исключение улья при вставке данных
Я создал таблицу-улей с помощью ORC. Если я вставляю данные из консоли улья, это работает отлично, но если я вставляю данные из кода Jdbc, это вызывает семантическое исключение улья. Ошибка Мой запрос вставки любая помощь будет...
9664 просмотров
schedule 24.11.2023

Запросы Hive, создающие неуправляемые промежуточные каталоги
Мы используем дистрибутив HDP Hadoop v2.3.2, мы имеем дело с внешними таблицами Hive, и они ежедневно запрашиваются. Через несколько дней после запуска процесса каталоги данных содержат множество промежуточных каталогов в формате:...
7695 просмотров
schedule 18.03.2024

Сохранение запросов куста
Мне нужно знать, как мы можем сохранить запрос, который я написал в командной строке, точно так же, как мы это делаем в sql (мы используем ctrl + S на сервере sql). Я слышал, что запросы hive QL используют расширение .q или .hql. Есть ли...
3002 просмотров
schedule 02.10.2023

Сходства PySpark, полученные с помощью IndexedRowMatrix().columnSimilarities(), недоступны: INFO ExternalSorter: Thread * пролив карты в памяти
Когда я запускаю код: from pyspark import SparkContext from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating from random import random import os from scipy.sparse import csc_matrix import pandas as pd from...
1082 просмотров

Impala: как создать материализованное представление в impala?
Можем ли мы создавать материализованные представления в Impala? Если нет, то какое альтернативное решение для лучшей производительности просмотра.
2478 просмотров
schedule 14.08.2022