Вопросы по теме 'bigdata'
Bigglm в R: ограничения и улучшения исходного кода (например, вызов Fortran)
Недавно я использовал R для запуска обобщенной линейной модели (GLM) в файле csv размером 100 МБ (9 миллионов строк по 5 столбцов). Содержимое этого файла включает 5 столбцов, называемых depvar, var1, var2, var3, var4, и все они распределены...
3006 просмотров
schedule
26.09.2022
На какой машине работает Редуктор Hadoop?
Если у меня есть кластер из 4 узлов, где 1 машина является именным узлом, а остальные 3 машины — узлами данных, и если я установлю количество редукторов равным 1, какой из узлов данных будет запускать редюсер?
883 просмотров
schedule
28.12.2023
Hbase быстро подсчитывает количество строк
Прямо сейчас я реализую подсчет строк по ResultScanner вот так
for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
number++;
}
Если данные достигают миллионов вычислений, время вычислений велико. Я хочу вычислять в...
116862 просмотров
schedule
18.02.2024
В JTextArea закончилось место? Сколько текста может поместиться, могу ли я поместиться больше?
Я работаю над визуализатором для шаблона, который я нашел в простых числах. Вот ссылка на математику об этом из StackMath: Шаблоны в простых числах и полный код из StackCodeReview: Оптимизация кода
Кажется, моя проблема в том, что мне не хватает...
503 просмотров
schedule
05.10.2023
Что происходит, когда запрос дает очень большие результаты
большинство использования / учебники / руководства объясняют, как использовать методы в контексте управляемой БД.
Так что, если User.where( some condition) вернет результат в десятки или сотни, разумно будет думать, что Rails / DB / server может...
158 просмотров
schedule
29.12.2023
Hive ParseException - не может распознать ввод рядом с «концом» «строки»
Я получаю следующую ошибку при попытке создать таблицу Hive из существующей таблицы DynamoDB:
NoViableAltException(88@[])
at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123)
at...
111515 просмотров
schedule
23.02.2024
Алгоритм подсчета больших данных в R
У меня есть большой фрейм данных с почти 1 млн строк (транзакций) и 2600 столбцов (элементов). Значения в наборе данных - это 1 и NA. Тип данных всех значений фактор. Я хочу добавить новый столбец в конец кадра данных, который показывает сумму всех...
196 просмотров
schedule
27.09.2022
Только для чтения n-й столбец текстового файла, который не имеет заголовка с R и sqldf
У меня есть аналогичная проблема, подобная этому вопросу: выбор каждый N-й столбец при использовании SQLDF или read.csv.sql
Я хочу прочитать некоторые столбцы больших файлов (таблица из 150 строк,> 500 000 столбцов, разделенных пробелами,...
439 просмотров
schedule
22.12.2023
Методы выборки данных для Netezza/больших баз данных
Мы используем IBM Netezza. У нас есть таблица, которая ежедневно получает почти 10 миллиардов записей, которые нам нужно обработать. Одно из полей таблицы идентифицирует пользователя через 38-символьную цифровую строку, назовем ее UserID. У нас эта...
1300 просмотров
schedule
16.11.2023
Альтернативы для проблем, связанных с индексацией очень больших массивов, сохраняющих очень большие значения
Пожалуйста, предложите некоторые альтернативы для решения проблем, в которых решение грубой силы использует массивы с очень большим индексом и хранит очень большие значения (очень большие значения за пределами диапазона INT ). Я использую Java для...
555 просмотров
schedule
07.09.2022
хранить уникальных посетителей в распределенной базе данных
У меня есть такие структурные данные (веб-посетители)
List(p1,p1,p1,p2,p3,p3,p4,p4,p5...)
один посетитель может посетить 1 --> много раз
объемы данных: около 100 млн/день
Как насчет того, в какой базе данных я могу хранить...
222 просмотров
schedule
14.02.2024
Задержка для набора данных в Oozie Coordinator
Нужна работа, которая выполняется в зависимости от наличия наборов данных, созданных в разделах Hive. Я заставил это работать, но теперь я хочу, чтобы все мои каналы запускались в номинальное время, но один всегда запускался с задержкой на день....
277 просмотров
schedule
10.02.2024
RDD имеет только значение первого столбца: Hbase, PySpark
Мы читаем таблицу Hbase с помощью Pyspark, используя следующие команды.
from pyspark.sql.types import *
host=<Host Name>
port=<Port Number>
keyConv =...
2267 просмотров
schedule
01.02.2024
Подавление запятой внутри двойных кавычек при чтении файла CSV в файл .Xdf Использование функции rxImport
Я пытаюсь преобразовать большой файл .CSV в файл .Xdf , используя функцию rxImport() с приведенным ниже кодом:
rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv",
outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...
268 просмотров
schedule
23.12.2023
Создание таблиц Hive с помощью Informatica Big Data Edition
Я старый специалист по Informatica PowerCenter 8 и возглавляю команду, использующую Informatica Big Data Edition 9.5.1. У меня вопрос по Hive. Может ли Informatica создавать таблицы Hive или их нужно создавать отдельно? Если их можно построить,...
1659 просмотров
schedule
28.10.2023
семантическое исключение улья при вставке данных
Я создал таблицу-улей с помощью ORC. Если я вставляю данные из консоли улья, это работает отлично, но если я вставляю данные из кода Jdbc, это вызывает семантическое исключение улья.
Ошибка
Мой запрос вставки
любая помощь будет...
9664 просмотров
schedule
24.11.2023
Запросы Hive, создающие неуправляемые промежуточные каталоги
Мы используем дистрибутив HDP Hadoop v2.3.2, мы имеем дело с внешними таблицами Hive, и они ежедневно запрашиваются.
Через несколько дней после запуска процесса каталоги данных содержат множество промежуточных каталогов в формате:...
7695 просмотров
schedule
18.03.2024
Сохранение запросов куста
Мне нужно знать, как мы можем сохранить запрос, который я написал в командной строке, точно так же, как мы это делаем в sql (мы используем ctrl + S на сервере sql).
Я слышал, что запросы hive QL используют расширение .q или .hql. Есть ли...
3002 просмотров
schedule
02.10.2023
Сходства PySpark, полученные с помощью IndexedRowMatrix().columnSimilarities(), недоступны: INFO ExternalSorter: Thread * пролив карты в памяти
Когда я запускаю код:
from pyspark import SparkContext
from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
from random import random
import os
from scipy.sparse import csc_matrix
import pandas as pd
from...
1082 просмотров
schedule
17.10.2023
Impala: как создать материализованное представление в impala?
Можем ли мы создавать материализованные представления в Impala? Если нет, то какое альтернативное решение для лучшей производительности просмотра.
2478 просмотров
schedule
14.08.2022