Публикации по тегам bigdata

Вопросы по теме 'bigdata'

Bigglm в R: ограничения и улучшения исходного кода (например, вызов Fortran)

Недавно я использовал R для запуска обобщенной линейной модели (GLM) в файле csv размером 100 МБ (9 миллионов строк по 5 столбцов). Содержимое этого файла включает 5 столбцов, называемых depvar, var1, var2, var3, var4, и все они распределены...

3006 просмотров

r bigdata glm

26.09.2022

На какой машине работает Редуктор Hadoop?

Если у меня есть кластер из 4 узлов, где 1 машина является именным узлом, а остальные 3 машины — узлами данных, и если я установлю количество редукторов равным 1, какой из узлов данных будет запускать редюсер?

883 просмотров

java hadoop hdfs mapreduce bigdata

28.12.2023

Hbase быстро подсчитывает количество строк

Прямо сейчас я реализую подсчет строк по ResultScanner вот так for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } Если данные достигают миллионов вычислений, время вычислений велико. Я хочу вычислять в...

116862 просмотров

hadoop bigdata hbase

18.02.2024

В JTextArea закончилось место? Сколько текста может поместиться, могу ли я поместиться больше?

Я работаю над визуализатором для шаблона, который я нашел в простых числах. Вот ссылка на математику об этом из StackMath: Шаблоны в простых числах и полный код из StackCodeReview: Оптимизация кода Кажется, моя проблема в том, что мне не хватает...

503 просмотров

java text bigdata

05.10.2023

Что происходит, когда запрос дает очень большие результаты

большинство использования / учебники / руководства объясняют, как использовать методы в контексте управляемой БД. Так что, если User.where( some condition) вернет результат в десятки или сотни, разумно будет думать, что Rails / DB / server может...

158 просмотров

postgresql sql bigdata ruby-on-rails-3

29.12.2023

Hive ParseException - не может распознать ввод рядом с «концом» «строки»

Я получаю следующую ошибку при попытке создать таблицу Hive из существующей таблицы DynamoDB: NoViableAltException(88@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123) at...

111515 просмотров

amazon-dynamodb hadoop hive mapreduce bigdata

23.02.2024

Алгоритм подсчета больших данных в R

У меня есть большой фрейм данных с почти 1 млн строк (транзакций) и 2600 столбцов (элементов). Значения в наборе данных - это 1 и NA. Тип данных всех значений фактор. Я хочу добавить новый столбец в конец кадра данных, который показывает сумму всех...

196 просмотров

r bigdata algorithm counting

27.09.2022

Только для чтения n-й столбец текстового файла, который не имеет заголовка с R и sqldf

У меня есть аналогичная проблема, подобная этому вопросу: выбор каждый N-й столбец при использовании SQLDF или read.csv.sql Я хочу прочитать некоторые столбцы больших файлов (таблица из 150 строк,> 500 000 столбцов, разделенных пробелами,...

439 просмотров

r sql bigdata sqldf read.table

22.12.2023

Методы выборки данных для Netezza/больших баз данных

Мы используем IBM Netezza. У нас есть таблица, которая ежедневно получает почти 10 миллиардов записей, которые нам нужно обработать. Одно из полей таблицы идентифицирует пользователя через 38-символьную цифровую строку, назовем ее UserID. У нас эта...

1300 просмотров

database data-warehouse bigdata netezza random-sample

16.11.2023

Альтернативы для проблем, связанных с индексацией очень больших массивов, сохраняющих очень большие значения

Пожалуйста, предложите некоторые альтернативы для решения проблем, в которых решение грубой силы использует массивы с очень большим индексом и хранит очень большие значения (очень большие значения за пределами диапазона INT ). Я использую Java для...

555 просмотров

java arrays bigdata data-structures

07.09.2022

хранить уникальных посетителей в распределенной базе данных

У меня есть такие структурные данные (веб-посетители) List(p1,p1,p1,p2,p3,p3,p4,p4,p5...) один посетитель может посетить 1 --> много раз объемы данных: около 100 млн/день Как насчет того, в какой базе данных я могу хранить...

222 просмотров

database cassandra bigdata real-time-data

14.02.2024

Задержка для набора данных в Oozie Coordinator

Нужна работа, которая выполняется в зависимости от наличия наборов данных, созданных в разделах Hive. Я заставил это работать, но теперь я хочу, чтобы все мои каналы запускались в номинальное время, но один всегда запускался с задержкой на день....

277 просмотров

hadoop hdfs bigdata oozie

10.02.2024

RDD имеет только значение первого столбца: Hbase, PySpark

Мы читаем таблицу Hbase с помощью Pyspark, используя следующие команды. from pyspark.sql.types import * host=<Host Name> port=<Port Number> keyConv =...

2267 просмотров

python pyspark hadoop bigdata hbase

01.02.2024

Подавление запятой внутри двойных кавычек при чтении файла CSV в файл .Xdf Использование функции rxImport

Я пытаюсь преобразовать большой файл .CSV в файл .Xdf , используя функцию rxImport() с приведенным ниже кодом: rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv", outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...

268 просмотров

r csv bigdata revolution-r

23.12.2023

Создание таблиц Hive с помощью Informatica Big Data Edition

Я старый специалист по Informatica PowerCenter 8 и возглавляю команду, использующую Informatica Big Data Edition 9.5.1. У меня вопрос по Hive. Может ли Informatica создавать таблицы Hive или их нужно создавать отдельно? Если их можно построить,...

1659 просмотров

hadoop hive bigdata informatica

28.10.2023

семантическое исключение улья при вставке данных

Я создал таблицу-улей с помощью ORC. Если я вставляю данные из консоли улья, это работает отлично, но если я вставляю данные из кода Jdbc, это вызывает семантическое исключение улья. Ошибка Мой запрос вставки любая помощь будет...

9664 просмотров

hadoop hive jdbc bigdata orc

24.11.2023

Запросы Hive, создающие неуправляемые промежуточные каталоги

Мы используем дистрибутив HDP Hadoop v2.3.2, мы имеем дело с внешними таблицами Hive, и они ежедневно запрашиваются. Через несколько дней после запуска процесса каталоги данных содержат множество промежуточных каталогов в формате:...

7695 просмотров

hadoop hive bigdata

18.03.2024

Сохранение запросов куста

Мне нужно знать, как мы можем сохранить запрос, который я написал в командной строке, точно так же, как мы это делаем в sql (мы используем ctrl + S на сервере sql). Я слышал, что запросы hive QL используют расширение .q или .hql. Есть ли...

3002 просмотров

hadoop hive bigdata hiveql

02.10.2023

Сходства PySpark, полученные с помощью IndexedRowMatrix().columnSimilarities(), недоступны: INFO ExternalSorter: Thread * пролив карты в памяти

Когда я запускаю код: from pyspark import SparkContext from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating from random import random import os from scipy.sparse import csc_matrix import pandas as pd from...

1082 просмотров

python apache-spark pyspark bigdata recommendation-engine

17.10.2023

Impala: как создать материализованное представление в impala?

Можем ли мы создавать материализованные представления в Impala? Если нет, то какое альтернативное решение для лучшей производительности просмотра.

2478 просмотров

analytics bigdata impala

14.08.2022

Вопросы по теме 'bigdata'

Похожие вопросы