Întrebări înrudite 'bigdata'
Bigglm în R: limitări și îmbunătățiri ale codului sursă (de exemplu, apel la Fortran)
Recent, am folosit R pentru a rula un model liniar generalizat (GLM) pe un fișier csv de 100 mb (9 milioane de rânduri pe 5 coloane). Conținutul acestui fișier include 5 coloane numite depvar, var1,var2,var3,var4 și toate sunt distribuite aleatoriu,...
3006 vederi
schedule
26.09.2022
Pe ce mașină rulează Reducetorul Hadoop-ului
Dacă am un cluster cu 4 noduri, unde 1 mașină este namenode și restul de 3 mașini sunt datanodes, iar dacă am setat numărul de reductoare la 1, care dintre nodurile de date va rula reductorul?
883 vederi
schedule
28.12.2023
Hbase numără rapid numărul de rânduri
Chiar acum implementez numărul de rânduri peste ResultScanner astfel
for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
number++;
}
Dacă datele ajung la milioane de timp, calculul este mare. Vreau să calculez în timp...
116862 vederi
schedule
18.02.2024
JTextArea a rămas fără cameră? Cât text poate încăpea, pot să încap mai mult decât atât?
Lucrez la un vizualizator pentru un model pe care l-am găsit în numere prime. Iată un link către matematica despre asta de la StackMath: Patterns In Primes și codul complet din StackCodeReview: Optimizarea codului
Problema mea pare să fie că...
503 vederi
schedule
05.10.2023
Ce se întâmplă atunci când o interogare obține rezultate foarte mari
cele mai multe utilizări/tutoriale/manuale explică modul de utilizare a metodelor în contextul unei baze de date gestionabile.
Deci, dacă User.where( some condition) ar returna un rezultat de zeci sau sute, ar fi rezonabil să ne gândim că...
158 vederi
schedule
29.12.2023
Hive ParseException - nu poate recunoaște intrarea lângă „end” „șir”
Primesc următoarea eroare când încerc să creez un tabel Hive dintr-un tabel DynamoDB existent:
NoViableAltException(88@[])
at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123)
at...
111515 vederi
schedule
23.02.2024
Algoritm de numărare pentru date mari în R
Am un cadru mare de date cu aproape 1 milion de rânduri (tranzacții) și 2600 de coloane (articole). Valorile din setul de date sunt 1 și NA. Tipul de date al tuturor valorilor este factor. Vreau să adaug o nouă coloană la sfârșitul cadrului de date...
196 vederi
schedule
27.09.2022
Citiți doar a n-a coloană a unui fișier text care nu are antet cu R și sqldf
Am o problemă similară ca această întrebare: selectarea fiecare coloană a N-a în utilizarea SQLDF sau read.csv.sql
Vreau să citesc niște coloane de fișiere mari (tabel de 150 de rânduri, > 500.000 de coloane, spațiu separat, umplut cu date...
439 vederi
schedule
22.12.2023
Tehnici de eșantionare a datelor pentru baze de date Netezza/large
Folosim Netezza de la IBM. Avem un tabel care primește zilnic aproape 10 miliarde de înregistrări pe care trebuie să le procesăm. Unul dintre câmpurile tabelului identifică un utilizator printr-un șir numeric de 38 de caractere, să-l numim UserID....
1300 vederi
schedule
16.11.2023
Alternative pentru probleme care implică indexarea matricei foarte mari care stochează valori foarte mari
Vă rugăm să sugerați câteva alternative pentru rezolvarea problemelor în care soluția de forță brută utilizează tablouri cu index foarte mare și stochează valori foarte mari (foarte mare înseamnă dincolo de intervalul INT ). Folosesc Java pentru a...
555 vederi
schedule
07.09.2022
stocați vizitatori unici într-o bază de date distribuită
Am astfel de date de structură ( vizitatori web )
List(p1,p1,p1,p2,p3,p3,p4,p4,p5...)
un vizitator poate vizita de 1 --> de multe ori
volume de date: aproximativ 100 milioane / zi
Ce zici de sau ce db pot stoca vizitatori unici...
222 vederi
schedule
14.02.2024
Latența pentru setul de date în Oozie Coordinator
Vreau să avem o lucrare care să ruleze pe baza disponibilității seturilor de date realizate în partițiile Hive. Am făcut acest lucru să funcționeze, dar acum vreau să funcționeze astfel încât toate fluxurile mele să ruleze la ora nominală, dar unul...
277 vederi
schedule
10.02.2024
RDD are doar valoarea primei coloane: Hbase, PySpark
Citim un tabel Hbase cu Pyspark folosind următoarele comenzi.
from pyspark.sql.types import *
host=<Host Name>
port=<Port Number>
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv...
2267 vederi
schedule
01.02.2024
Suprimarea virgulelor din ghilimele duble în timp ce citiți fișierul CSV în fișierul .Xdf Folosind funcția rxImport
Încerc să convertesc un fișier .CSV mare într-un fișier .Xdf utilizând funcția rxImport() cu codul de mai jos:
rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv",
outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...
268 vederi
schedule
23.12.2023
Crearea tabelelor Hive prin Informatica Big Data Edition
Sunt un bătrân Informatica PowerCenter 8 și conduc o echipă care folosește Informatica Big Data Edition 9.5.1. Am o întrebare despre Hive. Informatica poate construi tabele Hive sau trebuie construite separat? Dacă pot fi construite când „Nu...
1659 vederi
schedule
28.10.2023
hive excepție semantică în timpul inserării datelor
Am creat un tabel de stup cu ORC. Dacă inserez date din consola stupului, funcționează perfect. Dar dacă inserez date din codul Jdbc. Aruncă excepția semantică a stupului.
Eroare
Inserați interogarea mea
orice ajutor va fi...
9664 vederi
schedule
24.11.2023
Se salvează interogările stupului
Trebuie să știu cum putem stoca o interogare pe care am scris-o într-o linie de comandă la fel cum facem în sql (folosim ctrl+S în sql server).
Am auzit că interogările Hive QL folosesc extensia .q sau .hql. Există vreo posibilitate să-mi salvez...
3002 vederi
schedule
02.10.2023
Asemănările PySpark preluate de IndexedRowMatrix().columnSimilarities() nu sunt accesibile: INFO ExternalSorter: Thread * vărsarea hărții în memorie
Când rulez codul:
from pyspark import SparkContext
from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
from random import random
import os
from scipy.sparse import csc_matrix
import pandas as pd
from...
1082 vederi
schedule
17.10.2023
Impala: cum se creează o vedere materializată în impala?
Putem crea vederi materializate în Impala? Dacă nu, care este soluția alternativă pentru o performanță mai bună a vederii.
2478 vederi
schedule
14.08.2022
Inginerie de caracteristici folosind PostgreSQL pe un set de date mare (~3 milioane de intrări)
Am un set de date de ~3 milioane de jocuri de șah (coloanele existente includ numele jucătorilor, data, rezultatul și numele turneului). Vreau să folosesc Random Forest pentru a prezice rezultatele jocurilor de șah.
În acest scop, vreau să fac...
172 vederi
schedule
06.12.2023