Întrebări înrudite 'bigdata'

Bigglm în R: limitări și îmbunătățiri ale codului sursă (de exemplu, apel la Fortran)
Recent, am folosit R pentru a rula un model liniar generalizat (GLM) pe un fișier csv de 100 mb (9 milioane de rânduri pe 5 coloane). Conținutul acestui fișier include 5 coloane numite depvar, var1,var2,var3,var4 și toate sunt distribuite aleatoriu,...
3006 vederi
schedule 26.09.2022

Pe ce mașină rulează Reducetorul Hadoop-ului
Dacă am un cluster cu 4 noduri, unde 1 mașină este namenode și restul de 3 mașini sunt datanodes, iar dacă am setat numărul de reductoare la 1, care dintre nodurile de date va rula reductorul?
883 vederi
schedule 28.12.2023

Hbase numără rapid numărul de rânduri
Chiar acum implementez numărul de rânduri peste ResultScanner astfel for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } Dacă datele ajung la milioane de timp, calculul este mare. Vreau să calculez în timp...
116862 vederi
schedule 18.02.2024

JTextArea a rămas fără cameră? Cât text poate încăpea, pot să încap mai mult decât atât?
Lucrez la un vizualizator pentru un model pe care l-am găsit în numere prime. Iată un link către matematica despre asta de la StackMath: Patterns In Primes și codul complet din StackCodeReview: Optimizarea codului Problema mea pare să fie că...
503 vederi
schedule 05.10.2023

Ce se întâmplă atunci când o interogare obține rezultate foarte mari
cele mai multe utilizări/tutoriale/manuale explică modul de utilizare a metodelor în contextul unei baze de date gestionabile. Deci, dacă User.where( some condition) ar returna un rezultat de zeci sau sute, ar fi rezonabil să ne gândim că...
158 vederi
schedule 29.12.2023

Hive ParseException - nu poate recunoaște intrarea lângă „end” „șir”
Primesc următoarea eroare când încerc să creez un tabel Hive dintr-un tabel DynamoDB existent: NoViableAltException(88@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123) at...
111515 vederi

Algoritm de numărare pentru date mari în R
Am un cadru mare de date cu aproape 1 milion de rânduri (tranzacții) și 2600 de coloane (articole). Valorile din setul de date sunt 1 și NA. Tipul de date al tuturor valorilor este factor. Vreau să adaug o nouă coloană la sfârșitul cadrului de date...
196 vederi
schedule 27.09.2022

Citiți doar a n-a coloană a unui fișier text care nu are antet cu R și sqldf
Am o problemă similară ca această întrebare: selectarea fiecare coloană a N-a în utilizarea SQLDF sau read.csv.sql Vreau să citesc niște coloane de fișiere mari (tabel de 150 de rânduri, > 500.000 de coloane, spațiu separat, umplut cu date...
439 vederi
schedule 22.12.2023

Tehnici de eșantionare a datelor pentru baze de date Netezza/large
Folosim Netezza de la IBM. Avem un tabel care primește zilnic aproape 10 miliarde de înregistrări pe care trebuie să le procesăm. Unul dintre câmpurile tabelului identifică un utilizator printr-un șir numeric de 38 de caractere, să-l numim UserID....
1300 vederi

Alternative pentru probleme care implică indexarea matricei foarte mari care stochează valori foarte mari
Vă rugăm să sugerați câteva alternative pentru rezolvarea problemelor în care soluția de forță brută utilizează tablouri cu index foarte mare și stochează valori foarte mari (foarte mare înseamnă dincolo de intervalul INT ). Folosesc Java pentru a...
555 vederi
schedule 07.09.2022

stocați vizitatori unici într-o bază de date distribuită
Am astfel de date de structură ( vizitatori web ) List(p1,p1,p1,p2,p3,p3,p4,p4,p5...) un vizitator poate vizita de 1 --> de multe ori volume de date: aproximativ 100 milioane / zi Ce zici de sau ce db pot stoca vizitatori unici...
222 vederi

Latența pentru setul de date în Oozie Coordinator
Vreau să avem o lucrare care să ruleze pe baza disponibilității seturilor de date realizate în partițiile Hive. Am făcut acest lucru să funcționeze, dar acum vreau să funcționeze astfel încât toate fluxurile mele să ruleze la ora nominală, dar unul...
277 vederi
schedule 10.02.2024

RDD are doar valoarea primei coloane: Hbase, PySpark
Citim un tabel Hbase cu Pyspark folosind următoarele comenzi. from pyspark.sql.types import * host=<Host Name> port=<Port Number> keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv...
2267 vederi
schedule 01.02.2024

Suprimarea virgulelor din ghilimele duble în timp ce citiți fișierul CSV în fișierul .Xdf Folosind funcția rxImport
Încerc să convertesc un fișier .CSV mare într-un fișier .Xdf utilizând funcția rxImport() cu codul de mai jos: rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv", outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...
268 vederi
schedule 23.12.2023

Crearea tabelelor Hive prin Informatica Big Data Edition
Sunt un bătrân Informatica PowerCenter 8 și conduc o echipă care folosește Informatica Big Data Edition 9.5.1. Am o întrebare despre Hive. Informatica poate construi tabele Hive sau trebuie construite separat? Dacă pot fi construite când „Nu...
1659 vederi
schedule 28.10.2023

hive excepție semantică în timpul inserării datelor
Am creat un tabel de stup cu ORC. Dacă inserez date din consola stupului, funcționează perfect. Dar dacă inserez date din codul Jdbc. Aruncă excepția semantică a stupului. Eroare Inserați interogarea mea orice ajutor va fi...
9664 vederi
schedule 24.11.2023

Se salvează interogările stupului
Trebuie să știu cum putem stoca o interogare pe care am scris-o într-o linie de comandă la fel cum facem în sql (folosim ctrl+S în sql server). Am auzit că interogările Hive QL folosesc extensia .q sau .hql. Există vreo posibilitate să-mi salvez...
3002 vederi
schedule 02.10.2023

Asemănările PySpark preluate de IndexedRowMatrix().columnSimilarities() nu sunt accesibile: INFO ExternalSorter: Thread * vărsarea hărții în memorie
Când rulez codul: from pyspark import SparkContext from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating from random import random import os from scipy.sparse import csc_matrix import pandas as pd from...
1082 vederi

Impala: cum se creează o vedere materializată în impala?
Putem crea vederi materializate în Impala? Dacă nu, care este soluția alternativă pentru o performanță mai bună a vederii.
2478 vederi
schedule 14.08.2022

Inginerie de caracteristici folosind PostgreSQL pe un set de date mare (~3 milioane de intrări)
Am un set de date de ~3 milioane de jocuri de șah (coloanele existente includ numele jucătorilor, data, rezultatul și numele turneului). Vreau să folosesc Random Forest pentru a prezice rezultatele jocurilor de șah. În acest scop, vreau să fac...
172 vederi