Publicații prin etichete bigdata

Întrebări înrudite 'bigdata'

Bigglm în R: limitări și îmbunătățiri ale codului sursă (de exemplu, apel la Fortran)

Recent, am folosit R pentru a rula un model liniar generalizat (GLM) pe un fișier csv de 100 mb (9 milioane de rânduri pe 5 coloane). Conținutul acestui fișier include 5 coloane numite depvar, var1,var2,var3,var4 și toate sunt distribuite aleatoriu,...

3006 vederi

r bigdata glm

26.09.2022

Pe ce mașină rulează Reducetorul Hadoop-ului

Dacă am un cluster cu 4 noduri, unde 1 mașină este namenode și restul de 3 mașini sunt datanodes, iar dacă am setat numărul de reductoare la 1, care dintre nodurile de date va rula reductorul?

883 vederi

java hadoop hdfs mapreduce bigdata

28.12.2023

Hbase numără rapid numărul de rânduri

Chiar acum implementez numărul de rânduri peste ResultScanner astfel for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } Dacă datele ajung la milioane de timp, calculul este mare. Vreau să calculez în timp...

116862 vederi

hadoop bigdata hbase

18.02.2024

JTextArea a rămas fără cameră? Cât text poate încăpea, pot să încap mai mult decât atât?

Lucrez la un vizualizator pentru un model pe care l-am găsit în numere prime. Iată un link către matematica despre asta de la StackMath: Patterns In Primes și codul complet din StackCodeReview: Optimizarea codului Problema mea pare să fie că...

503 vederi

java text bigdata

05.10.2023

Ce se întâmplă atunci când o interogare obține rezultate foarte mari

cele mai multe utilizări/tutoriale/manuale explică modul de utilizare a metodelor în contextul unei baze de date gestionabile. Deci, dacă User.where( some condition) ar returna un rezultat de zeci sau sute, ar fi rezonabil să ne gândim că...

158 vederi

postgresql sql bigdata ruby-on-rails-3

29.12.2023

Hive ParseException - nu poate recunoaște intrarea lângă „end” „șir”

Primesc următoarea eroare când încerc să creez un tabel Hive dintr-un tabel DynamoDB existent: NoViableAltException(88@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123) at...

111515 vederi

amazon-dynamodb hadoop hive mapreduce bigdata

23.02.2024

Algoritm de numărare pentru date mari în R

Am un cadru mare de date cu aproape 1 milion de rânduri (tranzacții) și 2600 de coloane (articole). Valorile din setul de date sunt 1 și NA. Tipul de date al tuturor valorilor este factor. Vreau să adaug o nouă coloană la sfârșitul cadrului de date...

196 vederi

r bigdata algorithm counting

27.09.2022

Citiți doar a n-a coloană a unui fișier text care nu are antet cu R și sqldf

Am o problemă similară ca această întrebare: selectarea fiecare coloană a N-a în utilizarea SQLDF sau read.csv.sql Vreau să citesc niște coloane de fișiere mari (tabel de 150 de rânduri, > 500.000 de coloane, spațiu separat, umplut cu date...

439 vederi

r sql bigdata sqldf read.table

22.12.2023

Tehnici de eșantionare a datelor pentru baze de date Netezza/large

Folosim Netezza de la IBM. Avem un tabel care primește zilnic aproape 10 miliarde de înregistrări pe care trebuie să le procesăm. Unul dintre câmpurile tabelului identifică un utilizator printr-un șir numeric de 38 de caractere, să-l numim UserID....

1300 vederi

database data-warehouse bigdata netezza random-sample

16.11.2023

Alternative pentru probleme care implică indexarea matricei foarte mari care stochează valori foarte mari

Vă rugăm să sugerați câteva alternative pentru rezolvarea problemelor în care soluția de forță brută utilizează tablouri cu index foarte mare și stochează valori foarte mari (foarte mare înseamnă dincolo de intervalul INT ). Folosesc Java pentru a...

555 vederi

java arrays bigdata data-structures

07.09.2022

stocați vizitatori unici într-o bază de date distribuită

Am astfel de date de structură ( vizitatori web ) List(p1,p1,p1,p2,p3,p3,p4,p4,p5...) un vizitator poate vizita de 1 --> de multe ori volume de date: aproximativ 100 milioane / zi Ce zici de sau ce db pot stoca vizitatori unici...

222 vederi

database cassandra bigdata real-time-data

14.02.2024

Latența pentru setul de date în Oozie Coordinator

Vreau să avem o lucrare care să ruleze pe baza disponibilității seturilor de date realizate în partițiile Hive. Am făcut acest lucru să funcționeze, dar acum vreau să funcționeze astfel încât toate fluxurile mele să ruleze la ora nominală, dar unul...

277 vederi

hadoop hdfs bigdata oozie

10.02.2024

RDD are doar valoarea primei coloane: Hbase, PySpark

Citim un tabel Hbase cu Pyspark folosind următoarele comenzi. from pyspark.sql.types import * host=<Host Name> port=<Port Number> keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" valueConv...

2267 vederi

python pyspark hadoop bigdata hbase

01.02.2024

Suprimarea virgulelor din ghilimele duble în timp ce citiți fișierul CSV în fișierul .Xdf Folosind funcția rxImport

Încerc să convertesc un fișier .CSV mare într-un fișier .Xdf utilizând funcția rxImport() cu codul de mai jos: rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv", outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...

268 vederi

r csv bigdata revolution-r

23.12.2023

Crearea tabelelor Hive prin Informatica Big Data Edition

Sunt un bătrân Informatica PowerCenter 8 și conduc o echipă care folosește Informatica Big Data Edition 9.5.1. Am o întrebare despre Hive. Informatica poate construi tabele Hive sau trebuie construite separat? Dacă pot fi construite când „Nu...

1659 vederi

hadoop hive bigdata informatica

28.10.2023

hive excepție semantică în timpul inserării datelor

Am creat un tabel de stup cu ORC. Dacă inserez date din consola stupului, funcționează perfect. Dar dacă inserez date din codul Jdbc. Aruncă excepția semantică a stupului. Eroare Inserați interogarea mea orice ajutor va fi...

9664 vederi

hadoop hive jdbc bigdata orc

24.11.2023

Se salvează interogările stupului

Trebuie să știu cum putem stoca o interogare pe care am scris-o într-o linie de comandă la fel cum facem în sql (folosim ctrl+S în sql server). Am auzit că interogările Hive QL folosesc extensia .q sau .hql. Există vreo posibilitate să-mi salvez...

3002 vederi

hadoop hive bigdata hiveql

02.10.2023

Asemănările PySpark preluate de IndexedRowMatrix().columnSimilarities() nu sunt accesibile: INFO ExternalSorter: Thread * vărsarea hărții în memorie

Când rulez codul: from pyspark import SparkContext from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating from random import random import os from scipy.sparse import csc_matrix import pandas as pd from...

1082 vederi

python apache-spark pyspark bigdata recommendation-engine

17.10.2023

Impala: cum se creează o vedere materializată în impala?

Putem crea vederi materializate în Impala? Dacă nu, care este soluția alternativă pentru o performanță mai bună a vederii.

2478 vederi

analytics bigdata impala

14.08.2022

Inginerie de caracteristici folosind PostgreSQL pe un set de date mare (~3 milioane de intrări)

Am un set de date de ~3 milioane de jocuri de șah (coloanele existente includ numele jucătorilor, data, rezultatul și numele turneului). Vreau să folosesc Random Forest pentru a prezice rezultatele jocurilor de șah. În acest scop, vreau să fac...

172 vederi

python postgresql sql machine-learning bigdata

06.12.2023

Întrebări înrudite 'bigdata'

Întrebări similare