Powiązane pytania 'bigdata'
Bigglm w R: Ograniczenia i ulepszenia kodu źródłowego (np. Call to Fortran)
Niedawno używałem R do uruchamiania uogólnionego modelu liniowego (GLM) na pliku csv o wielkości 100 mb (9 milionów wierszy na 5 kolumn). Zawartość tego pliku zawiera 5 kolumn o nazwach depvar, var1,var2,var3,var4 i wszystkie są losowo rozmieszczone...
3006 wyświetlenia
schedule
26.09.2022
Na jakiej maszynie działa Reduktor Hadoopa
Jeśli mam klaster składający się z 4 węzłów, w którym 1 maszyna jest węzłem nazw, a pozostałe 3 maszyny to węzły danych, i jeśli ustawię liczbę reduktorów na 1, który z węzłów danych będzie obsługiwał reduktor?
883 wyświetlenia
schedule
28.12.2023
Hbase szybko zlicza liczbę wierszy
W tej chwili implementuję liczbę wierszy powyżej ResultScanner w ten sposób
for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
number++;
}
Jeśli dane docierające do milionów czasu są duże. Chcę obliczać w czasie...
116862 wyświetlenia
schedule
18.02.2024
W JTextArea zabrakło miejsca? Ile tekstu może się zmieścić? Czy mogę zmieścić więcej?
Pracuję nad wizualizatorem wzoru, który znalazłem w liczbach pierwszych. Oto link do obliczeń matematycznych na ten temat ze StackMath: Wzorce w liczbach pierwszych i pełny kod ze StackCodeReview: Optymalizacja kodu
Wygląda na to, że moim...
503 wyświetlenia
schedule
05.10.2023
Co się stanie, gdy zapytanie otrzyma bardzo duże wyniki
większość zastosowań/samouczków/podręczników wyjaśnia, jak używać metod w kontekście zarządzalnej bazy danych.
Zatem jeśli User.where( some condition) zwróci wynik dziesiątek lub setek, rozsądnie byłoby pomyśleć, że Railsy/DB/serwer sobie z tym...
158 wyświetlenia
schedule
29.12.2023
Hive ParseException - nie można rozpoznać danych wejściowych w pobliżu „końca” „ciągu”
Podczas próby utworzenia tabeli Hive z istniejącej tabeli DynamoDB pojawia się następujący błąd:
NoViableAltException(88@[])
at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123)
at...
111515 wyświetlenia
schedule
23.02.2024
Algorytm zliczania dużych zbiorów danych w R
Mam ramkę big data z prawie 1 mln wierszy (transakcje) i 2600 kolumnami (elementami). Wartości w zestawie danych to 1 i NA. Typ danych wszystkich wartości ma czynnik. Chcę dodać nową kolumnę na końcu ramki danych, która pokazuje sumę wszystkich 1 w...
196 wyświetlenia
schedule
27.09.2022
Czytaj tylko n-tą kolumnę pliku tekstowego, który nie ma nagłówka z R i sqldf
Mam podobny problem, taki jak to pytanie: wybieranie co N-ta kolumna w użyciu SQLDF lub read.csv.sql
Chcę odczytać niektóre kolumny dużych plików (tabela zawierająca 150 wierszy, > 500 000 kolumn, oddzielona spacjami, wypełniona danymi...
439 wyświetlenia
schedule
22.12.2023
Techniki próbkowania danych dla dużych baz danych Netezza
Używamy Netezzy IBM. Mamy tabelę, która codziennie otrzymuje prawie 10 miliardów rekordów, które musimy przetworzyć. Jedno z pól tabeli identyfikuje użytkownika poprzez 38-znakowy ciąg numeryczny, nazwijmy go UserID. Mamy tę tabelę dystrybuowaną na...
1300 wyświetlenia
schedule
16.11.2023
Alternatywy dla problemów związanych z bardzo dużym indeksowaniem tablic przechowującym bardzo duże wartości
Proszę zasugerować kilka alternatyw dla rozwiązywania problemów, w których rozwiązanie brute force wykorzystuje tablice o bardzo dużym indeksie i przechowujące bardzo duże wartości (Bardzo duże oznacza poza zakresem INT ). Aby rozwiązać ten problem,...
555 wyświetlenia
schedule
07.09.2022
przechowuj unikalnych gości w rozproszonej bazie danych
Mam takie dane strukturalne (odwiedzający stronę internetową)
List(p1,p1,p1,p2,p3,p3,p4,p4,p5...)
jeden użytkownik może odwiedzić 1 --> wiele razy
wolumeny danych: około 100 milionów/dzień
A co powiesz na to, w której bazie danych...
222 wyświetlenia
schedule
14.02.2024
Opóźnienie zbioru danych w koordynatorze Oozie
Szukasz zadania działającego w oparciu o dostępność zestawów danych utworzonych w partycjach Hive. Udało mi się to uruchomić, ale teraz chcę, aby działało tak, aby wszystkie moje kanały działały o nominalnej godzinie, ale jedno zawsze było...
277 wyświetlenia
schedule
10.02.2024
RDD ma tylko wartość pierwszej kolumny: Hbase, PySpark
Czytamy tabelę Hbase za pomocą Pyspark za pomocą następujących poleceń.
from pyspark.sql.types import *
host=<Host Name>
port=<Port Number>
keyConv =...
2267 wyświetlenia
schedule
01.02.2024
Pomijanie przecinka w cudzysłowie podczas wczytywania pliku CSV do pliku .Xdf Korzystanie z funkcji rxImport
Próbuję przekonwertować duży plik .CSV na plik .Xdf za pomocą funkcji rxImport() z poniższym kodem:
rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv",
outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...
268 wyświetlenia
schedule
23.12.2023
Tworzenie tabel Hive za pomocą Informatica Big Data Edition
Jestem starym użytkownikiem Informatica PowerCenter 8 i kieruję zespołem korzystającym z Informatica Big Data Edition 9.5.1. Mam pytanie odnośnie Hive. Czy Informatica może budować tabele Hive, czy muszą być budowane osobno? Jeśli można je...
1659 wyświetlenia
schedule
28.10.2023
wyjątek semantyczny gałęzi podczas wstawiania danych
Stworzyłem tabelę ula za pomocą ORC. Jeśli wstawię dane z konsoli gałęzi, działa to doskonale. Ale jeśli wstawię dane z kodu Jdbc, zgłasza to wyjątek semantyczny gałęzi.
Błąd
Moje wstaw zapytanie
każda pomoc zostanie doceniona....
9664 wyświetlenia
schedule
24.11.2023
Zapisywanie zapytań dotyczących gałęzi
Muszę wiedzieć, jak możemy przechowywać zapytanie, które napisałem w wierszu poleceń, tak jak robimy to w sql (używamy ctrl+S na serwerze sql).
Słyszałem, że zapytania Hive QL używają rozszerzenia .q lub .hql. Czy istnieje możliwość zapisania...
3002 wyświetlenia
schedule
02.10.2023
Podobieństwa PySpark pobrane przez IndexedRowMatrix().columnSimilarities() są niedostępne: INFO OutsideSorter: Wątek * rozlewanie mapy w pamięci
Kiedy uruchamiam kod:
from pyspark import SparkContext
from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
from random import random
import os
from scipy.sparse import csc_matrix
import pandas as pd
from...
1082 wyświetlenia
schedule
17.10.2023
Impala: jak stworzyć zmaterializowany widok w impali?
Czy możemy tworzyć widoki zmaterializowane w Impali? Jeśli nie, jakie jest alternatywne rozwiązanie dla lepszej wydajności widzenia.
2478 wyświetlenia
schedule
14.08.2022
Inżynieria funkcji przy użyciu PostgreSQL na dużym zbiorze danych (~3 miliony wpisów)
Mam zbiór danych obejmujący ~3 miliony partii szachowych (istniejące kolumny zawierają nazwiska graczy, datę, wynik i nazwę turnieju). Chcę używać Random Forest do przewidywania wyników partii szachowych.
W tym celu chcę zająć się inżynierią...
172 wyświetlenia
schedule
06.12.2023