Powiązane pytania 'bigdata'

Bigglm w R: Ograniczenia i ulepszenia kodu źródłowego (np. Call to Fortran)
Niedawno używałem R do uruchamiania uogólnionego modelu liniowego (GLM) na pliku csv o wielkości 100 mb (9 milionów wierszy na 5 kolumn). Zawartość tego pliku zawiera 5 kolumn o nazwach depvar, var1,var2,var3,var4 i wszystkie są losowo rozmieszczone...
3006 wyświetlenia
schedule 26.09.2022

Na jakiej maszynie działa Reduktor Hadoopa
Jeśli mam klaster składający się z 4 węzłów, w którym 1 maszyna jest węzłem nazw, a pozostałe 3 maszyny to węzły danych, i jeśli ustawię liczbę reduktorów na 1, który z węzłów danych będzie obsługiwał reduktor?
883 wyświetlenia
schedule 28.12.2023

Hbase szybko zlicza liczbę wierszy
W tej chwili implementuję liczbę wierszy powyżej ResultScanner w ten sposób for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } Jeśli dane docierające do milionów czasu są duże. Chcę obliczać w czasie...
116862 wyświetlenia
schedule 18.02.2024

W JTextArea zabrakło miejsca? Ile tekstu może się zmieścić? Czy mogę zmieścić więcej?
Pracuję nad wizualizatorem wzoru, który znalazłem w liczbach pierwszych. Oto link do obliczeń matematycznych na ten temat ze StackMath: Wzorce w liczbach pierwszych i pełny kod ze StackCodeReview: Optymalizacja kodu Wygląda na to, że moim...
503 wyświetlenia
schedule 05.10.2023

Co się stanie, gdy zapytanie otrzyma bardzo duże wyniki
większość zastosowań/samouczków/podręczników wyjaśnia, jak używać metod w kontekście zarządzalnej bazy danych. Zatem jeśli User.where( some condition) zwróci wynik dziesiątek lub setek, rozsądnie byłoby pomyśleć, że Railsy/DB/serwer sobie z tym...
158 wyświetlenia
schedule 29.12.2023

Hive ParseException - nie można rozpoznać danych wejściowych w pobliżu „końca” „ciągu”
Podczas próby utworzenia tabeli Hive z istniejącej tabeli DynamoDB pojawia się następujący błąd: NoViableAltException(88@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123) at...
111515 wyświetlenia

Algorytm zliczania dużych zbiorów danych w R
Mam ramkę big data z prawie 1 mln wierszy (transakcje) i 2600 kolumnami (elementami). Wartości w zestawie danych to 1 i NA. Typ danych wszystkich wartości ma czynnik. Chcę dodać nową kolumnę na końcu ramki danych, która pokazuje sumę wszystkich 1 w...
196 wyświetlenia
schedule 27.09.2022

Czytaj tylko n-tą kolumnę pliku tekstowego, który nie ma nagłówka z R i sqldf
Mam podobny problem, taki jak to pytanie: wybieranie co N-ta kolumna w użyciu SQLDF lub read.csv.sql Chcę odczytać niektóre kolumny dużych plików (tabela zawierająca 150 wierszy, > 500 000 kolumn, oddzielona spacjami, wypełniona danymi...
439 wyświetlenia
schedule 22.12.2023

Techniki próbkowania danych dla dużych baz danych Netezza
Używamy Netezzy IBM. Mamy tabelę, która codziennie otrzymuje prawie 10 miliardów rekordów, które musimy przetworzyć. Jedno z pól tabeli identyfikuje użytkownika poprzez 38-znakowy ciąg numeryczny, nazwijmy go UserID. Mamy tę tabelę dystrybuowaną na...
1300 wyświetlenia

Alternatywy dla problemów związanych z bardzo dużym indeksowaniem tablic przechowującym bardzo duże wartości
Proszę zasugerować kilka alternatyw dla rozwiązywania problemów, w których rozwiązanie brute force wykorzystuje tablice o bardzo dużym indeksie i przechowujące bardzo duże wartości (Bardzo duże oznacza poza zakresem INT ). Aby rozwiązać ten problem,...
555 wyświetlenia
schedule 07.09.2022

przechowuj unikalnych gości w rozproszonej bazie danych
Mam takie dane strukturalne (odwiedzający stronę internetową) List(p1,p1,p1,p2,p3,p3,p4,p4,p5...) jeden użytkownik może odwiedzić 1 --> wiele razy wolumeny danych: około 100 milionów/dzień A co powiesz na to, w której bazie danych...
222 wyświetlenia

Opóźnienie zbioru danych w koordynatorze Oozie
Szukasz zadania działającego w oparciu o dostępność zestawów danych utworzonych w partycjach Hive. Udało mi się to uruchomić, ale teraz chcę, aby działało tak, aby wszystkie moje kanały działały o nominalnej godzinie, ale jedno zawsze było...
277 wyświetlenia
schedule 10.02.2024

RDD ma tylko wartość pierwszej kolumny: Hbase, PySpark
Czytamy tabelę Hbase za pomocą Pyspark za pomocą następujących poleceń. from pyspark.sql.types import * host=<Host Name> port=<Port Number> keyConv =...
2267 wyświetlenia
schedule 01.02.2024

Pomijanie przecinka w cudzysłowie podczas wczytywania pliku CSV do pliku .Xdf Korzystanie z funkcji rxImport
Próbuję przekonwertować duży plik .CSV na plik .Xdf za pomocą funkcji rxImport() z poniższym kodem: rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv", outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...
268 wyświetlenia
schedule 23.12.2023

Tworzenie tabel Hive za pomocą Informatica Big Data Edition
Jestem starym użytkownikiem Informatica PowerCenter 8 i kieruję zespołem korzystającym z Informatica Big Data Edition 9.5.1. Mam pytanie odnośnie Hive. Czy Informatica może budować tabele Hive, czy muszą być budowane osobno? Jeśli można je...
1659 wyświetlenia
schedule 28.10.2023

wyjątek semantyczny gałęzi podczas wstawiania danych
Stworzyłem tabelę ula za pomocą ORC. Jeśli wstawię dane z konsoli gałęzi, działa to doskonale. Ale jeśli wstawię dane z kodu Jdbc, zgłasza to wyjątek semantyczny gałęzi. Błąd Moje wstaw zapytanie każda pomoc zostanie doceniona....
9664 wyświetlenia
schedule 24.11.2023

Zapisywanie zapytań dotyczących gałęzi
Muszę wiedzieć, jak możemy przechowywać zapytanie, które napisałem w wierszu poleceń, tak jak robimy to w sql (używamy ctrl+S na serwerze sql). Słyszałem, że zapytania Hive QL używają rozszerzenia .q lub .hql. Czy istnieje możliwość zapisania...
3002 wyświetlenia
schedule 02.10.2023

Podobieństwa PySpark pobrane przez IndexedRowMatrix().columnSimilarities() są niedostępne: INFO OutsideSorter: Wątek * rozlewanie mapy w pamięci
Kiedy uruchamiam kod: from pyspark import SparkContext from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating from random import random import os from scipy.sparse import csc_matrix import pandas as pd from...
1082 wyświetlenia

Impala: jak stworzyć zmaterializowany widok w impali?
Czy możemy tworzyć widoki zmaterializowane w Impali? Jeśli nie, jakie jest alternatywne rozwiązanie dla lepszej wydajności widzenia.
2478 wyświetlenia
schedule 14.08.2022

Inżynieria funkcji przy użyciu PostgreSQL na dużym zbiorze danych (~3 miliony wpisów)
Mam zbiór danych obejmujący ~3 miliony partii szachowych (istniejące kolumny zawierają nazwiska graczy, datę, wynik i nazwę turnieju). Chcę używać Random Forest do przewidywania wyników partii szachowych. W tym celu chcę zająć się inżynierią...
172 wyświetlenia