Publikacje według tagów bigdata

Powiązane pytania 'bigdata'

Bigglm w R: Ograniczenia i ulepszenia kodu źródłowego (np. Call to Fortran)

Niedawno używałem R do uruchamiania uogólnionego modelu liniowego (GLM) na pliku csv o wielkości 100 mb (9 milionów wierszy na 5 kolumn). Zawartość tego pliku zawiera 5 kolumn o nazwach depvar, var1,var2,var3,var4 i wszystkie są losowo rozmieszczone...

3006 wyświetlenia

r bigdata glm

26.09.2022

Na jakiej maszynie działa Reduktor Hadoopa

Jeśli mam klaster składający się z 4 węzłów, w którym 1 maszyna jest węzłem nazw, a pozostałe 3 maszyny to węzły danych, i jeśli ustawię liczbę reduktorów na 1, który z węzłów danych będzie obsługiwał reduktor?

883 wyświetlenia

java hadoop hdfs mapreduce bigdata

28.12.2023

Hbase szybko zlicza liczbę wierszy

W tej chwili implementuję liczbę wierszy powyżej ResultScanner w ten sposób for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } Jeśli dane docierające do milionów czasu są duże. Chcę obliczać w czasie...

116862 wyświetlenia

hadoop bigdata hbase

18.02.2024

W JTextArea zabrakło miejsca? Ile tekstu może się zmieścić? Czy mogę zmieścić więcej?

Pracuję nad wizualizatorem wzoru, który znalazłem w liczbach pierwszych. Oto link do obliczeń matematycznych na ten temat ze StackMath: Wzorce w liczbach pierwszych i pełny kod ze StackCodeReview: Optymalizacja kodu Wygląda na to, że moim...

503 wyświetlenia

java text bigdata

05.10.2023

Co się stanie, gdy zapytanie otrzyma bardzo duże wyniki

większość zastosowań/samouczków/podręczników wyjaśnia, jak używać metod w kontekście zarządzalnej bazy danych. Zatem jeśli User.where( some condition) zwróci wynik dziesiątek lub setek, rozsądnie byłoby pomyśleć, że Railsy/DB/serwer sobie z tym...

158 wyświetlenia

postgresql sql bigdata ruby-on-rails-3

29.12.2023

Hive ParseException - nie można rozpoznać danych wejściowych w pobliżu „końca” „ciągu”

Podczas próby utworzenia tabeli Hive z istniejącej tabeli DynamoDB pojawia się następujący błąd: NoViableAltException(88@[]) at org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123) at...

111515 wyświetlenia

amazon-dynamodb hadoop hive mapreduce bigdata

23.02.2024

Algorytm zliczania dużych zbiorów danych w R

Mam ramkę big data z prawie 1 mln wierszy (transakcje) i 2600 kolumnami (elementami). Wartości w zestawie danych to 1 i NA. Typ danych wszystkich wartości ma czynnik. Chcę dodać nową kolumnę na końcu ramki danych, która pokazuje sumę wszystkich 1 w...

196 wyświetlenia

r bigdata algorithm counting

27.09.2022

Czytaj tylko n-tą kolumnę pliku tekstowego, który nie ma nagłówka z R i sqldf

Mam podobny problem, taki jak to pytanie: wybieranie co N-ta kolumna w użyciu SQLDF lub read.csv.sql Chcę odczytać niektóre kolumny dużych plików (tabela zawierająca 150 wierszy, > 500 000 kolumn, oddzielona spacjami, wypełniona danymi...

439 wyświetlenia

r sql bigdata sqldf read.table

22.12.2023

Techniki próbkowania danych dla dużych baz danych Netezza

Używamy Netezzy IBM. Mamy tabelę, która codziennie otrzymuje prawie 10 miliardów rekordów, które musimy przetworzyć. Jedno z pól tabeli identyfikuje użytkownika poprzez 38-znakowy ciąg numeryczny, nazwijmy go UserID. Mamy tę tabelę dystrybuowaną na...

1300 wyświetlenia

database data-warehouse bigdata netezza random-sample

16.11.2023

Alternatywy dla problemów związanych z bardzo dużym indeksowaniem tablic przechowującym bardzo duże wartości

Proszę zasugerować kilka alternatyw dla rozwiązywania problemów, w których rozwiązanie brute force wykorzystuje tablice o bardzo dużym indeksie i przechowujące bardzo duże wartości (Bardzo duże oznacza poza zakresem INT ). Aby rozwiązać ten problem,...

555 wyświetlenia

java arrays bigdata data-structures

07.09.2022

przechowuj unikalnych gości w rozproszonej bazie danych

Mam takie dane strukturalne (odwiedzający stronę internetową) List(p1,p1,p1,p2,p3,p3,p4,p4,p5...) jeden użytkownik może odwiedzić 1 --> wiele razy wolumeny danych: około 100 milionów/dzień A co powiesz na to, w której bazie danych...

222 wyświetlenia

database cassandra bigdata real-time-data

14.02.2024

Opóźnienie zbioru danych w koordynatorze Oozie

Szukasz zadania działającego w oparciu o dostępność zestawów danych utworzonych w partycjach Hive. Udało mi się to uruchomić, ale teraz chcę, aby działało tak, aby wszystkie moje kanały działały o nominalnej godzinie, ale jedno zawsze było...

277 wyświetlenia

hadoop hdfs bigdata oozie

10.02.2024

RDD ma tylko wartość pierwszej kolumny: Hbase, PySpark

Czytamy tabelę Hbase za pomocą Pyspark za pomocą następujących poleceń. from pyspark.sql.types import * host=<Host Name> port=<Port Number> keyConv =...

2267 wyświetlenia

python pyspark hadoop bigdata hbase

01.02.2024

Pomijanie przecinka w cudzysłowie podczas wczytywania pliku CSV do pliku .Xdf Korzystanie z funkcji rxImport

Próbuję przekonwertować duży plik .CSV na plik .Xdf za pomocą funkcji rxImport() z poniższym kodem: rxImport(inData = "/poc/revor/data/ext_roll36_chrg_vol.csv", outFile = "/poc/revor/data/ext_roll36_chrg_vol.xdf",...

268 wyświetlenia

r csv bigdata revolution-r

23.12.2023

Tworzenie tabel Hive za pomocą Informatica Big Data Edition

Jestem starym użytkownikiem Informatica PowerCenter 8 i kieruję zespołem korzystającym z Informatica Big Data Edition 9.5.1. Mam pytanie odnośnie Hive. Czy Informatica może budować tabele Hive, czy muszą być budowane osobno? Jeśli można je...

1659 wyświetlenia

hadoop hive bigdata informatica

28.10.2023

wyjątek semantyczny gałęzi podczas wstawiania danych

Stworzyłem tabelę ula za pomocą ORC. Jeśli wstawię dane z konsoli gałęzi, działa to doskonale. Ale jeśli wstawię dane z kodu Jdbc, zgłasza to wyjątek semantyczny gałęzi. Błąd Moje wstaw zapytanie każda pomoc zostanie doceniona....

9664 wyświetlenia

hadoop hive jdbc bigdata orc

24.11.2023

Zapisywanie zapytań dotyczących gałęzi

Muszę wiedzieć, jak możemy przechowywać zapytanie, które napisałem w wierszu poleceń, tak jak robimy to w sql (używamy ctrl+S na serwerze sql). Słyszałem, że zapytania Hive QL używają rozszerzenia .q lub .hql. Czy istnieje możliwość zapisania...

3002 wyświetlenia

hadoop hive bigdata hiveql

02.10.2023

Podobieństwa PySpark pobrane przez IndexedRowMatrix().columnSimilarities() są niedostępne: INFO OutsideSorter: Wątek * rozlewanie mapy w pamięci

Kiedy uruchamiam kod: from pyspark import SparkContext from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating from random import random import os from scipy.sparse import csc_matrix import pandas as pd from...

1082 wyświetlenia

python apache-spark pyspark bigdata recommendation-engine

17.10.2023

Impala: jak stworzyć zmaterializowany widok w impali?

Czy możemy tworzyć widoki zmaterializowane w Impali? Jeśli nie, jakie jest alternatywne rozwiązanie dla lepszej wydajności widzenia.

2478 wyświetlenia

analytics bigdata impala

14.08.2022

Inżynieria funkcji przy użyciu PostgreSQL na dużym zbiorze danych (~3 miliony wpisów)

Mam zbiór danych obejmujący ~3 miliony partii szachowych (istniejące kolumny zawierają nazwiska graczy, datę, wynik i nazwę turnieju). Chcę używać Random Forest do przewidywania wyników partii szachowych. W tym celu chcę zająć się inżynierią...

172 wyświetlenia

python postgresql sql machine-learning bigdata

06.12.2023

Powiązane pytania 'bigdata'

Podobne pytania