Я собираю большой объем данных, который, скорее всего, будет иметь следующий формат:
Пользователь 1: (a,o,x,y,z,t,h,u)
Где все переменные динамически меняются во времени, кроме u — это используется для хранения имени пользователя. Что я пытаюсь понять, так как мой опыт не очень интенсивен в «больших данных», так это то, что когда я закончу свой массив, он будет очень большим, что-то вроде 108000 x 3500, так как я буду проводить предварительный анализ на каждом временном шаге, и графически, что было бы подходящей базой данных для управления этим, это то, что я пытаюсь определить. Поскольку это для научных исследований, я просматривал CDF и HDF5 и основываясь на том, что я прочитал здесь НАСА Думаю, я захочу использовать CDF. Но является ли это правильным способом управления такими данными с точки зрения скорости и эффективности?
В окончательном наборе данных все пользователи будут представлены в виде столбцов, а строки будут иметь временные метки, поэтому моя программа анализа будет считывать строку за строкой для интерпретации данных. И сделать записи в набор данных. Может быть, мне следует обратить внимание на такие вещи, как CouchDB и RDBMS, я просто не знаю, с чего начать. Совет будет оценен.