Вопросы по теме 'data.table'

Большое слияние/управление памятью
Я наткнулся на стену, пытаясь объединить большой файл и меньший. У меня есть прочитайте много других сообщений об управлении памятью в R , и не смог найти неэкстремальный (перейти на 64-битную версию, загрузить в кластер и т. д.) метод ее...
3389 просмотров
schedule 04.05.2024

прокатка объединяет data.table в R
Я пытаюсь понять немного больше о том, как работают вращающиеся соединения, и у меня есть некоторая путаница, я надеялся, что кто-то сможет прояснить это для меня. Возьмем конкретный пример: dt1 <- data.table(id=rep(1:5, 10), t=1:50,...
13802 просмотров
schedule 26.10.2022

Передайте имя столбца в data.table с помощью переменной
Возможный дубликат: Вариативно выбор / назначение полей в таблице данных В следующем примере я создаю таблицу данных с именами столбцов «x» и «v». library('data.table') DT <- data.table(x = c("b","b","b","a","a"), v =...
99758 просмотров
schedule 05.09.2022

Эффективная репликация R data.table по группам
Я сталкиваюсь с некоторыми проблемами с выделением памяти, пытаясь реплицировать некоторые данные по группам, используя data.table и rep. Вот некоторые примеры данных: ob1 <-...
1003 просмотров
schedule 10.11.2022

Присоединитесь к R data.tables, где ключевые значения не совсем равны - объедините строки с ближайшим временем
Есть ли удобный способ объединить таблицы данных в R, где ключевые значения времени близки, но не совсем одинаковы? Например, предположим, что у меня есть таблица данных с результатами за разные периоды времени: DT1 =...
5156 просмотров
schedule 19.12.2023

R data.table с rollapply
Существует ли идиома для вычисления скользящей статистики с использованием группировки data.table? Например, учитывая следующий код: DT = data.table(x=rep(c("a","b","c"),each=2), y=c(1,3), v=1:6) setkey(DT, y) stat.ror <- DT[,rollapply(v,...
1884 просмотров
schedule 05.02.2024

Пустые факторы в таблице data.table
У меня есть таблица данных, в которой есть факторный столбец с пустыми уровнями. Мне нужно получить количество строк и суммы других переменных, сгруппированных по нескольким факторам, включая фактор с пустыми уровнями. Мой вопрос похож на этот один...
2648 просмотров
schedule 07.10.2023

Ускорение группы data.table за счет использования нескольких ядер и параллельного программирования
У меня большой код, и этап агрегации - это текущее узкое место с точки зрения скорости. В моем коде я хотел бы ускорить этап группировки данных, чтобы он был быстрее. SNOTE (простой нетривиальный пример) моих данных выглядит так:...
8800 просмотров
schedule 03.02.2024

используя lm(my_formula) внутри [.data.table j
У меня есть привычка обращаться к столбцам data.table в j , даже когда мне это не нужно: require(data.table) set.seed(1); n = 10 DT <- data.table(x=rnorm(n),y=rnorm(n)) frm <- formula(x~y) DT[,lm(x~y)] # 1 works DT[,lm(frm)]...
2838 просмотров
schedule 04.10.2022

Подмножество data.table с условием
Как отобрать подвыборку большой таблицы данных (пакет data.table )? Есть ли более элегантный способ выполнить следующее DT<- data.table(cbind(site = rep(letters[1:2], 1000), value = runif(2000))) DT[site=="a"][sample(1:nrow(DT[site=="a"]),...
3167 просмотров
schedule 02.12.2023

data.table vs dplyr: может ли один сделать что-то хорошо, а другой не может или плохо?
Обзор Я относительно знаком с data.table , не так много с dplyr . Я прочитал несколько dplyr виньеток и примеров, которые появлялись на SO, и пока что мои выводы таковы: data.table и dplyr сопоставимы по скорости, за исключением...
141416 просмотров
schedule 29.11.2023

R: Использование Delt quantmod в data.table
После R data.table Возврат вычисления и set() я хотел бы чтобы спросить, как я могу использовать Delt() из library(quantmod) , чтобы найти доходность для временного ряда в data.table() . На данный момент, благодаря Фрэнку, у меня есть:...
1010 просмотров
schedule 08.07.2022

Как избежать странной ошибки умлаута при использовании data.table
Мне нужно оперировать суммами в разреженном фрейме данных с учетом идентификаторов require(data.table) sentEx = structure(list(abend = c(1, 1, 0, 0, 2), aber = c(0, 1, 0, 0, 0), über = c(1, 0, 0, 0, 0), überall = c(0, 0, 0, 0, 0), überlegt = c(0,...
593 просмотров
schedule 24.02.2024

О GForce в data.table 1.9.2
Я не знаю, как извлечь большую выгоду из GForce в data.table 1.9.2 Новая оптимизация: GForce. Вместо того, чтобы группировать данные, местоположения групп передаются в сгруппированные версии суммы и среднего (gsum и gmean), которые затем...
2580 просмотров
schedule 18.10.2023

Как рассчитать скользящую статистику в R с использованием таблицы data.table для данных с неравномерным интервалом
У меня есть набор данных, индексированный двумя переменными идентификатора (одна вложена в другую) и датой, и я хочу рассчитать скользящую статистику по этим данным. Мой реальный набор данных велик (~ 200 миллионов строк), и мне понравилось...
878 просмотров
schedule 06.10.2023

Какие алгоритмические/программные оптимизации делают data.table быстрым?
Я немного поискал в Интернете и ТАК искал введение или анализ того, что делает data.table таким быстрым, но я нашел только много (очень полезных) руководств, без разбивки того, что входит в программирование. (Я более или менее совершенно поражен...
251 просмотров
schedule 06.03.2024

Влияют ли уровни фрейма данных на экспорт набора данных из R?
У меня есть 2142 строки и 9 столбцов в моем фрейме данных. Когда я вызываю head(df), фрейм данных выглядит нормально, как показано ниже: Local Identifier Local System Parent ID Storage Type Capacity Movable? Storage Unit Order Number 2209...
72 просмотров
schedule 19.10.2022

Загрузка данных из файлов RData в единую таблицу данных
Я пытаюсь загрузить данные из объектов фрейм данных всех .RData файлов в указанном каталоге в одну таблицу данных . Вот как я пытался это сделать: library(data.table) fileList <- list.files("../cache/FLOSSmole", pattern="\\.RData$",...
6135 просмотров
schedule 17.12.2023

Заполнение столбца индекса в data.table
Этот вопрос связан с: Добавить столбец во фрейм данных, который индексирует количество вхождений в группе У меня есть следующая таблица данных, отсортированная по первым двум столбцам. ddt = structure(list(Unit = structure(c(1L, 1L, 2L, 2L, 3L,...
163 просмотров
schedule 01.11.2023

Команда для подмножества таблицы data.table: эквивалентные формулировки
Эти три команды возвращают один и тот же результат (регрессия по подмножеству наблюдений). Я хотел бы знать, есть ли важные различия в том, что действительно делает data.table в фоновом режиме. suppressMessages(library("data.table"))...
83 просмотров
schedule 15.03.2024