Вопросы по теме 'data.table'
Большое слияние/управление памятью
Я наткнулся на стену, пытаясь объединить большой файл и меньший. У меня есть прочитайте много других сообщений об управлении памятью в R , и не смог найти неэкстремальный (перейти на 64-битную версию, загрузить в кластер и т. д.) метод ее...
3389 просмотров
schedule
04.05.2024
прокатка объединяет data.table в R
Я пытаюсь понять немного больше о том, как работают вращающиеся соединения, и у меня есть некоторая путаница, я надеялся, что кто-то сможет прояснить это для меня. Возьмем конкретный пример:
dt1 <- data.table(id=rep(1:5, 10), t=1:50,...
13802 просмотров
schedule
26.10.2022
Передайте имя столбца в data.table с помощью переменной
Возможный дубликат: Вариативно выбор / назначение полей в таблице данных
В следующем примере я создаю таблицу данных с именами столбцов «x» и «v».
library('data.table')
DT <- data.table(x = c("b","b","b","a","a"), v =...
99758 просмотров
schedule
05.09.2022
Эффективная репликация R data.table по группам
Я сталкиваюсь с некоторыми проблемами с выделением памяти, пытаясь реплицировать некоторые данные по группам, используя data.table и rep.
Вот некоторые примеры данных:
ob1 <-...
1003 просмотров
schedule
10.11.2022
Присоединитесь к R data.tables, где ключевые значения не совсем равны - объедините строки с ближайшим временем
Есть ли удобный способ объединить таблицы данных в R, где ключевые значения времени близки, но не совсем одинаковы? Например, предположим, что у меня есть таблица данных с результатами за разные периоды времени:
DT1 =...
5156 просмотров
schedule
19.12.2023
R data.table с rollapply
Существует ли идиома для вычисления скользящей статистики с использованием группировки data.table?
Например, учитывая следующий код:
DT = data.table(x=rep(c("a","b","c"),each=2), y=c(1,3), v=1:6)
setkey(DT, y)
stat.ror <- DT[,rollapply(v,...
1884 просмотров
schedule
05.02.2024
Пустые факторы в таблице data.table
У меня есть таблица данных, в которой есть факторный столбец с пустыми уровнями. Мне нужно получить количество строк и суммы других переменных, сгруппированных по нескольким факторам, включая фактор с пустыми уровнями. Мой вопрос похож на этот один...
2648 просмотров
schedule
07.10.2023
Ускорение группы data.table за счет использования нескольких ядер и параллельного программирования
У меня большой код, и этап агрегации - это текущее узкое место с точки зрения скорости.
В моем коде я хотел бы ускорить этап группировки данных, чтобы он был быстрее. SNOTE (простой нетривиальный пример) моих данных выглядит так:...
8800 просмотров
schedule
03.02.2024
используя lm(my_formula) внутри [.data.table j
У меня есть привычка обращаться к столбцам data.table в j , даже когда мне это не нужно:
require(data.table)
set.seed(1); n = 10
DT <- data.table(x=rnorm(n),y=rnorm(n))
frm <- formula(x~y)
DT[,lm(x~y)] # 1 works
DT[,lm(frm)]...
2838 просмотров
schedule
04.10.2022
Подмножество data.table с условием
Как отобрать подвыборку большой таблицы данных (пакет data.table )? Есть ли более элегантный способ выполнить следующее
DT<- data.table(cbind(site = rep(letters[1:2], 1000), value = runif(2000)))
DT[site=="a"][sample(1:nrow(DT[site=="a"]),...
3167 просмотров
schedule
02.12.2023
data.table vs dplyr: может ли один сделать что-то хорошо, а другой не может или плохо?
Обзор
Я относительно знаком с data.table , не так много с dplyr . Я прочитал несколько dplyr виньеток и примеров, которые появлялись на SO, и пока что мои выводы таковы:
data.table и dplyr сопоставимы по скорости, за исключением...
141416 просмотров
schedule
29.11.2023
R: Использование Delt quantmod в data.table
После R data.table Возврат вычисления и set() я хотел бы чтобы спросить, как я могу использовать Delt() из library(quantmod) , чтобы найти доходность для временного ряда в data.table() . На данный момент, благодаря Фрэнку, у меня есть:...
1010 просмотров
schedule
08.07.2022
Как избежать странной ошибки умлаута при использовании data.table
Мне нужно оперировать суммами в разреженном фрейме данных с учетом идентификаторов
require(data.table)
sentEx = structure(list(abend = c(1, 1, 0, 0, 2), aber = c(0, 1, 0, 0,
0), über = c(1, 0, 0, 0, 0), überall = c(0, 0, 0, 0, 0), überlegt = c(0,...
593 просмотров
schedule
24.02.2024
О GForce в data.table 1.9.2
Я не знаю, как извлечь большую выгоду из GForce в data.table 1.9.2
Новая оптимизация: GForce. Вместо того, чтобы группировать данные, местоположения групп передаются в сгруппированные версии суммы и среднего (gsum и gmean), которые затем...
2580 просмотров
schedule
18.10.2023
Как рассчитать скользящую статистику в R с использованием таблицы data.table для данных с неравномерным интервалом
У меня есть набор данных, индексированный двумя переменными идентификатора (одна вложена в другую) и датой, и я хочу рассчитать скользящую статистику по этим данным.
Мой реальный набор данных велик (~ 200 миллионов строк), и мне понравилось...
878 просмотров
schedule
06.10.2023
Какие алгоритмические/программные оптимизации делают data.table быстрым?
Я немного поискал в Интернете и ТАК искал введение или анализ того, что делает data.table таким быстрым, но я нашел только много (очень полезных) руководств, без разбивки того, что входит в программирование. (Я более или менее совершенно поражен...
251 просмотров
schedule
06.03.2024
Влияют ли уровни фрейма данных на экспорт набора данных из R?
У меня есть 2142 строки и 9 столбцов в моем фрейме данных. Когда я вызываю head(df), фрейм данных выглядит нормально, как показано ниже:
Local Identifier Local System Parent ID Storage Type Capacity Movable? Storage Unit Order Number
2209...
72 просмотров
schedule
19.10.2022
Загрузка данных из файлов RData в единую таблицу данных
Я пытаюсь загрузить данные из объектов фрейм данных всех .RData файлов в указанном каталоге в одну таблицу данных . Вот как я пытался это сделать:
library(data.table)
fileList <- list.files("../cache/FLOSSmole", pattern="\\.RData$",...
6135 просмотров
schedule
17.12.2023
Заполнение столбца индекса в data.table
Этот вопрос связан с: Добавить столбец во фрейм данных, который индексирует количество вхождений в группе У меня есть следующая таблица данных, отсортированная по первым двум столбцам.
ddt = structure(list(Unit = structure(c(1L, 1L, 2L, 2L, 3L,...
163 просмотров
schedule
01.11.2023
Команда для подмножества таблицы data.table: эквивалентные формулировки
Эти три команды возвращают один и тот же результат (регрессия по подмножеству наблюдений). Я хотел бы знать, есть ли важные различия в том, что действительно делает data.table в фоновом режиме.
suppressMessages(library("data.table"))...
83 просмотров
schedule
15.03.2024