У меня есть кадр данных 4 миллиона строк и 1,4 миллиона различных значений группирующей переменной. Пример ДФ выглядит так:
> df
date id
1 2015-06-25 4333864
2 2015-06-25 3867895
3 2015-06-25 4333866
4 2015-06-25 4333868
5 2015-06-29 2900522
6 2015-06-29 3609093
Использование этой команды для создания запаздывающих различий дат приводит к сбою R на MAC-адресе памяти 8 ГБ:
df %>% group_by(id) %>% mutate(dayDiff = date - lag(date))
Этот dplyr жаждет памяти? Любой другой эффективный способ выполнить то, что мне нужно?
Вот версия dplyr, которую я использую:
Package: dplyr
Type: Package
Version: 0.4.1
Кадр даты имеет следующие типы переменных:
> str(df)
'data.frame': 6 obs. of 2 variables:
$ date: Date, format: "2014-07-01" "2014-07-01" "2014-07-01" ...
$ id : num 1793096 2019424 1869572 1869573 1774661 ...
str(df)
? (Добавьте это в вопрос, а не в комментарии, пожалуйста) - person talat   schedule 24.07.2015