Сбой dplyr при использовании вычисления разницы с задержкой

У меня есть кадр данных 4 миллиона строк и 1,4 миллиона различных значений группирующей переменной. Пример ДФ выглядит так:

> df
        date        id
1 2015-06-25   4333864
2 2015-06-25   3867895
3 2015-06-25   4333866
4 2015-06-25   4333868
5 2015-06-29   2900522
6 2015-06-29   3609093

Использование этой команды для создания запаздывающих различий дат приводит к сбою R на MAC-адресе памяти 8 ГБ:

df %>% group_by(id) %>% mutate(dayDiff = date - lag(date))

Этот dplyr жаждет памяти? Любой другой эффективный способ выполнить то, что мне нужно?

Вот версия dplyr, которую я использую:

Package: dplyr
Type: Package
Version: 0.4.1

Кадр даты имеет следующие типы переменных:

> str(df)
'data.frame':   6 obs. of  2 variables:
 $ date: Date, format: "2014-07-01" "2014-07-01" "2014-07-01" ...
 $ id  : num  1793096 2019424 1869572 1869573 1774661 ...

r dplyr

Gopala 24.07.2015 источник

comment

Попробуйте изменить -› на оператор канала - talat 24.07.2015

comment

Извините, это была просто опечатка в моем сообщении. Ничего общего с аварией. - Gopala 24.07.2015

comment

Можете ли вы показать нам вывод str(df)? (Добавьте это в вопрос, а не в комментарии, пожалуйста) - talat 24.07.2015

comment

А какую версию dplyr вы используете? - talat 24.07.2015

Сбой dplyr при использовании вычисления разницы с задержкой

Похожие вопросы