Разберите столбец Pandas на Datetime при импорте таблицы из базы данных SQL и фильтрации строк по дате

У меня есть DataFrame со столбцом с именем date. Как мы можем преобразовать/разобрать столбец «дата» в объект DateTime?

Я загрузил столбец даты из базы данных Postgresql, используя sql.read_frame(). Примером столбца date является 2013-04-04.

Что я пытаюсь сделать, так это выбрать все строки в фрейме данных, в которых есть столбцы даты в течение определенного периода, например, после 2013-04-01 и до 2013-04-04.

Моя попытка ниже дает ошибку 'Series' object has no attribute 'read'

Попытка

import dateutil

df['date'] = dateutil.parser.parse(df['date'])

Ошибка

AttributeError                            Traceback (most recent call last)
<ipython-input-636-9b19aa5f989c> in <module>()
     15 
     16 # Parse 'Date' Column to Datetime
---> 17 df['date'] = dateutil.parser.parse(df['date'])
     18 
     19 # SELECT RECENT SALES

C:\Python27\lib\site-packages\dateutil\parser.pyc in parse(timestr, parserinfo, **kwargs)
    695         return parser(parserinfo).parse(timestr, **kwargs)
    696     else:
--> 697         return DEFAULTPARSER.parse(timestr, **kwargs)
    698 
    699 

C:\Python27\lib\site-packages\dateutil\parser.pyc in parse(self, timestr, default, ignoretz, tzinfos, **kwargs)
    299             default = datetime.datetime.now().replace(hour=0, minute=0,
    300                                                       second=0, microsecond=0)
--> 301         res = self._parse(timestr, **kwargs)
    302         if res is None:
    303             raise ValueError, "unknown string format"

C:\Python27\lib\site-packages\dateutil\parser.pyc in _parse(self, timestr, dayfirst, yearfirst, fuzzy)
    347             yearfirst = info.yearfirst
    348         res = self._result()
--> 349         l = _timelex.split(timestr)
    350         try:
    351 

C:\Python27\lib\site-packages\dateutil\parser.pyc in split(cls, s)
    141 
    142     def split(cls, s):
--> 143         return list(cls(s))
    144     split = classmethod(split)
    145 

C:\Python27\lib\site-packages\dateutil\parser.pyc in next(self)
    135 
    136     def next(self):
--> 137         token = self.get_token()
    138         if token is None:
    139             raise StopIteration

C:\Python27\lib\site-packages\dateutil\parser.pyc in get_token(self)
     66                 nextchar = self.charstack.pop(0)
     67             else:
---> 68                 nextchar = self.instream.read(1)
     69                 while nextchar == '\x00':
     70                     nextchar = self.instream.read(1)

AttributeError: 'Series' object has no attribute 'read'

df['date'].apply(dateutil.parser.parse) выдает ошибку AttributeError: 'datetime.date' object has no attribute 'read'

df['date'].truncate(after='2013/04/01') выдает ошибку TypeError: can't compare datetime.datetime to long

df['date'].dtype возвращает dtype('O'). Это уже объект datetime?

Nyxynyx 07.05.2013 источник

comment

Пожалуйста, опубликуйте пример чего-нибудь в колонке date! Поскольку панды должны фактически распознавать объект даты и времени, поэтому было бы полезно увидеть фактический формат для этого столбца. - Ryan Saxe 07.05.2013

comment

@RyanSaxe Я загрузил столбец даты из базы данных Postgresql, используя sql.read_frame(). Примером столбца date является 2013-04-04. Как вы проверяете dtype столбца? - Nyxynyx 07.05.2013

comment

df['date'].dtype возвращает dtype('O') - Nyxynyx 07.05.2013

Ответы (5)

arrow_upward
6
arrow_downward

pandas уже читает это как объект datetime! Итак, вы хотите выбрать строки между двумя датами, и вы можете сделать это, маскируя:

df_masked = df[(df.date > '2012-04-01') & (df.date < '2012-04-04')]

Поскольку вы сказали, что по какой-то причине вы получаете ошибку из строки, попробуйте следующее:

df_masked = df[(df.date > datetime.date(2012,4,1)) & (df.date < datetime.date(2012,4,4))]

Ryan Saxe 07.05.2013

comment

df = df[df.date > '2012-01-01'] выдает ошибку TypeError: can't compare datetime.date to str. - Nyxynyx; 07.05.2013

comment

Я использую это все время! Это очень странно... ваш вопрос очень похож на тот, который я задавал, и мне дали этот ответ, и он сработал. Посмотрите здесь - Ryan Saxe; 07.05.2013

comment

Да... это работает, когда я создал фреймворк данных вручную... но если я создам фрейм данных из базы данных SQL, используя sql.read_frame, '2012-01-01' будет рассматриваться как строка? - Nyxynyx; 07.05.2013

comment

Попытка df[df.date > dateutil.parser.parse('2013-01-01') ] дает мне TypeError: can't compare datetime.datetime to datetime.date - Nyxynyx; 07.05.2013

comment

df.date - это объект типа, но я думаю, что 2013-01-01 обрабатывается как строка. Ошибка меняется с str на datetime.date, когда я использовал dateutil.parser.parse() как в комментариях выше - Nyxynyx; 07.05.2013

comment

Я что-то добавил, попробуй! - Ryan Saxe; 07.05.2013

arrow_upward
61
arrow_downward

Pandas знает о объекте datetime, но когда вы используете некоторые функции импорта, он воспринимается как строка. Итак, что вам нужно сделать, это убедиться, что столбец установлен как тип даты и времени, а не как строка. Затем вы можете сделать свой запрос.

df['date']  = pd.to_datetime(df['date'])
df_masked = df[(df['date'] > datetime.date(2012,4,1)) & (df['date'] < datetime.date(2012,4,4))]

Keith 27.06.2014

arrow_upward
8
arrow_downward

Вероятно, вам нужно apply, поэтому что-то вроде:

df['date'] = df['date'].apply(dateutil.parser.parse)

Без примера столбца я не могу гарантировать, что это сработает, но что-то в этом направлении должно помочь вам продолжить.

herrfz 07.05.2013

comment

Спасибо, я попробовал df['date'].apply(dateutil.parser.parse) и выдал ошибку. AttributeError: 'datetime.date' object has no attribute 'read'. Пример столбца: 2013-04-04. Весь фрейм данных был загружен из базы данных PostgreSQL с использованием sql.readframe(). - Nyxynyx; 07.05.2013

arrow_upward
4
arrow_downward

Не путайте `datetime.date` с пандами `pd.Timestamp`

"Серия Pandas datetime" содержит pd.Timestamp элементов, не datetime.date элементов. Рекомендуемое решение для панд:

s = pd.to_datetime(s)    # convert series to Pandas
mask = s > '2018-03-10'  # calculate Boolean mask against Pandas-compatible object

Лучшие ответы имеют проблемы:

Первая попытка принятого ответа @RyanSaxe не работает; второй ответ неэффективен.
Начиная с Pandas v0.23.0, ответ @Keith, получивший большое количество голосов, не работает; это дает TypeError.

Любое хорошее решение Pandas должно обеспечивать:

Серия представляет собой серию Pandas datetime, а не object dtype.
Серия datetime сравнивается с совместимым объектом, например. pd.Timestamp или строка в правильном формате.

Вот демонстрация со сравнительным анализом, демонстрирующая, что разовые затраты на конверсию могут быть немедленно компенсированы одной операцией:

from datetime import date

L = [date(2018, 1, 10), date(2018, 5, 20), date(2018, 10, 30), date(2018, 11, 11)]
s = pd.Series(L*10**5)

a = s > date(2018, 3, 10)             # accepted solution #2, inefficient
b = pd.to_datetime(s) > '2018-03-10'  # more efficient, including datetime conversion

assert a.equals(b)                    # check solutions give same result

%timeit s > date(2018, 3, 10)                  # 40.5 ms
%timeit pd.to_datetime(s) > '2018-03-10'       # 33.7 ms

s = pd.to_datetime(s)

%timeit s > '2018-03-10'                       # 2.85 ms

jpp 19.10.2018

arrow_upward
2
arrow_downward

Вы должны перебирать элементы и анализировать их независимо, а затем создавать новый список.

df['date'] = [dateutil.parser.parse(x) for x in df['date']]

ryzhiy 20.06.2013

Разберите столбец Pandas на Datetime при импорте таблицы из базы данных SQL и фильтрации строк по дате

Ответы (5)

Не путайте datetime.date с пандами pd.Timestamp

Похожие вопросы

Не путайте `datetime.date` с пандами `pd.Timestamp`