Различия в хранении и памяти между CSV и XLSX

Введение

Я всегда слышал, что файлы CSV требуют меньше места на жестком диске. Ну, вопреки распространенному мнению, на самом деле это не так. Как и раньше, люди обычно путают хранилище с использованием ОЗУ, когда обсуждают, что лучше — файлы CSV или Excel.

Если вы не путаете эти вещи и знаете, что Excel занимает меньше места на жестком диске, то не читайте эту статью.

CSV вариант №

Файл CSV (значения, разделенные запятыми) — это формат обычного текстового файла, используемый для хранения табличных данных. Это простой и широко используемый формат для обмена данными между различными приложениями, базами данных и платформами. В файле CSV каждая строка представляет строку данных, а значения в строке разделяются разделителем, обычно запятой.

Например, файл CSV может выглядеть так:

Fruit,Color,Quantity
Apple,Red,10
Banana,Yellow,5
Orange,Orange,8

Или, если вы откроете его в Microsoft Excel, вы получите красивую таблицу, удобную для чтения людьми:

Что такое файл Excel (XLSX)?

Файлы XLSX — это формат файлов, используемый Microsoft Excel для хранения данных электронных таблиц. XLSX расшифровывается как «Excel Open XML Spreadsheet» и представляет собой двоичный формат файла. Файлы XLSX содержат данные, организованные в листы, где каждый лист может иметь несколько строк и столбцов, и вы можете выполнять сложные вычисления, использовать формулы, применять форматирование, создавать диаграммы и встраивать другие объекты, такие как изображения или диаграммы.

Когда вы открываете файл Excel, содержащий данные предыдущего CSV, с помощью Microsoft Excel:

Преимущество XLSX: сжатие

Одним из преимуществ формата файлов XLSX, который я лично считаю полезным, являются его возможности сжатия.

Файлы XLSX используют передовые алгоритмы для эффективного хранения данных, что приводит к уменьшению размера файлов. Это экономит место для хранения, ускоряет передачу данных и повышает общую производительность системы.

Это помогает управлять большими наборами данных. Это даже полезнее, когда у вас есть ноутбук с небольшим объемом памяти, например MacBook Air M2 с твердотельным накопителем на 256 ГБ.

Например, я преобразовал один из своих наборов данных Excel Earnings Conference Call в файл CSV, и они имеют колоссальную разницу в размере 6 ГБ:

Преимущество CSV: быстрее открывается и использует меньше оперативной памяти

Преимущество файлов CSV заключается в быстром доступе к данным и эффективном использовании памяти. Будучи простым текстовым форматом, файлы CSV легко открываются и быстро открываются без специального программного обеспечения.

Это означает, что им требуется минимальный объем оперативной памяти, что делает их идеальными для устройств с ограниченными возможностями оперативной памяти. Это, однако, не означает, что они занимают меньше места на вашем устройстве, как описано выше.

Заключение

Существуют и другие аспекты использования файлов XLSX и CSV, но эта статья касается только хранилища и использования памяти.

Если у вас недостаточно места на вашем устройстве и вы не против открывать свои наборы данных медленнее, тогда выбирайте хранение своих наборов данных в файлах XLSX из-за их сжатия. Если у вас много места в хранилище, хранение таблиц в формате CSV поможет вам быстро открывать эти файлы и свести к минимуму использование оперативной памяти.

Что касается меня, я всегда использую файлы XLSX, чтобы минимизировать используемое хранилище на моем MacBook Air M2.

Дайте мне знать в комментариях, какой из них вы используете больше? Если вам это нравится, подпишитесь на будущую статью о том, почему MacBook Air M2 лучше, чем аналогичные ноутбуки с Windows для Data Science!