Различия в хранении и памяти между CSV и XLSX
Введение
Я всегда слышал, что файлы CSV требуют меньше места на жестком диске. Ну, вопреки распространенному мнению, на самом деле это не так. Как и раньше, люди обычно путают хранилище с использованием ОЗУ, когда обсуждают, что лучше — файлы CSV или Excel.
Если вы не путаете эти вещи и знаете, что Excel занимает меньше места на жестком диске, то не читайте эту статью.
CSV вариант №
Файл CSV (значения, разделенные запятыми) — это формат обычного текстового файла, используемый для хранения табличных данных. Это простой и широко используемый формат для обмена данными между различными приложениями, базами данных и платформами. В файле CSV каждая строка представляет строку данных, а значения в строке разделяются разделителем, обычно запятой.
Например, файл CSV может выглядеть так:
Fruit,Color,Quantity Apple,Red,10 Banana,Yellow,5 Orange,Orange,8
Или, если вы откроете его в Microsoft Excel, вы получите красивую таблицу, удобную для чтения людьми:
Что такое файл Excel (XLSX)?
Файлы XLSX — это формат файлов, используемый Microsoft Excel для хранения данных электронных таблиц. XLSX расшифровывается как «Excel Open XML Spreadsheet» и представляет собой двоичный формат файла. Файлы XLSX содержат данные, организованные в листы, где каждый лист может иметь несколько строк и столбцов, и вы можете выполнять сложные вычисления, использовать формулы, применять форматирование, создавать диаграммы и встраивать другие объекты, такие как изображения или диаграммы.
Когда вы открываете файл Excel, содержащий данные предыдущего CSV, с помощью Microsoft Excel:
Преимущество XLSX: сжатие
Одним из преимуществ формата файлов XLSX, который я лично считаю полезным, являются его возможности сжатия.
Файлы XLSX используют передовые алгоритмы для эффективного хранения данных, что приводит к уменьшению размера файлов. Это экономит место для хранения, ускоряет передачу данных и повышает общую производительность системы.
Это помогает управлять большими наборами данных. Это даже полезнее, когда у вас есть ноутбук с небольшим объемом памяти, например MacBook Air M2 с твердотельным накопителем на 256 ГБ.
Например, я преобразовал один из своих наборов данных Excel Earnings Conference Call в файл CSV, и они имеют колоссальную разницу в размере 6 ГБ:
Преимущество CSV: быстрее открывается и использует меньше оперативной памяти
Преимущество файлов CSV заключается в быстром доступе к данным и эффективном использовании памяти. Будучи простым текстовым форматом, файлы CSV легко открываются и быстро открываются без специального программного обеспечения.
Это означает, что им требуется минимальный объем оперативной памяти, что делает их идеальными для устройств с ограниченными возможностями оперативной памяти. Это, однако, не означает, что они занимают меньше места на вашем устройстве, как описано выше.
Заключение
Существуют и другие аспекты использования файлов XLSX и CSV, но эта статья касается только хранилища и использования памяти.
Если у вас недостаточно места на вашем устройстве и вы не против открывать свои наборы данных медленнее, тогда выбирайте хранение своих наборов данных в файлах XLSX из-за их сжатия. Если у вас много места в хранилище, хранение таблиц в формате CSV поможет вам быстро открывать эти файлы и свести к минимуму использование оперативной памяти.
Что касается меня, я всегда использую файлы XLSX, чтобы минимизировать используемое хранилище на моем MacBook Air M2.
Дайте мне знать в комментариях, какой из них вы используете больше? Если вам это нравится, подпишитесь на будущую статью о том, почему MacBook Air M2 лучше, чем аналогичные ноутбуки с Windows для Data Science!