Публикации по теме 'dask'


Практическое применение Dask в науке о данных
Поскольку объем данных продолжает расти, традиционные инструменты обработки данных с трудом справляются с крупномасштабными вычислениями. Dask, гибкая и мощная библиотека параллельных вычислений, позволяет разработчикам Python решать задачи обработки больших данных. В этом сообщении блога мы рассмотрим практическое применение Dask и продемонстрируем его использование на примерах кода. Параллельные вычисления с Dask Dask предоставляет удобный интерфейс для распараллеливания вычислений на..

Введение в Dask: информация о наборе данных о парковке в Нью-Йорке с использованием Dask
Dask — это гибкая библиотека для параллельных вычислений в Python. Dask состоит из двух частей: Динамическое планирование задач , оптимизированное для вычислений. Коллекции «больших данных» , такие как параллельные массивы, фреймы данных и списки, которые расширяют общие интерфейсы, такие как NumPy, Pandas или итераторы Python , на объем памяти или распределенные среды. Основной процесс Dask: Программа → Процессы/Задачи → DAG → Графики выполнения задач Обзор В..

Машинное обучение в облаке: самый простой способ совместной работы с Jupyter, Spark и Dask
Вчера я разговаривал с другом о том, как быстро меняется среда в области науки о данных и машинного обучения. Он является деканом бизнес-школы и 20 лет преподает студентам MBA данные и аналитику и был свидетелем всех взлетов и падений. На протяжении всей истории мы прожили столько зим для машинного обучения после множества взлетов и неудач. Такого интереса он не наблюдал за всю свою карьеру. Итак, почему сейчас так жарко: во-первых, мощь компьютеров - облачные вычисления и виртуальные..

Вопросы по теме 'dask'

Не можете удалить столбцы или срезать фрейм данных с помощью dask?
Я пытаюсь использовать dask вместо pandas, так как у меня файл csv объемом 2,6 ГБ. Я загружаю его и хочу уронить столбец. но кажется, что ни метод drop df.drop ('column'), ни нарезка df [:,: -1] еще не реализовано. Это так или я просто что-то...
3340 просмотров
schedule 11.05.2024

с использованием многопоточного модуля dask
Я пытаюсь использовать многопоточный модуль dask. Этот код def foo(arg): return arg*2 jobs = [] t = delayed(foo)(100) jobs.append(t) j = delayed(jobs, pure=True) #j = j.compute() j = j.compute(get=dask.multiprocessing.get) print("class:",...
565 просмотров
schedule 16.12.2023

ошибка распределенной памяти da
Я получил следующую ошибку в планировщике при запуске Dask в распределенном задании: distributed.core - ERROR - Traceback (most recent call last): File "/usr/local/lib/python3.4/dist-packages/distributed/core.py", line 269, in write frames =...
1743 просмотров
schedule 25.10.2022

Как сделать dworkers для многопроцессорности?
Я работаю над распределенными кластерными вычислениями. Чтобы реализовать такую ​​систему, я пытаюсь использовать библиотеки python, которые являются dask.distriuted. Но есть проблема, заключающаяся в том, что dworkers не предназначены для...
59 просмотров

Есть ли dask api для получения текущего количества задач в кластере dask?
Я столкнулся с проблемой, когда планировщик dask был убит (хотя рабочие продолжают работать) с ошибкой памяти, если большое количество задач отправлено за короткий период времени. Если можно получить текущее количество задач в кластере, то легко...
539 просмотров
schedule 16.02.2024

dask dataframe удалить повторяющиеся значения индекса
Я использую фрейм данных dask с python 2.7 и хочу удалить повторяющиеся значения индекса из моего df. При использовании панд я бы использовал df = df[~df.index.duplicated(keep = "first")] И это работает При попытке сделать то же самое с...
3129 просмотров
schedule 23.07.2022

Локальный работник Dask не может подключиться к локальному планировщику
При запуске Dask 0.16.0 в OSX 10.12.6 я не могу подключить локальный dask-worker к локальному dask-scheduler . Я просто хочу следовать официальному руководству по Dask . Действия по воспроизведению: Шаг 1: запустите dask-scheduler...
1010 просмотров
schedule 23.11.2023

Непосредственный запуск задачи на выделенном dask worker
Простой фрагмент кода выглядит следующим образом: комментарий, за которым следует ###, важен. from dask.distributed import Client ### this code-piece will get executed on a dask worker. def task_to_perform(): print("task in progress.") ##...
395 просмотров
schedule 02.03.2024

Распространение Dask: получение AttributeError после использования setup.py install
Здравствуйте, я хотел создать дисковое распространение с нуля. Я прочитал описание здесь но после этих шагов я получаю сообщение об ошибке, когда использую pytest distributed --verbose Файл "/ Users / bielefem / Dev / dask /...
629 просмотров
schedule 22.07.2022

сжатие s3fs gzip в кадре данных pandas
Я пытаюсь написать фрейм данных в виде CSV-файла на S3 с помощью библиотеки s3fs и pandas. Несмотря на документацию, я боюсь, что параметр сжатия gzip не работает с s3fs. def DfTos3Csv (df,file): with fs.open(file,'wb') as f:...
1655 просмотров
schedule 02.08.2022

Распределенный Dask выполняет задачи последовательно
У меня есть конвейер, работающий с LocalCluster : from distributed import Client client = Client() list_of_queries = [...] # say 1_000 queries loaded_data = client.map(sql_data_loader, list_of_queries) processed_data =...
203 просмотров
schedule 01.05.2024

dask.read_parquet вызывает ошибку OOM
Я использую dask для очистки данных в нескольких файлах csv. Этот код отлично работает: import pandas as pd import glob import os from timeit import default_timer from dask.distributed import Client import dask.dataframe as dd cols_to_keep =...
677 просмотров
schedule 14.07.2022

Dask использует транслируемые pandas.DataFrame в функции apply
У меня есть код, который выбирает запись из pandas.DataFrame для каждой записи в dask.DataFrame k раз. Но выдает предупреждение: UserWarning: Large object of size 1.12 MB detected in task graph: ( metric label group_1 group_2...
538 просмотров
schedule 25.06.2022

Даск; построить ленивый массив ND
Я пытаюсь построить 5D (ленивый) массив из разницы векторов положения между дискретизированной поверхностью и внутренней частью сферы. Использование циклов for решает простую задачу (всего 5 уровней вложенности — два для поверхностных позиций и 3 для...
36 просмотров
schedule 28.10.2022

Распараллеливание создания дерева с помощью dask
Мне нужна помощь в решении проблемы, которую, я уверен, может решить dask. Но я не знаю, как с этим справиться. Мне нужно рекурсивно построить дерево. Для каждого узла, если критерий соблюден, выполняется вычисление ( compute_val ), иначе...
95 просмотров
schedule 10.04.2024

Dask экспортирует кадр данных в удаленное хранилище (S3)
Когда используешь dask_df.to_csv('s3://mybucket/mycsv.csv') Я получаю сообщение об ошибке, что я должен установить s3fs Я установил его в рабочие (с client.run() ) и все равно получил ошибку. Поэтому я установил s3fs локально на свою...
31 просмотров
schedule 07.11.2023

Почему задачи занимают больше времени, когда используется больше работников
В настоящее время я изо всех сил пытаюсь понять, почему отдельные задачи выполняются медленнее, когда используется больше рабочих. Например, с одним работником каждая задача занимает ~ 0,5 с, а с шестью работниками каждая задача занимает ~ 1 с....
46 просмотров
schedule 24.10.2023

кластеры dask с диспетчером контекста
Рассмотрим такой простой рабочий процесс: from dask.distributed import Client import time with Client() as client: futs = client.map(time.sleep, list(range(10))) Приведенный выше код отправит и почти сразу отменит фьючерсы, так как...
67 просмотров
schedule 31.10.2023

Может ли Dask автоматически создать дерево для распараллеливания вычислений и уменьшения количества копий между рабочими процессами?
Я разбил это на два раздела: ИСТОРИЯ ИСТОРИИ и ВОПРОС. Вопрос до конца внизу. ФОН: Предположим, я хочу (с использованием распределенного Dask) выполнить досадно параллельное вычисление, такое как суммирование 16 гигантских фреймов данных. Я...
76 просмотров