Публикации по тегам dask

Публикации по теме 'dask'

Практическое применение Dask в науке о данных

Поскольку объем данных продолжает расти, традиционные инструменты обработки данных с трудом справляются с крупномасштабными вычислениями. Dask, гибкая и мощная библиотека параллельных вычислений, позволяет разработчикам Python решать задачи обработки больших данных. В этом сообщении блога мы рассмотрим практическое применение Dask и продемонстрируем его использование на примерах кода. Параллельные вычисления с Dask Dask предоставляет удобный интерфейс для распараллеливания вычислений на..

Введение в Dask: информация о наборе данных о парковке в Нью-Йорке с использованием Dask

Dask — это гибкая библиотека для параллельных вычислений в Python. Dask состоит из двух частей: Динамическое планирование задач , оптимизированное для вычислений. Коллекции «больших данных» , такие как параллельные массивы, фреймы данных и списки, которые расширяют общие интерфейсы, такие как NumPy, Pandas или итераторы Python , на объем памяти или распределенные среды. Основной процесс Dask: Программа → Процессы/Задачи → DAG → Графики выполнения задач Обзор В..

Машинное обучение в облаке: самый простой способ совместной работы с Jupyter, Spark и Dask

Вчера я разговаривал с другом о том, как быстро меняется среда в области науки о данных и машинного обучения. Он является деканом бизнес-школы и 20 лет преподает студентам MBA данные и аналитику и был свидетелем всех взлетов и падений. На протяжении всей истории мы прожили столько зим для машинного обучения после множества взлетов и неудач. Такого интереса он не наблюдал за всю свою карьеру. Итак, почему сейчас так жарко: во-первых, мощь компьютеров - облачные вычисления и виртуальные..

Вопросы по теме 'dask'

Не можете удалить столбцы или срезать фрейм данных с помощью dask?

Я пытаюсь использовать dask вместо pandas, так как у меня файл csv объемом 2,6 ГБ. Я загружаю его и хочу уронить столбец. но кажется, что ни метод drop df.drop ('column'), ни нарезка df [:,: -1] еще не реализовано. Это так или я просто что-то...

3340 просмотров

dask

11.05.2024

с использованием многопоточного модуля dask

Я пытаюсь использовать многопоточный модуль dask. Этот код def foo(arg): return arg*2 jobs = [] t = delayed(foo)(100) jobs.append(t) j = delayed(jobs, pure=True) #j = j.compute() j = j.compute(get=dask.multiprocessing.get) print("class:",...

565 просмотров

python dask

16.12.2023

ошибка распределенной памяти da

Я получил следующую ошибку в планировщике при запуске Dask в распределенном задании: distributed.core - ERROR - Traceback (most recent call last): File "/usr/local/lib/python3.4/dist-packages/distributed/core.py", line 269, in write frames =...

1743 просмотров

python dask

25.10.2022

Как сделать dworkers для многопроцессорности?

Я работаю над распределенными кластерными вычислениями. Чтобы реализовать такую систему, я пытаюсь использовать библиотеки python, которые являются dask.distriuted. Но есть проблема, заключающаяся в том, что dworkers не предназначены для...

59 просмотров

ipython distributed-computing distributed dask

12.10.2023

Есть ли dask api для получения текущего количества задач в кластере dask?

Я столкнулся с проблемой, когда планировщик dask был убит (хотя рабочие продолжают работать) с ошибкой памяти, если большое количество задач отправлено за короткий период времени. Если можно получить текущее количество задач в кластере, то легко...

539 просмотров

dask dask-distributed

16.02.2024

dask dataframe удалить повторяющиеся значения индекса

Я использую фрейм данных dask с python 2.7 и хочу удалить повторяющиеся значения индекса из моего df. При использовании панд я бы использовал df = df[~df.index.duplicated(keep = "first")] И это работает При попытке сделать то же самое с...

3129 просмотров

python pandas python-2.7 dataframe dask

23.07.2022

Локальный работник Dask не может подключиться к локальному планировщику

При запуске Dask 0.16.0 в OSX 10.12.6 я не могу подключить локальный dask-worker к локальному dask-scheduler . Я просто хочу следовать официальному руководству по Dask . Действия по воспроизведению: Шаг 1: запустите dask-scheduler...

1010 просмотров

dask dask-distributed

23.11.2023

Непосредственный запуск задачи на выделенном dask worker

Простой фрагмент кода выглядит следующим образом: комментарий, за которым следует ###, важен. from dask.distributed import Client ### this code-piece will get executed on a dask worker. def task_to_perform(): print("task in progress.") ##...

395 просмотров

dask dask-distributed

02.03.2024

Распространение Dask: получение AttributeError после использования setup.py install

Здравствуйте, я хотел создать дисковое распространение с нуля. Я прочитал описание здесь но после этих шагов я получаю сообщение об ошибке, когда использую pytest distributed --verbose Файл "/ Users / bielefem / Dev / dask /...

629 просмотров

dask dask-distributed

22.07.2022

сжатие s3fs gzip в кадре данных pandas

Я пытаюсь написать фрейм данных в виде CSV-файла на S3 с помощью библиотеки s3fs и pandas. Несмотря на документацию, я боюсь, что параметр сжатия gzip не работает с s3fs. def DfTos3Csv (df,file): with fs.open(file,'wb') as f:...

1655 просмотров

python amazon-s3 dask python-s3fs

02.08.2022

Распределенный Dask выполняет задачи последовательно

У меня есть конвейер, работающий с LocalCluster : from distributed import Client client = Client() list_of_queries = [...] # say 1_000 queries loaded_data = client.map(sql_data_loader, list_of_queries) processed_data =...

203 просмотров

dask dask-distributed

01.05.2024

dask.read_parquet вызывает ошибку OOM

Я использую dask для очистки данных в нескольких файлах csv. Этот код отлично работает: import pandas as pd import glob import os from timeit import default_timer from dask.distributed import Client import dask.dataframe as dd cols_to_keep =...

677 просмотров

python parquet dask

14.07.2022

Dask использует транслируемые pandas.DataFrame в функции apply

У меня есть код, который выбирает запись из pandas.DataFrame для каждой записи в dask.DataFrame k раз. Но выдает предупреждение: UserWarning: Large object of size 1.12 MB detected in task graph: ( metric label group_1 group_2...

538 просмотров

python pandas dask dask-distributed

25.06.2022

Даск; построить ленивый массив ND

Я пытаюсь построить 5D (ленивый) массив из разницы векторов положения между дискретизированной поверхностью и внутренней частью сферы. Использование циклов for решает простую задачу (всего 5 уровней вложенности — два для поверхностных позиций и 3 для...

36 просмотров

dask

28.10.2022

Распараллеливание создания дерева с помощью dask

Мне нужна помощь в решении проблемы, которую, я уверен, может решить dask. Но я не знаю, как с этим справиться. Мне нужно рекурсивно построить дерево. Для каждого узла, если критерий соблюден, выполняется вычисление ( compute_val ), иначе...

95 просмотров

python recursion dask

10.04.2024

Dask экспортирует кадр данных в удаленное хранилище (S3)

Когда используешь dask_df.to_csv('s3://mybucket/mycsv.csv') Я получаю сообщение об ошибке, что я должен установить s3fs Я установил его в рабочие (с client.run() ) и все равно получил ошибку. Поэтому я установил s3fs локально на свою...

31 просмотров

python amazon-s3 export-to-csv dask

07.11.2023

Почему задачи занимают больше времени, когда используется больше работников

В настоящее время я изо всех сил пытаюсь понять, почему отдельные задачи выполняются медленнее, когда используется больше рабочих. Например, с одним работником каждая задача занимает ~ 0,5 с, а с шестью работниками каждая задача занимает ~ 1 с....

46 просмотров

python dask dask-distributed

24.10.2023

кластеры dask с диспетчером контекста

Рассмотрим такой простой рабочий процесс: from dask.distributed import Client import time with Client() as client: futs = client.map(time.sleep, list(range(10))) Приведенный выше код отправит и почти сразу отменит фьючерсы, так как...

67 просмотров

dask fire-and-forget dask-distributed

31.10.2023

Может ли Dask автоматически создать дерево для распараллеливания вычислений и уменьшения количества копий между рабочими процессами?

Я разбил это на два раздела: ИСТОРИЯ ИСТОРИИ и ВОПРОС. Вопрос до конца внизу. ФОН: Предположим, я хочу (с использованием распределенного Dask) выполнить досадно параллельное вычисление, такое как суммирование 16 гигантских фреймов данных. Я...

76 просмотров

python parallel-processing dask dask-distributed dask-delayed

31.01.2024

Публикации по теме 'dask'

Практическое применение Dask в науке о данных

Введение в Dask: информация о наборе данных о парковке в Нью-Йорке с использованием Dask

Машинное обучение в облаке: самый простой способ совместной работы с Jupyter, Spark и Dask

Вопросы по теме 'dask'

Похожие вопросы