Публикации по теме 'dask'
Практическое применение Dask в науке о данных
Поскольку объем данных продолжает расти, традиционные инструменты обработки данных с трудом справляются с крупномасштабными вычислениями. Dask, гибкая и мощная библиотека параллельных вычислений, позволяет разработчикам Python решать задачи обработки больших данных. В этом сообщении блога мы рассмотрим практическое применение Dask и продемонстрируем его использование на примерах кода.
Параллельные вычисления с Dask
Dask предоставляет удобный интерфейс для распараллеливания вычислений на..
Введение в Dask: информация о наборе данных о парковке в Нью-Йорке с использованием Dask
Dask — это гибкая библиотека для параллельных вычислений в Python. Dask состоит из двух частей:
Динамическое планирование задач , оптимизированное для вычислений. Коллекции «больших данных» , такие как параллельные массивы, фреймы данных и списки, которые расширяют общие интерфейсы, такие как NumPy, Pandas или итераторы Python , на объем памяти или распределенные среды.
Основной процесс Dask:
Программа → Процессы/Задачи → DAG → Графики выполнения задач
Обзор
В..
Машинное обучение в облаке: самый простой способ совместной работы с Jupyter, Spark и Dask
Вчера я разговаривал с другом о том, как быстро меняется среда в области науки о данных и машинного обучения. Он является деканом бизнес-школы и 20 лет преподает студентам MBA данные и аналитику и был свидетелем всех взлетов и падений. На протяжении всей истории мы прожили столько зим для машинного обучения после множества взлетов и неудач. Такого интереса он не наблюдал за всю свою карьеру.
Итак, почему сейчас так жарко: во-первых, мощь компьютеров - облачные вычисления и виртуальные..
Вопросы по теме 'dask'
Не можете удалить столбцы или срезать фрейм данных с помощью dask?
Я пытаюсь использовать dask вместо pandas, так как у меня файл csv объемом 2,6 ГБ. Я загружаю его и хочу уронить столбец. но кажется, что ни метод drop df.drop ('column'), ни нарезка df [:,: -1]
еще не реализовано. Это так или я просто что-то...
3340 просмотров
schedule
11.05.2024
с использованием многопоточного модуля dask
Я пытаюсь использовать многопоточный модуль dask. Этот код
def foo(arg):
return arg*2
jobs = []
t = delayed(foo)(100)
jobs.append(t)
j = delayed(jobs, pure=True)
#j = j.compute()
j = j.compute(get=dask.multiprocessing.get)
print("class:",...
565 просмотров
schedule
16.12.2023
ошибка распределенной памяти da
Я получил следующую ошибку в планировщике при запуске Dask в распределенном задании:
distributed.core - ERROR -
Traceback (most recent call last):
File "/usr/local/lib/python3.4/dist-packages/distributed/core.py", line 269, in write
frames =...
1743 просмотров
schedule
25.10.2022
Как сделать dworkers для многопроцессорности?
Я работаю над распределенными кластерными вычислениями. Чтобы реализовать такую систему, я пытаюсь использовать библиотеки python, которые являются dask.distriuted. Но есть проблема, заключающаяся в том, что dworkers не предназначены для...
59 просмотров
schedule
12.10.2023
Есть ли dask api для получения текущего количества задач в кластере dask?
Я столкнулся с проблемой, когда планировщик dask был убит (хотя рабочие продолжают работать) с ошибкой памяти, если большое количество задач отправлено за короткий период времени.
Если можно получить текущее количество задач в кластере, то легко...
539 просмотров
schedule
16.02.2024
dask dataframe удалить повторяющиеся значения индекса
Я использую фрейм данных dask с python 2.7 и хочу удалить повторяющиеся значения индекса из моего df.
При использовании панд я бы использовал
df = df[~df.index.duplicated(keep = "first")]
И это работает
При попытке сделать то же самое с...
3129 просмотров
schedule
23.07.2022
Локальный работник Dask не может подключиться к локальному планировщику
При запуске Dask 0.16.0 в OSX 10.12.6 я не могу подключить локальный dask-worker к локальному dask-scheduler . Я просто хочу следовать официальному руководству по Dask . Действия по воспроизведению:
Шаг 1: запустите dask-scheduler...
1010 просмотров
schedule
23.11.2023
Непосредственный запуск задачи на выделенном dask worker
Простой фрагмент кода выглядит следующим образом: комментарий, за которым следует ###, важен.
from dask.distributed import Client
### this code-piece will get executed on a dask worker.
def task_to_perform():
print("task in progress.")
##...
395 просмотров
schedule
02.03.2024
Распространение Dask: получение AttributeError после использования setup.py install
Здравствуйте, я хотел создать дисковое распространение с нуля.
Я прочитал описание здесь
но после этих шагов я получаю сообщение об ошибке, когда использую pytest distributed --verbose
Файл "/ Users / bielefem / Dev / dask /...
629 просмотров
schedule
22.07.2022
сжатие s3fs gzip в кадре данных pandas
Я пытаюсь написать фрейм данных в виде CSV-файла на S3 с помощью библиотеки s3fs и pandas. Несмотря на документацию, я боюсь, что параметр сжатия gzip не работает с s3fs.
def DfTos3Csv (df,file):
with fs.open(file,'wb') as f:...
1655 просмотров
schedule
02.08.2022
Распределенный Dask выполняет задачи последовательно
У меня есть конвейер, работающий с LocalCluster :
from distributed import Client
client = Client()
list_of_queries = [...] # say 1_000 queries
loaded_data = client.map(sql_data_loader, list_of_queries)
processed_data =...
203 просмотров
schedule
01.05.2024
dask.read_parquet вызывает ошибку OOM
Я использую dask для очистки данных в нескольких файлах csv. Этот код отлично работает:
import pandas as pd
import glob
import os
from timeit import default_timer
from dask.distributed import Client
import dask.dataframe as dd
cols_to_keep =...
677 просмотров
schedule
14.07.2022
Dask использует транслируемые pandas.DataFrame в функции apply
У меня есть код, который выбирает запись из pandas.DataFrame для каждой записи в dask.DataFrame k раз.
Но выдает предупреждение:
UserWarning: Large object of size 1.12 MB detected in task graph:
( metric label group_1 group_2...
538 просмотров
schedule
25.06.2022
Даск; построить ленивый массив ND
Я пытаюсь построить 5D (ленивый) массив из разницы векторов положения между дискретизированной поверхностью и внутренней частью сферы. Использование циклов for решает простую задачу (всего 5 уровней вложенности — два для поверхностных позиций и 3 для...
36 просмотров
schedule
28.10.2022
Распараллеливание создания дерева с помощью dask
Мне нужна помощь в решении проблемы, которую, я уверен, может решить dask. Но я не знаю, как с этим справиться.
Мне нужно рекурсивно построить дерево.
Для каждого узла, если критерий соблюден, выполняется вычисление ( compute_val ), иначе...
95 просмотров
schedule
10.04.2024
Dask экспортирует кадр данных в удаленное хранилище (S3)
Когда используешь
dask_df.to_csv('s3://mybucket/mycsv.csv')
Я получаю сообщение об ошибке, что я должен установить s3fs
Я установил его в рабочие (с client.run() ) и все равно получил ошибку.
Поэтому я установил s3fs локально на свою...
31 просмотров
schedule
07.11.2023
Почему задачи занимают больше времени, когда используется больше работников
В настоящее время я изо всех сил пытаюсь понять, почему отдельные задачи выполняются медленнее, когда используется больше рабочих. Например, с одним работником каждая задача занимает ~ 0,5 с, а с шестью работниками каждая задача занимает ~ 1 с....
46 просмотров
schedule
24.10.2023
кластеры dask с диспетчером контекста
Рассмотрим такой простой рабочий процесс:
from dask.distributed import Client
import time
with Client() as client:
futs = client.map(time.sleep, list(range(10)))
Приведенный выше код отправит и почти сразу отменит фьючерсы, так как...
67 просмотров
schedule
31.10.2023
Может ли Dask автоматически создать дерево для распараллеливания вычислений и уменьшения количества копий между рабочими процессами?
Я разбил это на два раздела: ИСТОРИЯ ИСТОРИИ и ВОПРОС. Вопрос до конца внизу.
ФОН:
Предположим, я хочу (с использованием распределенного Dask) выполнить досадно параллельное вычисление, такое как суммирование 16 гигантских фреймов данных. Я...
76 просмотров
schedule
31.01.2024