Публикации по теме 'gpgpu'


Нахождение области синусоидальной волны с помощью cuda.
Как найти область под функцией? Мы берем N то есть никаких шагов от 0 до ›π. На каждом этапе мы найдем среднюю точку полосы, показанной на изображении выше. и найдите площадь этой единственной полосы по следующей формуле. Основы cuda c Графический процессор nVIdia называется устройством , а процессор, из которого вызывается код, называется хостом. для запуска кода на устройстве нам необходимо перенести / скопировать наши данные / переменные в память графического..

Вопросы по теме 'gpgpu'

Сколько «ядер CUDA» имеет каждый мультипроцессор графического процессора?
Я знаю, что устройства до архитектуры Fermi имели 8 SP в одном мультипроцессоре. Счет такой же в архитектуре Ферми?
9962 просмотров
schedule 15.03.2024

Реализация хеш-таблицы для GPU [закрыта]
Я ищу реализацию хеш-таблицы, которую я могу использовать для кодирования CUDA. есть ли хорошие там. Что-то вроде словаря Python. Я буду использовать строки в качестве ключей
9382 просмотров
schedule 20.10.2022

CUDA: только одно задание для начала
Извините за плохой заголовок. Я не мог придумать ничего лучше. В каждом примере программ CUDA, которые я видел, есть предопределенные данные, готовые к распараллеливанию. Типичным примером является сумма двух матриц, где две матрицы уже...
369 просмотров
schedule 20.01.2024

как оптимизировать умножение матриц с помощью OpenACC?
Я изучаю OpenACC (с компилятором PGI) и пытаюсь оптимизировать пример умножения матриц. Самая быстрая реализация, которую я придумал, следующая: void matrix_mul(float *restrict r, float *a, float *b, int N, int accelerate){ #pragma acc data...
3655 просмотров
schedule 10.03.2024

Пошаговая отладка приложений OpenCL GPU под Windows с помощью NVidia GPU
Я хотел бы знать, знаете ли вы какой-либо способ пошаговой отладки ядра OpenCL с использованием Windows (моя IDE - Visual Studio) и запуска ядер OpenCL на графическом процессоре NVidia. Что я нашел до сих пор: с NVidias NSight вы можете только...
2280 просмотров
schedule 01.08.2022

Каковы самые быстрые из доступных реализаций BLAS/LAPACK или других маршрутов линейной алгебры в системах с графическим процессором?
У nVidia, например, есть CUBLAS, который обещает ускорение в 7-14 раз. Наивно, это далеко не теоретическая пропускная способность любой из графических карт nVidia. Какие проблемы возникают при ускорении линейной алгебры на графических процессорах и...
568 просмотров
schedule 22.11.2023

эффективная передача многомерного массива в графический процессор CUDA
Как можно передать (вид) многомерный массив, определенный аналогично массиву «A» (т.е. int********* A; ) из преобразования многомерного массива в одномерный в C в CUDA GPU эффективно? Спасибо!
902 просмотров
schedule 29.02.2024

Библиотека с открытым исходным кодом для сложных математических задач, таких как Matrix Mul, LU, FFT и т. д. в OpenCL
Использование графического процессора в общих целях сейчас является обычным явлением. И самая основная вещь, умножение матриц — первая в учебниках по OpenCL. Вместо того, чтобы писать коды и коды ядра для конкретного GPU. Можно ли вызвать их из...
864 просмотров

Как эффективно перемешать данные в памяти устройства?
Вопрос При перемещении множества случайных (не объединенных) значений в глобальной памяти устройства, какой способ сделать это наиболее эффективным? Примечание: Многие значения как > 500. Контекст Я уже некоторое время работаю над...
1077 просмотров
schedule 09.11.2022

Освобождение статической разделяемой памяти CUDA
Есть ли способ освободить общую память, ранее выделенную внутри того же ядра CUDA? Например, внутри ядра в какой-то момент я определил __shared__ unsigned char flag; __shared__ unsigned int values [ BLOCK_DIM ]; Позже внутри кода мне нужно...
1186 просмотров
schedule 18.02.2024

Переключают ли ядра графического процессора задачи, когда они закончили с одним?
Я экспериментирую с С++ AMP, одна вещь, которая неясна из документации MS, заключается в следующем: Если я отправлю parallel_for_each с экстентом, скажем, 1000, это будет означать, что он порождает 1000 потоков. Если графический процессор не...
206 просмотров
schedule 24.01.2024

Как включить cl_khr_fp64 в OpenCL?
Я пытаюсь заставить точность double работать в моем ядре OpenCL, но у меня возникают проблемы с включением cl_khr_fp64 . Если я поставлю #pragma OPENCL EXTENSION cl_khr_fp64 : enable в начало файла ядра и определю переменную double u = 5.0; ,...
6944 просмотров
schedule 05.10.2023

Запись в 32-битные текстуры с плавающей запятой из ядра Metal? Документы говорят "да", среда выполнения говорит "нет"
При проверке частей GPGPU интерфейса Metal я столкнулся с ошибкой утверждения при попытке записи в 32-битную текстуру с плавающей запятой из ядра ( edit: на iPhone 6 с iOS 8.4 .1): `Non-writable texture format MTLPixelFormatRGBA32Float is being...
543 просмотров
schedule 12.11.2023

Понимание варп-параллелизма (Ферми)
У меня есть следующее ядро, в котором каждый поток (1D Grid, 1D блоки) обрабатывает только один элемент входного массива. __global__ void normalize_fft_result(double *u_device, int n0) { //Use 1d data mapping; int tid = blockIdx.x *...
115 просмотров
schedule 05.04.2024

Шифрование GPG работает в режиме отладки консоли, но не в режиме выпуска (служба окна)
Я использую gpg (GnuPG) для шифрования файла .csv в файл .gpg. Приведенный ниже код генерирует зашифрованный файл в режиме отладки. Когда я устанавливаю под службой Windows, это исключение. «gpg: ‹>C:\emp.csv: пропущено: нет открытого ключа gpg:...
710 просмотров
schedule 31.10.2022

Билинейная интерполяция по целочисленным координатам в триангуляции Делоне
У меня есть плоская триангуляция Делоне, состоящая примерно из 1 миллиона треугольников. Каждая вершина помечена несколькими скалярными метриками [1], и я хотел бы увидеть быструю и простую интерполяцию каждой из этих метрик на одной и той же...
676 просмотров

Неизвестная ошибка в программе OpenCL
Я новичок в программировании opencl и пытаюсь создать следующую программу OpenCL типа «hello world» на C. Код ядра (hello.cl) __kernel void hello(__global int* input, __global int* output, const unsigned int count) { int i =...
1445 просмотров
schedule 06.10.2022

Случайный NaN и неправильные результаты с ядром OpenCL
Я пытаюсь реализовать общее ядро ​​OpenCL для матричного умножения, которое соответствует C = α*A*B + β*C . Ядро Я провел небольшое исследование в Интернете и решил использовать модифицированное ядро ​​с этого веб-сайта в качестве отправная...
846 просмотров
schedule 18.01.2024

как различать потоки графического процессора в одном графическом процессоре для разных потоков процессора хоста
Когда несколько потоков ЦП отправляют задания на один графический процессор, как лучше всего различать потоки графического процессора, чтобы несколько потоков ЦП не просто повторяли друг друга следующий код вычисляет сумму двух больших массивов...
172 просмотров
schedule 16.01.2024

Как указать CuPy на одновременное выполнение нескольких одинаковых заданий на графическом процессоре?
Ниже представлена ​​простая функция job() , которая выполняет несколько задач CuPy в графическом процессоре. Как мне указать CuPy запускать job() миллион раз одновременно, а затем суммировать их результаты? Цель моего вопроса - понять, как...
430 просмотров
schedule 06.10.2023