Публикации по теме 'gpgpu'
Нахождение области синусоидальной волны с помощью cuda.
Как найти область под функцией?
Мы берем N то есть никаких шагов от 0 до ›π. На каждом этапе мы найдем среднюю точку полосы, показанной на изображении выше. и найдите площадь этой единственной полосы по следующей формуле.
Основы cuda c
Графический процессор nVIdia называется устройством , а процессор, из которого вызывается код, называется хостом. для запуска кода на устройстве нам необходимо перенести / скопировать наши данные / переменные в память графического..
Вопросы по теме 'gpgpu'
Сколько «ядер CUDA» имеет каждый мультипроцессор графического процессора?
Я знаю, что устройства до архитектуры Fermi имели 8 SP в одном мультипроцессоре. Счет такой же в архитектуре Ферми?
9962 просмотров
schedule
15.03.2024
Реализация хеш-таблицы для GPU [закрыта]
Я ищу реализацию хеш-таблицы, которую я могу использовать для кодирования CUDA. есть ли хорошие там. Что-то вроде словаря Python. Я буду использовать строки в качестве ключей
9382 просмотров
schedule
20.10.2022
CUDA: только одно задание для начала
Извините за плохой заголовок. Я не мог придумать ничего лучше.
В каждом примере программ CUDA, которые я видел, есть предопределенные данные, готовые к распараллеливанию. Типичным примером является сумма двух матриц, где две матрицы уже...
369 просмотров
schedule
20.01.2024
как оптимизировать умножение матриц с помощью OpenACC?
Я изучаю OpenACC (с компилятором PGI) и пытаюсь оптимизировать пример умножения матриц. Самая быстрая реализация, которую я придумал, следующая:
void matrix_mul(float *restrict r, float *a, float *b, int N, int accelerate){
#pragma acc data...
3655 просмотров
schedule
10.03.2024
Пошаговая отладка приложений OpenCL GPU под Windows с помощью NVidia GPU
Я хотел бы знать, знаете ли вы какой-либо способ пошаговой отладки ядра OpenCL с использованием Windows (моя IDE - Visual Studio) и запуска ядер OpenCL на графическом процессоре NVidia.
Что я нашел до сих пор:
с NVidias NSight вы можете только...
2280 просмотров
schedule
01.08.2022
Каковы самые быстрые из доступных реализаций BLAS/LAPACK или других маршрутов линейной алгебры в системах с графическим процессором?
У nVidia, например, есть CUBLAS, который обещает ускорение в 7-14 раз. Наивно, это далеко не теоретическая пропускная способность любой из графических карт nVidia. Какие проблемы возникают при ускорении линейной алгебры на графических процессорах и...
568 просмотров
schedule
22.11.2023
эффективная передача многомерного массива в графический процессор CUDA
Как можно передать (вид) многомерный массив, определенный аналогично массиву «A» (т.е.
int********* A;
) из преобразования многомерного массива в одномерный в C в CUDA GPU эффективно? Спасибо!
902 просмотров
schedule
29.02.2024
Библиотека с открытым исходным кодом для сложных математических задач, таких как Matrix Mul, LU, FFT и т. д. в OpenCL
Использование графического процессора в общих целях сейчас является обычным явлением. И самая основная вещь, умножение матриц — первая в учебниках по OpenCL. Вместо того, чтобы писать коды и коды ядра для конкретного GPU. Можно ли вызвать их из...
864 просмотров
schedule
12.05.2024
Как эффективно перемешать данные в памяти устройства?
Вопрос
При перемещении множества случайных (не объединенных) значений в глобальной памяти устройства, какой способ сделать это наиболее эффективным?
Примечание: Многие значения как > 500.
Контекст
Я уже некоторое время работаю над...
1077 просмотров
schedule
09.11.2022
Освобождение статической разделяемой памяти CUDA
Есть ли способ освободить общую память, ранее выделенную внутри того же ядра CUDA? Например, внутри ядра в какой-то момент я определил
__shared__ unsigned char flag;
__shared__ unsigned int values [ BLOCK_DIM ];
Позже внутри кода мне нужно...
1186 просмотров
schedule
18.02.2024
Переключают ли ядра графического процессора задачи, когда они закончили с одним?
Я экспериментирую с С++ AMP, одна вещь, которая неясна из документации MS, заключается в следующем:
Если я отправлю parallel_for_each с экстентом, скажем, 1000, это будет означать, что он порождает 1000 потоков. Если графический процессор не...
206 просмотров
schedule
24.01.2024
Как включить cl_khr_fp64 в OpenCL?
Я пытаюсь заставить точность double работать в моем ядре OpenCL, но у меня возникают проблемы с включением cl_khr_fp64 . Если я поставлю #pragma OPENCL EXTENSION cl_khr_fp64 : enable в начало файла ядра и определю переменную double u = 5.0; ,...
6944 просмотров
schedule
05.10.2023
Запись в 32-битные текстуры с плавающей запятой из ядра Metal? Документы говорят "да", среда выполнения говорит "нет"
При проверке частей GPGPU интерфейса Metal я столкнулся с ошибкой утверждения при попытке записи в 32-битную текстуру с плавающей запятой из ядра ( edit: на iPhone 6 с iOS 8.4 .1):
`Non-writable texture format MTLPixelFormatRGBA32Float is being...
543 просмотров
schedule
12.11.2023
Понимание варп-параллелизма (Ферми)
У меня есть следующее ядро, в котором каждый поток (1D Grid, 1D блоки) обрабатывает только один элемент входного массива.
__global__ void normalize_fft_result(double *u_device, int n0)
{
//Use 1d data mapping;
int tid = blockIdx.x *...
115 просмотров
schedule
05.04.2024
Шифрование GPG работает в режиме отладки консоли, но не в режиме выпуска (служба окна)
Я использую gpg (GnuPG) для шифрования файла .csv в файл .gpg. Приведенный ниже код генерирует зашифрованный файл в режиме отладки. Когда я устанавливаю под службой Windows, это исключение. «gpg: ‹>C:\emp.csv: пропущено: нет открытого ключа gpg:...
710 просмотров
schedule
31.10.2022
Билинейная интерполяция по целочисленным координатам в триангуляции Делоне
У меня есть плоская триангуляция Делоне, состоящая примерно из 1 миллиона треугольников. Каждая вершина помечена несколькими скалярными метриками [1], и я хотел бы увидеть быструю и простую интерполяцию каждой из этих метрик на одной и той же...
676 просмотров
schedule
20.09.2022
Неизвестная ошибка в программе OpenCL
Я новичок в программировании opencl и пытаюсь создать следующую программу OpenCL типа «hello world» на C.
Код ядра (hello.cl)
__kernel void hello(__global int* input, __global int* output, const unsigned int count)
{
int i =...
1445 просмотров
schedule
06.10.2022
Случайный NaN и неправильные результаты с ядром OpenCL
Я пытаюсь реализовать общее ядро OpenCL для матричного умножения, которое соответствует C = α*A*B + β*C .
Ядро
Я провел небольшое исследование в Интернете и решил использовать модифицированное ядро с этого веб-сайта в качестве отправная...
846 просмотров
schedule
18.01.2024
как различать потоки графического процессора в одном графическом процессоре для разных потоков процессора хоста
Когда несколько потоков ЦП отправляют задания на один графический процессор, как лучше всего различать потоки графического процессора, чтобы несколько потоков ЦП не просто повторяли друг друга
следующий код вычисляет сумму двух больших массивов...
172 просмотров
schedule
16.01.2024
Как указать CuPy на одновременное выполнение нескольких одинаковых заданий на графическом процессоре?
Ниже представлена простая функция job() , которая выполняет несколько задач CuPy в графическом процессоре.
Как мне указать CuPy запускать job() миллион раз одновременно, а затем суммировать их результаты?
Цель моего вопроса - понять, как...
430 просмотров
schedule
06.10.2023