tipe/src/cnn/make.c

#include <stdio.h>
#include <float.h>

#include "include/convolution.h"
#include "../include/colors.h"
#include "../include/utils.h"

#include "include/make.h"

#define BLOCKSIZE_x 16
#define BLOCKSIZE_y 8
#define BLOCKSIZE_z 8

float max_flt(float a, float b) {
    // Return the max between the two floats
    if (a > b) {
        return a;
    }
    return b;
}


/* 
* Average Pooling
*/
#ifdef __CUDACC__
__global__ void make_average_pooling_kernel(float*** input, float*** output, int size, int output_depth, int output_width) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth
    int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width
    int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width
    int n = size*size;

    if (idx >= output_depth || idy >= output_width || idz >= output_width) {
        return;
    }

    float sum = 0;

    for (int a=0; a < size; a++) {
        for (int b=0; b < size; b++) {
            sum += input[idx][size*idy +a][size*idz +b];
        }
    }
    output[idx][idy][idz] = sum/(float)n;
}

void make_average_pooling_device(float*** input, float*** output, int size, int output_depth, int output_width) {
    // Make computation
    dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));
    dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);

    make_average_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

void make_average_pooling_cpu(float*** input, float*** output, int size, int output_depth, int output_width) {
    // input[output_depth][output_width+size-1][output_width+size-1]
    // output[output_depth][output_width][output_width]
    float sum;
    int n = size*size;

    for (int i=0; i < output_depth; i++) {
        for (int j=0; j < output_width; j++) {
            for (int k=0; k < output_width; k++) {
                sum = 0;
                for (int a=0; a < size; a++) {
                    for (int b=0; b < size; b++) {
                        sum += input[i][size*j +a][size*k +b];
                    }
                }
                output[i][j][k] = sum/(float)n;
            }
        }
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_average_pooling(float*** input, float*** output, int size, int output_depth, int output_width) {
    #ifndef __CUDACC__
    make_average_pooling_cpu(input, output, size, output_depth, output_width);
    #else
    make_average_pooling_device(input, output, size, output_depth, output_width);
    #endif
}


/* 
* Max Pooling
*/
#ifdef __CUDACC__
__global__ void make_max_pooling_kernel(float*** input, float*** output, int size, int output_depth, int output_width) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth
    int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width
    int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width

    if (idx >= output_depth || idy >= output_width || idz >= output_width) {
        return;
    }

    float m = FLT_MIN;
    float temp;

    for (int a=0; a < size; a++) {
        for (int b=0; b < size; b++) {
            temp = input[idx][size*idy +a][size*idz +b];
            m = m > temp ? m : temp; // max(m, temp)
        }
    }
    output[idx][idy][idz] = m;
}

void make_max_pooling_device(float*** input, float*** output, int size, int output_depth, int output_width) {
    // Make computation
    dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));
    dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);

    make_max_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

void make_max_pooling_cpu(float*** input, float*** output, int size, int output_depth, int output_width) {
    // input[output_depth][output_width+size-1][output_width+size-1]
    // output[output_depth][output_width][output_width]
    float m;
    for (int i=0; i < output_depth; i++) {
        for (int j=0; j < output_width; j++) {
            for (int k=0; k < output_width; k++) {
                m = FLT_MIN;
                for (int a=0; a < size; a++) {
                    for (int b=0; b < size; b++) {
                        m = max_flt(m, input[i][size*j +a][size*k +b]);
                    }
                }
                output[i][j][k] = m;
            }
        }
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_max_pooling(float*** input, float*** output, int size, int output_depth, int output_width) {
    #ifndef __CUDACC__
    make_max_pooling_cpu(input, output, size, output_depth, output_width);
    #else
    make_max_pooling_device(input, output, size, output_depth, output_width);
    #endif
}


/*
* Dense
*/
#ifdef __CUDACC__
__global__ void make_dense_kernel(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output

    if (idx >= size_output) {
        return;
    }
    float f = kernel->bias[idx];

    for (int j=0; j < size_input; j++) {
        f += kernel->weights[j][idx]*input[j];
    }
    output[idx] = f;
}

void make_dense_device(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    // Make computation
    dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);
    dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);

    make_dense_kernel<<<gridSize, blockSize>>>(kernel, input, output, size_input, size_output);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

#ifdef __CUDACC__
extern "C"
#endif
void make_dense_cpu(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    // input[size_input]
    // output[size_output]
    float f;

    for (int i=0; i < size_output; i++) {
        f = kernel->bias[i];
        for (int j=0; j < size_input; j++) {
            f += kernel->weights[j][i]*input[j];
        }
        output[i] = f;
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_dense(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    #ifndef __CUDACC__
    make_dense_cpu(kernel, input, output, size_input, size_output);
    #else
    make_dense_device(kernel, input, output, size_input, size_output);
    #endif
}


/*
* Dense linearized
*/
#ifdef __CUDACC__
__global__ void make_dense_linearized_kernel(float** weights, float* bias, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output

    if (idx >= size_output) {
        return;
    }
    float f = bias[idx];

    for (int i=0; i < depth_input; i++) {
        for (int j=0; j < dim_input; j++) {
            for (int k=0; k < dim_input; k++) {
                f += input[i][j][k]*weights[k + j*dim_input + i*depth_input][idx];
            }
        }
    }
    output[idx] = f;
}

void make_dense_linearized_device(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    // Make computation
    dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);
    dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);

    make_dense_linearized_kernel<<<gridSize, blockSize>>>(kernel->weights, kernel->bias, input, output, depth_input, dim_input, size_output);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

void make_dense_linearized_cpu(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    // input[depth_input][dim_input][dim_input]
    // output[size_output]
    float f;

    for (int l=0; l < size_output; l++) {
        f = kernel->bias[l];
        for (int i=0; i < depth_input; i++) {
            for (int j=0; j < dim_input; j++) {
                for (int k=0; k < dim_input; k++) {
                    f += input[i][j][k]*kernel->weights[k + j*dim_input + i*depth_input][l];
                }
            }
        }
        output[l] = f;
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_dense_linearized(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    #ifndef __CUDACC__
    make_dense_linearized_cpu(kernel, input, output, depth_input, dim_input, size_output);
    #else
    make_dense_linearized_device(kernel, input, output, depth_input, dim_input, size_output);
    #endif
}
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00			`#include <stdio.h>`
merge 2023-01-30 09:39:45 +01:00			`#include <float.h>`
Add colors.h 2022-09-28 10:20:08 +02:00
Add cuda convolution 2022-11-01 17:24:29 +01:00			`#include "include/convolution.h"`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#include "../include/colors.h"`
			`#include "../include/utils.h"`

Creation of the folder 'include' 2022-09-16 14:53:35 +02:00			`#include "include/make.h"`
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#define BLOCKSIZE_x 16`
			`#define BLOCKSIZE_y 8`
			`#define BLOCKSIZE_z 8`

merge 2023-01-30 09:39:45 +01:00			`float max_flt(float a, float b) {`
			`// Return the max between the two floats`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`if (a > b) {`
merge 2023-01-30 09:39:45 +01:00			`return a;`
			`}`
			`return b;`
			`}`
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00



			`/*`
			`* Average Pooling`
			`*/`
			`#ifdef __CUDACC__`
Rename variables 2023-03-03 21:59:51 +01:00			`__global__ void make_average_pooling_kernel(float* input, float* output, int size, int output_depth, int output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth`
Rename variables 2023-03-03 21:59:51 +01:00			`int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width`
			`int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`int n = size*size;`

Rename variables 2023-03-03 21:59:51 +01:00			`if (idx >= output_depth \|\| idy >= output_width \|\| idz >= output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`return;`
			`}`

Fix average pooling 2023-02-27 18:53:13 +01:00			`float sum = 0;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
			`for (int a=0; a < size; a++) {`
			`for (int b=0; b < size; b++) {`
Fix average pooling 2023-02-27 18:53:13 +01:00			`sum += input[idx][sizeidy +a][sizeidz +b];`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
Fix average pooling 2023-02-27 18:53:13 +01:00			`output[idx][idy][idz] = sum/(float)n;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`

Rename variables 2023-03-03 21:59:51 +01:00			`void make_average_pooling_device(float* input, float* output, int size, int output_depth, int output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Make computation`
Rename variables 2023-03-03 21:59:51 +01:00			`dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);`

Rename variables 2023-03-03 21:59:51 +01:00			`make_average_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

Rename variables 2023-03-03 21:59:51 +01:00			`void make_average_pooling_cpu(float* input, float* output, int size, int output_depth, int output_width) {`
			`// input[output_depth][output_width+size-1][output_width+size-1]`
			`// output[output_depth][output_width][output_width]`
Fix average pooling 2023-02-27 18:53:13 +01:00			`float sum;`
Update mnist_cnn: improve code readability 2022-09-09 17:39:07 +02:00			`int n = size*size;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
Update mnist_cnn: improve code readability 2022-09-09 17:39:07 +02:00			`for (int i=0; i < output_depth; i++) {`
Rename variables 2023-03-03 21:59:51 +01:00			`for (int j=0; j < output_width; j++) {`
			`for (int k=0; k < output_width; k++) {`
Fix average pooling 2023-02-27 18:53:13 +01:00			`sum = 0;`
Update mnist_cnn: improve code readability 2022-09-09 17:39:07 +02:00			`for (int a=0; a < size; a++) {`
			`for (int b=0; b < size; b++) {`
Fix average pooling 2023-02-27 18:53:13 +01:00			`sum += input[i][sizej +a][sizek +b];`
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00			`}`
			`}`
Fix average pooling 2023-02-27 18:53:13 +01:00			`output[i][j][k] = sum/(float)n;`
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00			`}`
			`}`
			`}`
			`}`

Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
Rename variables 2023-03-03 21:59:51 +01:00			`void make_average_pooling(float* input, float* output, int size, int output_depth, int output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifndef __CUDACC__`
Rename variables 2023-03-03 21:59:51 +01:00			`make_average_pooling_cpu(input, output, size, output_depth, output_width);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#else`
Rename variables 2023-03-03 21:59:51 +01:00			`make_average_pooling_device(input, output, size, output_depth, output_width);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#endif`
			`}`





			`/*`
			`* Max Pooling`
			`*/`
			`#ifdef __CUDACC__`
Rename variables 2023-03-03 21:59:51 +01:00			`__global__ void make_max_pooling_kernel(float* input, float* output, int size, int output_depth, int output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth`
Rename variables 2023-03-03 21:59:51 +01:00			`int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width`
			`int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
Rename variables 2023-03-03 21:59:51 +01:00			`if (idx >= output_depth \|\| idy >= output_width \|\| idz >= output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`return;`
			`}`

			`float m = FLT_MIN;`
			`float temp;`

			`for (int a=0; a < size; a++) {`
			`for (int b=0; b < size; b++) {`
			`temp = input[idx][sizeidy +a][sizeidz +b];`
			`m = m > temp ? m : temp; // max(m, temp)`
			`}`
			`}`
			`output[idx][idy][idz] = m;`
			`}`

Rename variables 2023-03-03 21:59:51 +01:00			`void make_max_pooling_device(float* input, float* output, int size, int output_depth, int output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Make computation`
Rename variables 2023-03-03 21:59:51 +01:00			`dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);`

Rename variables 2023-03-03 21:59:51 +01:00			`make_max_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

Rename variables 2023-03-03 21:59:51 +01:00			`void make_max_pooling_cpu(float* input, float* output, int size, int output_depth, int output_width) {`
			`// input[output_depth][output_width+size-1][output_width+size-1]`
			`// output[output_depth][output_width][output_width]`
merge 2023-01-30 09:39:45 +01:00			`float m;`
			`for (int i=0; i < output_depth; i++) {`
Rename variables 2023-03-03 21:59:51 +01:00			`for (int j=0; j < output_width; j++) {`
			`for (int k=0; k < output_width; k++) {`
merge 2023-01-30 09:39:45 +01:00			`m = FLT_MIN;`
			`for (int a=0; a < size; a++) {`
			`for (int b=0; b < size; b++) {`
			`m = max_flt(m, input[i][sizej +a][sizek +b]);`
			`}`
			`}`
			`output[i][j][k] = m;`
			`}`
			`}`
			`}`
			`}`

Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
Rename variables 2023-03-03 21:59:51 +01:00			`void make_max_pooling(float* input, float* output, int size, int output_depth, int output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifndef __CUDACC__`
Rename variables 2023-03-03 21:59:51 +01:00			`make_max_pooling_cpu(input, output, size, output_depth, output_width);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#else`
Rename variables 2023-03-03 21:59:51 +01:00			`make_max_pooling_device(input, output, size, output_depth, output_width);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#endif`
			`}`





			`/*`
			`* Dense`
			`*/`
			`#ifdef __CUDACC__`
			`__global__ void make_dense_kernel(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output`

			`if (idx >= size_output) {`
			`return;`
			`}`
			`float f = kernel->bias[idx];`

			`for (int j=0; j < size_input; j++) {`
			`f += kernel->weights[j][idx]*input[j];`
			`}`
			`output[idx] = f;`
			`}`

			`void make_dense_device(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
			`// Make computation`
			`dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);`
			`dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);`

			`make_dense_kernel<<<gridSize, blockSize>>>(kernel, input, output, size_input, size_output);`
			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
			`void make_dense_cpu(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
Updates in comments 2022-11-01 10:10:43 +01:00			`// input[size_input]`
			`// output[size_output]`
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00			`float f;`
Update backpropagation.c 2022-11-03 18:13:01 +01:00
Update mnist_cnn: improve code readability 2022-09-09 17:39:07 +02:00			`for (int i=0; i < size_output; i++) {`
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00			`f = kernel->bias[i];`
Update mnist_cnn: improve code readability 2022-09-09 17:39:07 +02:00			`for (int j=0; j < size_input; j++) {`
Fix indices error 2023-01-15 17:51:23 +01:00			`f += kernel->weights[j][i]*input[j];`
Seperation in files of cnn.c 2022-07-05 08:13:25 +02:00			`}`
			`output[i] = f;`
			`}`
Completion of the forward 2022-10-02 20:31:20 +02:00			`}`

Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
			`void make_dense(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
			`#ifndef __CUDACC__`
			`make_dense_cpu(kernel, input, output, size_input, size_output);`
			`#else`
			`make_dense_device(kernel, input, output, size_input, size_output);`
			`#endif`
			`}`





			`/*`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`* Dense linearized`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`*/`
			`#ifdef __CUDACC__`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`__global__ void make_dense_linearized_kernel(float** weights, float* bias, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output`

			`if (idx >= size_output) {`
			`return;`
			`}`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`float f = bias[idx];`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
			`for (int i=0; i < depth_input; i++) {`
			`for (int j=0; j < dim_input; j++) {`
			`for (int k=0; k < dim_input; k++) {`
Align memory addresses when allocating for CUDA https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#device-memory-accesses 2023-02-22 15:08:14 +01:00			`f += input[i][j][k]weights[k + jdim_input + i*depth_input][idx];`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
			`}`
			`output[idx] = f;`
			`}`

Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`void make_dense_linearized_device(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Make computation`
			`dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);`
			`dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);`

Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`make_dense_linearized_kernel<<<gridSize, blockSize>>>(kernel->weights, kernel->bias, input, output, depth_input, dim_input, size_output);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`void make_dense_linearized_cpu(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Updates in comments 2022-11-01 10:10:43 +01:00			`// input[depth_input][dim_input][dim_input]`
			`// output[size_output]`
Completion of the forward 2022-10-02 20:31:20 +02:00			`float f;`
Update backpropagation.c 2022-11-03 18:13:01 +01:00
			`for (int l=0; l < size_output; l++) {`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`f = kernel->bias[l];`
Update backpropagation.c 2022-11-03 18:13:01 +01:00			`for (int i=0; i < depth_input; i++) {`
			`for (int j=0; j < dim_input; j++) {`
			`for (int k=0; k < dim_input; k++) {`
Completion of the forward 2022-10-02 20:31:20 +02:00			`f += input[i][j][k]kernel->weights[k + jdim_input + i*depth_input][l];`
			`}`
			`}`
			`}`
Fix of an error 2022-11-03 11:04:47 +01:00			`output[l] = f;`
Completion of the forward 2022-10-02 20:31:20 +02:00			`}`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`

			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`void make_dense_linearized(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifndef __CUDACC__`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`make_dense_linearized_cpu(kernel, input, output, depth_input, dim_input, size_output);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#else`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`make_dense_linearized_device(kernel, input, output, depth_input, dim_input, size_output);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#endif`
			`}`