tipe/src/cnn/make.cu

#include <stdio.h>
#include <float.h>
#include <math.h>

#include "../common/include/colors.h"
#include "../common/include/utils.h"
#include "include/convolution.h"

#include "include/make.h"

#include "include/config.h"

int pooling_not_outside(int x, int y, int lower_bound, int upper_bound) {
    return !(x < lower_bound || y < lower_bound || x >= upper_bound || y>= upper_bound);
}

/* 
* Average Pooling
*/
#ifdef __CUDACC__
__global__ void make_average_pooling_kernel(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth
    int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width
    int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width
    int max_move = size - padding;
    int input_dim = output_width*stride - 2*padding + size - stride;

    if (idx >= output_depth || idy >= output_width || idz >= output_width) {
        return;
    }

    int nb_elements = 0;
    float sum = 0;

    for (int a=-padding; a < max_move; a++) {
        for (int b=-padding; b < max_move; b++) {
            int idy_2 = stride*idy +a;
            int idz_2 = stride*idz +b;
            if (pooling_not_outside(idy_2, idz_2, 0, input_dim)) {
                sum += input[idx][idy_2][idz_2];
                nb_elements++;
            }
        }
    }
    output[idx][idy][idz] = sum/(float)nb_elements;
}

void make_average_pooling_device(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    // Make computation
    dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));
    dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);

    make_average_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width, stride, padding);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

void make_average_pooling_cpu(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    // input[output_depth][output_width+size-1][output_width+size-1]
    // output[output_depth][output_width][output_width]
    int max_move = size - padding;
    int input_dim = output_width*stride - 2*padding + size - stride;

    for (int i=0; i < output_depth; i++) {
        for (int j=0; j < output_width; j++) {
            for (int k=0; k < output_width; k++) {
                float sum = 0.;
                int nb_elements = 0;
                for (int a=-padding; a < max_move; a++) {
                    for (int b=-padding; b < max_move; b++) {
                        int j_2 = stride*j +a;
                        int k_2 = stride*k +b;
                        if (pooling_not_outside(j_2, k_2, 0, input_dim)) {
                            sum += input[i][j_2][k_2];
                            nb_elements++;
                        }
                    }
                }
                output[i][j][k] = sum/(float)nb_elements;
            }
        }
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_average_pooling(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    #ifndef __CUDACC__
    make_average_pooling_cpu(input, output, size, output_depth, output_width, stride, padding);
    #else
    make_average_pooling_device(input, output, size, output_depth, output_width, stride, padding);
    #endif
}


/* 
* Max Pooling
*/
#ifdef __CUDACC__
__global__ void make_max_pooling_kernel(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth
    int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width
    int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width
    int input_dim = output_width*stride - 2*padding + size - stride;

    if (idx >= output_depth || idy >= output_width || idz >= output_width) {
        return;
    }

    int max_move = size - padding;
    float m = -FLT_MAX;
    float temp;

    for (int a=-padding; a < max_move; a++) {
        for (int b=-padding; b < max_move; b++) {
            int idy_2 = stride*idy +a;
            int idz_2 = stride*idz +b;
            if (pooling_not_outside(idy_2, idz_2, 0, input_dim)) {
                temp = input[idx][idy_2][idz_2];
                m = m > temp ? m : temp; // max(m, temp)
            }
        }
    }
    output[idx][idy][idz] = m;
}

void make_max_pooling_device(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    // Make computation
    dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));
    dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);

    make_max_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width, stride, int padding);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

void make_max_pooling_cpu(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    // input[output_depth][output_width+size-1][output_width+size-1]
    // output[output_depth][output_width][output_width]
    int max_move = size - padding;
    int input_dim = output_width*stride - 2*padding + size - stride;
    float m;
    for (int i=0; i < output_depth; i++) {
        for (int j=0; j < output_width; j++) {
            for (int k=0; k < output_width; k++) {
                m = -FLT_MAX;
                for (int a=-padding; a < max_move; a++) {
                    for (int b=-padding; b < max_move; b++) {
                        int j_2 = stride*j +a;
                        int k_2 = stride*k +b;
                        if (pooling_not_outside(j_2, k_2, 0, input_dim)) {
                            m = fmaxf(m, input[i][j_2][k_2]);
                        }
                    }
                }
                output[i][j][k] = m;
            }
        }
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_max_pooling(float*** input, float*** output, int size, int output_depth, int output_width, int stride, int padding) {
    #ifndef __CUDACC__
    make_max_pooling_cpu(input, output, size, output_depth, output_width, stride, padding);
    #else
    make_max_pooling_device(input, output, size, output_depth, output_width, stride, padding);
    #endif
}


/*
* Dense
*/
#ifdef __CUDACC__
__global__ void make_dense_kernel(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output

    if (idx >= size_output) {
        return;
    }
    float f = kernel->bias[idx];

    for (int j=0; j < size_input; j++) {
        f += kernel->weights[j][idx]*input[j];
    }
    output[idx] = f;
}

void make_dense_device(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    // Make computation
    dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);
    dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);

    make_dense_kernel<<<gridSize, blockSize>>>(kernel, input, output, size_input, size_output);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

#ifdef __CUDACC__
extern "C"
#endif
void make_dense_cpu(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    // input[size_input]
    // output[size_output]
    float f;

    for (int i=0; i < size_output; i++) {
        f = kernel->bias[i];
        for (int j=0; j < size_input; j++) {
            f += kernel->weights[j][i]*input[j];
        }
        output[i] = f;
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_dense(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {
    #ifndef __CUDACC__
    make_dense_cpu(kernel, input, output, size_input, size_output);
    #else
    make_dense_device(kernel, input, output, size_input, size_output);
    #endif
}


/*
* Dense linearized
*/
#ifdef __CUDACC__
__global__ void make_dense_linearized_kernel(float** weights, float* bias, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    // Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu
    int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output

    if (idx >= size_output) {
        return;
    }
    float f = bias[idx];

    for (int i=0; i < depth_input; i++) {
        for (int j=0; j < dim_input; j++) {
            for (int k=0; k < dim_input; k++) {
                f += input[i][j][k]*weights[k + j*dim_input + i*depth_input][idx];
            }
        }
    }
    output[idx] = f;
}

void make_dense_linearized_device(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    // Make computation
    dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);
    dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);

    make_dense_linearized_kernel<<<gridSize, blockSize>>>(kernel->weights, kernel->bias, input, output, depth_input, dim_input, size_output);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );
}
#endif

void make_dense_linearized_cpu(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    // input[depth_input][dim_input][dim_input]
    // output[size_output]
    float f;

    for (int l=0; l < size_output; l++) {
        f = kernel->bias[l];
        for (int i=0; i < depth_input; i++) {
            for (int j=0; j < dim_input; j++) {
                for (int k=0; k < dim_input; k++) {
                    f += input[i][j][k]*kernel->weights[k + j*dim_input + i*depth_input][l];
                }
            }
        }
        output[l] = f;
    }
}

#ifdef __CUDACC__
extern "C"
#endif
void make_dense_linearized(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {
    #ifndef __CUDACC__
    make_dense_linearized_cpu(kernel, input, output, depth_input, dim_input, size_output);
    #else
    make_dense_linearized_device(kernel, input, output, depth_input, dim_input, size_output);
    #endif
}
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#include <stdio.h>`
			`#include <float.h>`
Replace min_float by fminf 2023-03-09 14:27:23 +01:00			`#include <math.h>`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
Move generic files to `src/common` 2023-05-12 16:16:34 +02:00			`#include "../common/include/colors.h"`
			`#include "../common/include/utils.h"`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#include "include/convolution.h"`

			`#include "include/make.h"`

Add CUDA blocksize to config.h 2023-03-28 12:54:49 +02:00			`#include "include/config.h"`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`int pooling_not_outside(int x, int y, int lower_bound, int upper_bound) {`
			`return !(x < lower_bound \|\| y < lower_bound \|\| x >= upper_bound \|\| y>= upper_bound);`
			`}`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
			`/*`
			`* Average Pooling`
			`*/`
			`#ifdef __CUDACC__`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`__global__ void make_average_pooling_kernel(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth`
Rename variables 2023-03-03 21:59:51 +01:00			`int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width`
			`int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`int max_move = size - padding;`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`int input_dim = output_widthstride - 2padding + size - stride;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
Rename variables 2023-03-03 21:59:51 +01:00			`if (idx >= output_depth \|\| idy >= output_width \|\| idz >= output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`return;`
			`}`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`int nb_elements = 0;`
Fix average pooling 2023-02-27 18:53:13 +01:00			`float sum = 0;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`for (int a=-padding; a < max_move; a++) {`
			`for (int b=-padding; b < max_move; b++) {`
			`int idy_2 = stride*idy +a;`
			`int idz_2 = stride*idz +b;`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`if (pooling_not_outside(idy_2, idz_2, 0, input_dim)) {`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`sum += input[idx][idy_2][idz_2];`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`nb_elements++;`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`}`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`output[idx][idy][idz] = sum/(float)nb_elements;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`void make_average_pooling_device(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Make computation`
Rename variables 2023-03-03 21:59:51 +01:00			`dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`make_average_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width, stride, padding);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`void make_average_pooling_cpu(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Rename variables 2023-03-03 21:59:51 +01:00			`// input[output_depth][output_width+size-1][output_width+size-1]`
			`// output[output_depth][output_width][output_width]`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`int max_move = size - padding;`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`int input_dim = output_widthstride - 2padding + size - stride;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
			`for (int i=0; i < output_depth; i++) {`
Rename variables 2023-03-03 21:59:51 +01:00			`for (int j=0; j < output_width; j++) {`
			`for (int k=0; k < output_width; k++) {`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`float sum = 0.;`
			`int nb_elements = 0;`
			`for (int a=-padding; a < max_move; a++) {`
			`for (int b=-padding; b < max_move; b++) {`
			`int j_2 = stride*j +a;`
			`int k_2 = stride*k +b;`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`if (pooling_not_outside(j_2, k_2, 0, input_dim)) {`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`sum += input[i][j_2][k_2];`
			`nb_elements++;`
			`}`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`output[i][j][k] = sum/(float)nb_elements;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
			`}`
			`}`

			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`void make_average_pooling(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifndef __CUDACC__`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`make_average_pooling_cpu(input, output, size, output_depth, output_width, stride, padding);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#else`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`make_average_pooling_device(input, output, size, output_depth, output_width, stride, padding);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#endif`
			`}`





			`/*`
			`* Max Pooling`
			`*/`
			`#ifdef __CUDACC__`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`__global__ void make_max_pooling_kernel(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < output_depth`
Rename variables 2023-03-03 21:59:51 +01:00			`int idy = threadIdx.y + blockDim.y*blockIdx.y; // < output_width`
			`int idz = threadIdx.z + blockDim.z*blockIdx.z; // < output_width`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`int input_dim = output_widthstride - 2padding + size - stride;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
Rename variables 2023-03-03 21:59:51 +01:00			`if (idx >= output_depth \|\| idy >= output_width \|\| idz >= output_width) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`return;`
			`}`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`int max_move = size - padding;`
Fix FLT_MIN misuses 2023-03-10 18:20:10 +01:00			`float m = -FLT_MAX;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`float temp;`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`for (int a=-padding; a < max_move; a++) {`
			`for (int b=-padding; b < max_move; b++) {`
			`int idy_2 = stride*idy +a;`
			`int idz_2 = stride*idz +b;`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`if (pooling_not_outside(idy_2, idz_2, 0, input_dim)) {`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`temp = input[idx][idy_2][idz_2];`
			`m = m > temp ? m : temp; // max(m, temp)`
			`}`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
			`output[idx][idy][idz] = m;`
			`}`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`void make_max_pooling_device(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Make computation`
Rename variables 2023-03-03 21:59:51 +01:00			`dim3 gridSize(i_div_up(output_depth, BLOCKSIZE_x), i_div_up(output_width, BLOCKSIZE_y), i_div_up(output_width, BLOCKSIZE_z));`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`dim3 blockSize(BLOCKSIZE_x, BLOCKSIZE_y, BLOCKSIZE_z);`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`make_max_pooling_kernel<<<gridSize, blockSize>>>(input, output, size, output_depth, output_width, stride, int padding);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`void make_max_pooling_cpu(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Rename variables 2023-03-03 21:59:51 +01:00			`// input[output_depth][output_width+size-1][output_width+size-1]`
			`// output[output_depth][output_width][output_width]`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`int max_move = size - padding;`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`int input_dim = output_widthstride - 2padding + size - stride;`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`float m;`
			`for (int i=0; i < output_depth; i++) {`
Rename variables 2023-03-03 21:59:51 +01:00			`for (int j=0; j < output_width; j++) {`
			`for (int k=0; k < output_width; k++) {`
Fix FLT_MIN misuses 2023-03-10 18:20:10 +01:00			`m = -FLT_MAX;`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`for (int a=-padding; a < max_move; a++) {`
			`for (int b=-padding; b < max_move; b++) {`
			`int j_2 = stride*j +a;`
			`int k_2 = stride*k +b;`
Fix issues with the network not converging 2023-05-13 15:39:22 +02:00			`if (pooling_not_outside(j_2, k_2, 0, input_dim)) {`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`m = fmaxf(m, input[i][j_2][k_2]);`
			`}`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
			`output[i][j][k] = m;`
			`}`
			`}`
			`}`
			`}`

			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`void make_max_pooling(float* input, float* output, int size, int output_depth, int output_width, int stride, int padding) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifndef __CUDACC__`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`make_max_pooling_cpu(input, output, size, output_depth, output_width, stride, padding);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#else`
Add 'stride' and 'padding' to the forward 2023-05-13 13:37:46 +02:00			`make_max_pooling_device(input, output, size, output_depth, output_width, stride, padding);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#endif`
			`}`





			`/*`
			`* Dense`
			`*/`
			`#ifdef __CUDACC__`
			`__global__ void make_dense_kernel(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output`

			`if (idx >= size_output) {`
			`return;`
			`}`
			`float f = kernel->bias[idx];`

			`for (int j=0; j < size_input; j++) {`
			`f += kernel->weights[j][idx]*input[j];`
			`}`
			`output[idx] = f;`
			`}`

			`void make_dense_device(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
			`// Make computation`
			`dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);`
			`dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);`

			`make_dense_kernel<<<gridSize, blockSize>>>(kernel, input, output, size_input, size_output);`
			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
			`void make_dense_cpu(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
			`// input[size_input]`
			`// output[size_output]`
			`float f;`

			`for (int i=0; i < size_output; i++) {`
			`f = kernel->bias[i];`
			`for (int j=0; j < size_input; j++) {`
			`f += kernel->weights[j][i]*input[j];`
			`}`
			`output[i] = f;`
			`}`
			`}`

			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
			`void make_dense(Kernel_nn* kernel, float* input, float* output, int size_input, int size_output) {`
			`#ifndef __CUDACC__`
			`make_dense_cpu(kernel, input, output, size_input, size_output);`
			`#else`
			`make_dense_device(kernel, input, output, size_input, size_output);`
			`#endif`
			`}`





			`/*`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`* Dense linearized`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`*/`
			`#ifdef __CUDACC__`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`__global__ void make_dense_linearized_kernel(float** weights, float* bias, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Équivalents respectifs de i, j et k dans la boucle effectuée par le cpu`
			`int idx = threadIdx.x + blockDim.x*blockIdx.x; // < size_output`

			`if (idx >= size_output) {`
			`return;`
			`}`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`float f = bias[idx];`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00
			`for (int i=0; i < depth_input; i++) {`
			`for (int j=0; j < dim_input; j++) {`
			`for (int k=0; k < dim_input; k++) {`
Align memory addresses when allocating for CUDA https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#device-memory-accesses 2023-02-22 15:08:14 +01:00			`f += input[i][j][k]weights[k + jdim_input + i*depth_input][idx];`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`}`
			`}`
			`}`
			`output[idx] = f;`
			`}`

Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`void make_dense_linearized_device(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// Make computation`
			`dim3 gridSize(i_div_up(size_output, BLOCKSIZE_x*BLOCKSIZE_y), 1, 1);`
			`dim3 blockSize(BLOCKSIZE_x*BLOCKSIZE_y, 1, BLOCKSIZE_z);`

Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`make_dense_linearized_kernel<<<gridSize, blockSize>>>(kernel->weights, kernel->bias, input, output, depth_input, dim_input, size_output);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`gpuErrchk( cudaPeekAtLastError() );`
			`gpuErrchk( cudaDeviceSynchronize() );`
			`}`
			`#endif`

Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`void make_dense_linearized_cpu(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`// input[depth_input][dim_input][dim_input]`
			`// output[size_output]`
			`float f;`

			`for (int l=0; l < size_output; l++) {`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`f = kernel->bias[l];`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`for (int i=0; i < depth_input; i++) {`
			`for (int j=0; j < dim_input; j++) {`
			`for (int k=0; k < dim_input; k++) {`
			`f += input[i][j][k]kernel->weights[k + jdim_input + i*depth_input][l];`
			`}`
			`}`
			`}`
			`output[l] = f;`
			`}`
			`}`

			`#ifdef __CUDACC__`
			`extern "C"`
			`#endif`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`void make_dense_linearized(Kernel_nn* kernel, float*** input, float* output, int depth_input, int dim_input, int size_output) {`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#ifndef __CUDACC__`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`make_dense_linearized_cpu(kernel, input, output, depth_input, dim_input, size_output);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#else`
Add bias to make_dense_linearized 2023-02-28 11:47:57 +01:00			`make_dense_linearized_device(kernel, input, output, depth_input, dim_input, size_output);`
Full implementation of forward convolution in CUDA 2023-02-15 11:42:24 +01:00			`#endif`
			`}`