AISE-TUDelft
diff --git a/‎training/README.md‎
Lines changed: 82 additions & 0 deletions b/‎training/README.md‎
Lines changed: 82 additions & 0 deletions
diff --git a/‎training/scoder15b/train.py‎
Lines changed: 152 additions & 0 deletions b/‎training/scoder15b/train.py‎
Lines changed: 152 additions & 0 deletions
diff --git a/‎training/scoder15b/tune.sh‎
Lines changed: 19 additions & 0 deletions b/‎training/scoder15b/tune.sh‎
Lines changed: 19 additions & 0 deletions
@@ -0,0 +1,82 @@
+# Fine-tuning
+
+- This folder contains the training scripts used for fine-tuning StarCoder2. Additionally we disclose the training stats.
+
+- The fine-tuning dataset can be retrieved at this link: https://huggingface.co/datasets/AISE-TUDelft/memtune-tuning_data
+
+- The fine-tuned models can be retrieved at this link: https://huggingface.co/collections/AISE-TUDelft/llm4code-memtune-678a2838766dd16037a8bfe0
+
+## Fine-tuning Setup
+
+### Hardware Configuration
+- 32 CPU cores
+- 32GB RAM
+- Multiple NVIDIA A100 GPUs (80GB memory each)
+  - StarCoder2-3B: 2 GPUs
+  - StarCoder2-7B: 4 GPUs
+  - StarCoder2-15B: 6 GPUs
+
+### Software Stack
+- NVIDIA Driver: 555.42.02
+- CUDA Version: 12.5
+- Transformer Version: 4.41.1
+- Torch Version: 2.3.0+cu121
+
+### Training Configuration
+- Context Window: 1024 tokens
+- Learning Rate: 3e-5
+- Optimizer: Adafactor with linear scheduler
+- Batch Sizes (effective, including gradient accumulation):
+  - 3B model: 24
+  - 7B model: 24
+  - 15B model: 25
+
+### Training Duration
+Approximate training times per model:
+- StarCoder2-3B: 25 hours
+- StarCoder2-7B: 55 hours
+- StarCoder2-15B: 110 hours
+
+## Training Process
+- Training duration: 3 epochs
+- Checkpoints saved after each epoch
+- GPU memory and training time were key factors in determining:
+  - Optimizer selection
+  - Training file configuration
+  - Batch size parameters
+
+Training was conducted using resources provided by the [Delft High-Performance Computing Centre](https://doc.dhpc.tudelft.nl/delftblue/).
+
+## Training stats
+
+### StarCoder2-3B
+
+**Evaluation loss**:
+![](/training/train-stats/StarCoder2-3B/eval-loss.png)
+
+**Training loss**:
+![](/training/train-stats/StarCoder2-3B/train-loss.png)
+
+**Learning rate**:
+![](/training/train-stats/StarCoder2-3B/train-learning_rate.png)
+
+### StarCoder2-7B
+**Evaluation loss**:
+![](/training/train-stats/StarCoder2-7B/eval-loss.png)
+
+**Training loss**:
+![](/training/train-stats/StarCoder2-7B/train-loss.png)
+
+**Learning rate**:
+![](/training/train-stats/StarCoder2-7B/train-learning_rate.png)
+
+### StarCoder2-15B
+
+**Evaluation loss**:
+![](/training/train-stats/StarCoder2-15B/eval-loss.png)
+
+**Training loss**:
+![](/training/train-stats/StarCoder2-15B/train-loss.png)
+
+**Learning rate**:
+![](/training/train-stats/StarCoder2-15B/train-learning_rate.png)
@@ -0,0 +1,152 @@
+"""
+This script is used to fine-tune StarCoder2 family models on a java dataset, for code completion task.
+"""
+import torch 
+from datasets import load_dataset, disable_caching
+from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForLanguageModeling, set_seed
+
+# parallel processing
+from pandarallel import pandarallel
+pandarallel.initialize(progress_bar=True, nb_workers=16)
+from tqdm import tqdm
+tqdm.pandas()
+
+# utility
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt
+import re
+import os
+
+"""
+Setting the variables.
+"""
+
+disable_caching()
+
+set_seed(42) 
+
+wproject = "name" # wb project name
+run_name = "run-name" # name of the W&B run (optional)
+# training batches
+batch = 5
+# Load base-model and tokenizer from HF-hub
+checkpoint = "bigcode/starcoder2-15b"
+# Select the column of interest from the dataset
+text_column = 'content'
+
+# training 
+max_length = 1024
+# model parallel
+device_map = 'auto'
+
+#wandb setup
+import wandb
+wandb.login()
+os.environ["WANDB_PROJECT"] = wproject # wandb project name
+
+"""
+Loading the model and tokenizer
+"""
+# tokenizer
+tokenizer = AutoTokenizer.from_pretrained(checkpoint)
+tokenizer.pad_token = tokenizer.eos_token # setting the pad token to the end of sequence token
+
+# model
+model = AutoModelForCausalLM.from_pretrained(
+    checkpoint, 
+    device_map= device_map)
+
+
+""""
+Loading and preprocessing the data
+"""
+# LINK FOR THE DATASET: https://huggingface.co/datasets/AISE-TUDelft/memtune-tuning_data
+# Load the data
+dataset_train_20 =  load_dataset("AISE-TUDelft/memtune-tuning_data", name = "20k", split = 'train' )
+dataset_valid_20 = load_dataset("AISE-TUDelft/memtune-tuning_data", name = "20k", split = 'valid' )
+
+# Pick the columns of interest
+train_20 = dataset_train_20['train'].select_columns(text_column)
+validation_20 = dataset_valid_20['valid'].select_columns(text_column)
+
+# Tokenize the sequences
+# Note: StarCoder2 has a context lenght of 8,000 tokens,
+def tokenize_input(batch):
+    return tokenizer(batch[text_column], padding="max_length", truncation=True, max_length=max_length, return_tensors='pt')
+
+training_20 = train_20.map(tokenize_input, batched=True, num_proc=64, remove_columns=text_column)
+validating_20 = validation_20.map(tokenize_input, batched=True, num_proc=64,remove_columns=text_column)
+
+""" 
+Training initialization
+"""
+# Data collator
+data_collator = DataCollatorForLanguageModeling(
+        tokenizer=tokenizer, 
+        mlm=False, 
+        return_tensors='pt'
+    )
+
+
+# Args
+output_dir = "./epochs"
+overwrite_output_dir= False
+
+per_device_train_batch_size = batch
+per_device_eval_batch_size = batch
+gradient_accumulation_steps = 5
+
+optim = "adafactor"
+adam_beta1 = 0.9
+weight_decay = 0.1 
+
+learning_rate = 3e-5 
+lr_scheduler_type = "linear" 
+warmup_steps = 50
+
+num_train_epochs = 3
+eval_steps = 0.08 #200 # each epoch two evaluations
+eval_strategy = "steps" # default is "no"
+save_strategy = "epoch" # default is "steps"
+
+logging_steps = 1
+report_to = "wandb"
+
+# Training arguments
+training_args = TrainingArguments(
+    output_dir=output_dir, 
+    overwrite_output_dir=overwrite_output_dir,
+    save_strategy = save_strategy,
+    eval_strategy = eval_strategy,
+    
+    num_train_epochs=num_train_epochs,
+    per_device_train_batch_size=per_device_train_batch_size,
+    gradient_accumulation_steps = gradient_accumulation_steps,
+    
+    per_device_eval_batch_size=per_device_eval_batch_size,
+    eval_steps = eval_steps,
+
+    optim = optim,
+    adam_beta1 = adam_beta1,
+    weight_decay = weight_decay,
+    
+    learning_rate = learning_rate,
+    lr_scheduler_type = lr_scheduler_type,
+    warmup_steps = warmup_steps,
+    
+    logging_steps = logging_steps,
+    report_to=report_to,
+    run_name=run_name,
+    seed = 42)
+
+trainer = Trainer(
+    model = model,
+    args = training_args,
+    data_collator = data_collator,
+    train_dataset = training_20,
+    eval_dataset = validating_20
+)
+
+# Training
+trainer.train()
@@ -0,0 +1,19 @@
+#!/bin/bash
+#SBATCH --job-name=15b6g25b
+#SBATCH --partition=gpu-a100
+#SBATCH --time=110:00:00
+#SBATCH --ntasks=1
+#SBATCH --cpus-per-task=32
+#SBATCH --mem=80G
+#SBATCH --gpus=8
+
+# Deployment purposes
+# This script is used to deploy run .py files on the cluster
+
+# Set conda env:
+unset CONDA_SHLVL
+source "$(conda info --base)/etc/profile.d/conda.sh"
+
+conda activate memenv
+python3 train.py
+conda deactivate