diff --git a/dlib/cuda/cpu_dlib.cpp b/dlib/cuda/cpu_dlib.cpp
index ac0ace4d79..3585693767 100644
--- a/dlib/cuda/cpu_dlib.cpp
+++ b/dlib/cuda/cpu_dlib.cpp
@@ -1494,7 +1494,6 @@ namespace dlib
                 }
                 p_scale[n] = 1.0f / std::sqrt(p_scale[n] / (ks * num) + static_cast<float>(eps));
             }
-            scale.host();
 
             // Apply RMS normalization
             p_src = src.host();
@@ -1648,14 +1647,22 @@ namespace dlib
                             for (long k = 0; k < num_channels; ++k)
                                 max_val = std::max(max_val, ss[k * num_locations]);
 
-                            float sum = 0.0f;
-                            for (long k = 0; k < num_channels; ++k)
+                            if (max_val == -std::numeric_limits<float>::infinity())
                             {
-                                dd[k * num_locations] = std::exp(ss[k * num_locations] - max_val);
-                                sum += dd[k * num_locations];
+                                for (long k = 0; k < num_channels; ++k)
+                                    dd[k * num_locations] = 0.0f;
+                            }
+                            else
+                            {
+                                float sum = 0.0f;
+                                for (long k = 0; k < num_channels; ++k)
+                                {
+                                    dd[k * num_locations] = std::exp(ss[k * num_locations] - max_val);
+                                    sum += dd[k * num_locations];
+                                }
+                                for (long k = 0; k < num_channels; ++k)
+									dd[k * num_locations] /= sum;
                             }
-                            for (long k = 0; k < num_channels; ++k)
-                                dd[k * num_locations] /= sum;
 
                             ++ss;
                             ++dd;
@@ -3366,6 +3373,69 @@ namespace dlib
             }
         }
 
+    // ------------------------------------------------------------------------------------
+
+        void apply_rotary_positional_embedding(
+            bool is_backward,
+            resizable_tensor& data,
+            const resizable_tensor& cos_cache,
+            const resizable_tensor& sin_cache)
+        {
+            const long batch_size = data.num_samples();
+            const long num_heads = data.k();
+            const long seq_len = data.nr();
+            const long d_head = data.nc();
+            const long half_d = d_head / 2;
+
+            DLIB_CASSERT(cos_cache.nr() == seq_len, "cos_cache rows must match seq_len");
+            DLIB_CASSERT(cos_cache.nc() == half_d, "cos_cache cols must be d_head/2");
+            DLIB_CASSERT(sin_cache.nr() == seq_len, "sin_cache rows must match seq_len");
+            DLIB_CASSERT(sin_cache.nc() == half_d, "sin_cache cols must be d_head/2");
+
+            const bool is_odd = (d_head % 2 != 0);
+            const long rot_dim = is_odd ? d_head - 1 : d_head;
+
+            float* data_ptr = data.host();
+            const float* cos_ptr = cos_cache.host();
+            const float* sin_ptr = sin_cache.host();
+
+            const size_t total_elements = batch_size * num_heads * seq_len * half_d;
+
+            parallel_for(0, total_elements, [&](long idx)
+            {
+                const long pair_idx = idx % half_d;
+                const long pos = (idx / half_d) % seq_len;
+                const long head = (idx / (half_d * seq_len)) % num_heads;
+                const long batch = idx / (half_d * seq_len * num_heads);
+
+                const long dim_i = pair_idx * 2;
+                if (dim_i >= rot_dim) return;
+
+                const long data_offset = ((batch * num_heads + head) * seq_len + pos) * d_head + dim_i;
+                const long trig_offset = pos * half_d + pair_idx;
+
+                const float c = cos_ptr[trig_offset];
+                const float s = sin_ptr[trig_offset];
+                const float x0 = data_ptr[data_offset];
+                const float x1 = data_ptr[data_offset + 1];
+
+                if (!is_backward)
+                {
+                    // Forward: [cos -sin] [x0]
+                    //          [sin  cos] [x1]
+                    data_ptr[data_offset] = x0 * c - x1 * s;
+                    data_ptr[data_offset + 1] = x0 * s + x1 * c;
+                }
+                else
+                {
+                    // Backward (inverse rotation): [cos  sin] [x0]
+                    //                              [-sin cos] [x1]
+                    data_ptr[data_offset] = x0 * c + x1 * s;
+                    data_ptr[data_offset + 1] = -x0 * s + x1 * c;
+                }
+            });
+        }
+
     // ------------------------------------------------------------------------------------
     
     } 
diff --git a/dlib/cuda/cpu_dlib.h b/dlib/cuda/cpu_dlib.h
index 4e29c8a8d9..1689ba0cf7 100644
--- a/dlib/cuda/cpu_dlib.h
+++ b/dlib/cuda/cpu_dlib.h
@@ -584,6 +584,15 @@ namespace dlib
             float scale_factor
         );
 
+    // -----------------------------------------------------------------------------------
+
+        void apply_rotary_positional_embedding(
+            bool is_backward,
+            resizable_tensor& data,
+            const resizable_tensor& cos_cache,
+            const resizable_tensor& sin_cache
+        );
+
     // -----------------------------------------------------------------------------------
 
         class pooling
@@ -761,6 +770,138 @@ namespace dlib
 
     // -----------------------------------------------------------------------------------
 
+    class compute_loss_cross_entropy_per_logit
+    {
+        /*!
+            Computes cross-entropy loss for causal language modeling
+            Uses all sequence positions (except last) for training
+            Each position t predicts the token at position t+1
+        !*/
+    public:
+        compute_loss_cross_entropy_per_logit() {}
+    
+        template <typename const_label_iterator>
+        void operator()(
+            const_label_iterator truth,
+            const tensor& input_tensor,
+            const tensor& output_tensor,
+            tensor& grad,
+            double& loss,
+            long ignore_index
+        ) const
+        {
+            DLIB_CASSERT(output_tensor.k() == 1);
+            DLIB_CASSERT(input_tensor.k() == 1);
+            DLIB_CASSERT(input_tensor.nc() == 1);
+        
+            const long batch_size = output_tensor.num_samples();
+            const long seq_len = output_tensor.nr();
+            const long vocab_size = output_tensor.nc();
+                
+            const float* out_data = output_tensor.host();
+            const float* in_data = input_tensor.host();
+            float* g = grad.host();            
+        
+            std::fill(g, g + grad.size(), 0.0f);
+
+            long valid_tokens = 0;
+
+            if (ignore_index < 0)
+            {
+                valid_tokens = batch_size * seq_len;
+            }
+            else {
+                for (long i = 0; i < batch_size; ++i)
+                {
+                    for (long t = 0; t < seq_len; ++t)
+                    {
+                        unsigned long target_class;
+                        if (t < seq_len - 1) {
+                            target_class = static_cast<unsigned long>(
+                                in_data[tensor_index(input_tensor, i, 0, t + 1, 0)]
+                                );
+                        }
+                        else
+                            target_class = *(truth + i);
+
+                        if (static_cast<long>(target_class) != ignore_index)
+                            valid_tokens++;
+                    }
+                }
+            }
+            if (valid_tokens == 0)
+            {
+                loss = 0.0;
+                return;
+            }
+
+            const double scale = 1.0 / valid_tokens;
+            loss = 0.0;
+        
+            for (long i = 0; i < batch_size; ++i)
+            {
+                // Loop over all positions (0 to seq_len-1)
+                for (long t = 0; t < seq_len; ++t)
+                {
+                    unsigned long target_class;
+                
+                    // Extract target token
+                    if (t < seq_len - 1) {
+                        // For positions 0 to seq_len-2: target from input_tensor[t+1]
+                        target_class = static_cast<unsigned long>(
+                            in_data[tensor_index(input_tensor, i, 0, t + 1, 0)]
+                        );
+                    } else {
+                        // For last position (seq_len-1): target from truth
+                        target_class = *(truth + i);
+                    }
+                
+                    if (ignore_index >= 0 && static_cast<long>(target_class) == ignore_index)
+                        continue;
+
+                    DLIB_CASSERT(target_class < static_cast<unsigned long>(vocab_size));
+                
+                    // Find max logit for numerical stability
+                    float max_val = out_data[tensor_index(output_tensor, i, 0, t, 0)];
+                    for (long c = 1; c < vocab_size; ++c)
+                    {
+                        const float val = out_data[tensor_index(output_tensor, i, 0, t, c)];
+                        max_val = std::max(max_val, val);
+                    }
+                
+                    // Compute softmax denominator
+                    float sum_exp = 0.0f;
+                    for (long c = 0; c < vocab_size; ++c)
+                    {
+                        const unsigned long idx = tensor_index(output_tensor, i, 0, t, c);
+                        const float exp_val = std::exp(out_data[idx] - max_val);
+                        g[idx] = exp_val;
+                        sum_exp += exp_val;
+                    }
+                
+                    // Compute loss and gradients
+                    for (long c = 0; c < vocab_size; ++c)
+                    {
+                        const unsigned long idx = tensor_index(output_tensor, i, 0, t, c);
+                        const float softmax_val = g[idx] / sum_exp;
+                    
+                        if (static_cast<unsigned long>(c) == target_class)
+                        {
+                            loss += scale * (-std::log(std::max(softmax_val, 1e-10f)));
+                            g[idx] = scale * (softmax_val - 1.0f);
+                        }
+                        else
+                        {
+                            g[idx] = scale * softmax_val;
+                        }
+                    }
+                }
+            }
+        }
+    };
+
+    // -----------------------------------------------------------------------------------
+
     class compute_loss_binary_log_per_pixel
     {
 
diff --git a/dlib/cuda/cublas_dlibapi.cpp b/dlib/cuda/cublas_dlibapi.cpp
index 064e92c3df..3e4c38d8e8 100644
--- a/dlib/cuda/cublas_dlibapi.cpp
+++ b/dlib/cuda/cublas_dlibapi.cpp
@@ -159,16 +159,21 @@ namespace dlib
                 const auto transa = trans_lhs ? CUBLAS_OP_T : CUBLAS_OP_N;
                 const auto transb = trans_rhs ? CUBLAS_OP_T : CUBLAS_OP_N;
 
-                long num_samples = std::min({ lhs.num_samples(), rhs.num_samples(), dest.num_samples() });
-                long num_channels = std::min({ lhs.k(), rhs.k(), dest.k() });
-
-                auto is_matrix = [](const auto& tensor) {
-                    return ((tensor.num_samples() * tensor.k() == 1 && tensor.nr() * tensor.nc() > 1) ||
-                        (tensor.num_samples() * tensor.k() > 1 && tensor.nr() * tensor.nc() == 1));
-                };
-                const bool lhs_is_matrix = is_matrix(lhs), rhs_is_matrix = is_matrix(rhs), dest_is_matrix = is_matrix(dest);
-
-                if (lhs_is_matrix && rhs_is_matrix && dest_is_matrix) num_samples = num_channels = 1;
+                const bool lhs_is_matrix = is_2d_matrix(lhs);
+                const bool rhs_is_matrix = is_2d_matrix(rhs);
+                const bool dest_is_matrix = is_2d_matrix(dest);
+
+                const size_t lhs_plane_size = lhs.nr() * lhs.nc();
+                const size_t rhs_plane_size = rhs.nr() * rhs.nc();
+                const size_t dest_plane_size = dest.nr() * dest.nc();
+
+                long num_samples, num_channels = std::min({ lhs.k(), rhs.k(), dest.k() });
+                if (lhs_is_matrix && rhs_is_matrix && dest_is_matrix)
+                    num_samples = 1;
+                else if (!lhs_is_matrix && rhs_is_matrix)
+                    num_samples = lhs.num_samples();
+                else
+                    num_samples = std::min({ lhs.num_samples(), rhs.num_samples(), dest.num_samples() });
 
                 size_t lhs_rows = lhs.nr();
                 size_t lhs_cols = lhs.nc();
@@ -176,12 +181,14 @@ namespace dlib
                     lhs_rows = lhs.num_samples();
                     lhs_cols = lhs.k();
                 }
+
                 size_t rhs_rows = rhs.nr();
                 size_t rhs_cols = rhs.nc();
                 if (rhs_is_matrix && (rhs.num_samples() > 1 || rhs.k() > 1)) {
                     rhs_rows = rhs.num_samples();
                     rhs_cols = rhs.k();
                 }
+
                 size_t dest_rows = dest.nr();
                 size_t dest_cols = dest.nc();
                 if (dest_is_matrix && (dest.num_samples() > 1 || dest.k() > 1)) {
@@ -189,10 +196,6 @@ namespace dlib
                     dest_cols = dest.k();
                 }
 
-                const size_t lhs_plane_size = lhs_rows * lhs_cols;
-                const size_t rhs_plane_size = rhs_rows * rhs_cols;
-                const size_t dest_plane_size = dest_rows * dest_cols;
-
                 for (long b = 0; b < num_samples; ++b)
                 {
                     for (long c = 0; c < num_channels; ++c)
@@ -203,12 +206,18 @@ namespace dlib
                             rhs.device() + (b * num_channels + c) * rhs_plane_size;
                         auto dest_slice = dest_is_matrix ? dest.device() :
                             dest.device() + (b * num_channels + c) * dest_plane_size;
+
                         const int k = trans_rhs ? rhs_cols : rhs_rows;
 
                         CHECK_CUBLAS(cublasSgemm(
-                            context(), transb, transa, dest_cols, dest_rows, k,
-                            &alpha, rhs_slice, rhs_cols, lhs_slice, lhs_cols,
-                            &beta, dest_slice, dest_cols
+                            context(),
+                            transb, transa,
+                            dest_cols, dest_rows, k,
+                            &alpha,
+                            rhs_slice, rhs_cols,
+                            lhs_slice, lhs_cols,
+                            &beta,
+                            dest_slice, dest_cols
                         ));
                     }
                 }
diff --git a/dlib/cuda/cuda_dlib.cu b/dlib/cuda/cuda_dlib.cu
index 672efe9c22..56b3680896 100644
--- a/dlib/cuda/cuda_dlib.cu
+++ b/dlib/cuda/cuda_dlib.cu
@@ -2407,12 +2407,9 @@ namespace dlib
 
    // ----------------------------------------------------------------------------------------
 
-        __global__ void _cuda_rms_normalize(
-            float* dest,
+        __global__ void _cuda_rms_normalize_accumulate(
             float* scale,
             const float* src,
-            const float* gamma,
-            float eps,
             size_t ns,
             size_t ks,
             size_t num
@@ -2422,28 +2419,42 @@ namespace dlib
             {
                 const auto ps = src + n * ks * num;
                 float sum_squares = 0.0f;
-                for (auto i : grid_stride_range(0, ks * num))
+                for (auto i : grid_stride_range(0, ks* num))
                 {
                     sum_squares += ps[i] * ps[i];
                 }
                 warp_reduce_atomic_add(scale[n], sum_squares / (ks * num));
             }
-            __syncthreads();
+        }
 
+        __global__ void _cuda_rms_normalize_invert(
+            float* scale,
+            float eps,
+            size_t ns
+        )
+        {
             for (auto n : grid_stride_range_y(0, ns))
             {
-                for (auto i : grid_stride_range(0, 1))
-                {
+                if (threadIdx.x == 0)
                     scale[n] = 1.0f / std::sqrt(scale[n] + eps);
-                }
             }
-            __syncthreads();
+        }
 
+        __global__ void _cuda_rms_normalize_apply(
+            float* dest,
+            const float* scale,
+            const float* src,
+            const float* gamma,
+            size_t ns,
+            size_t ks,
+            size_t num
+        )
+        {
             for (auto n : grid_stride_range_y(0, ns))
             {
                 const auto ps = src + n * ks * num;
                 const auto pd = dest + n * ks * num;
-                for (auto i : grid_stride_range(0, ks * num))
+                for (auto i : grid_stride_range(0, ks* num))
                 {
                     pd[i] = ps[i] * scale[n] * gamma[i / num];
                 }
@@ -2457,7 +2468,7 @@ namespace dlib
             const tensor& src,
             const tensor& gamma
         )
-        {            
+        {
             DLIB_CASSERT(
                 gamma.k() == src.k() &&
                 gamma.nr() == 1 &&
@@ -2478,26 +2489,31 @@ namespace dlib
             scale.set_size(ns);
             scale = 0;
 
-            launch_kernel(_cuda_rms_normalize, max_jobs(ks * num, ns),
-                dest.device(), scale.device(), src.device(), gamma.device(), eps, ns, ks, num);
+            launch_kernel(_cuda_rms_normalize_accumulate, max_jobs(ks * num, ns),
+                scale.device(), src.device(), ns, ks, num);
+
+            launch_kernel(_cuda_rms_normalize_invert, max_jobs(1, ns),
+                scale.device(), eps, ns);
+
+            launch_kernel(_cuda_rms_normalize_apply, max_jobs(ks * num, ns),
+                dest.device(), scale.device(), src.device(), gamma.device(), ns, ks, num);
         }
 
    // ----------------------------------------------------------------------------------------
 
-        __global__ void _cuda_rms_normalize_gradient(
-            float* src_grad,
+        __global__ void _cuda_rms_normalize_gradient_accumulate(
             float* gamma_grad,
             float* dscale,
             const float* src,
             const float* gradient_input,
             const float* scale,
             const float* gamma,
-            size_t ns, 
-            size_t ks,  
-            size_t num 
+            size_t ns,
+            size_t ks,
+            size_t num
         )
         {
-            for (auto nk : grid_stride_range_y(0, ns * ks))
+            for (auto nk : grid_stride_range_y(0, ns* ks))
             {
                 const auto n = nk / ks;
                 const auto k = nk % ks;
@@ -2509,22 +2525,34 @@ namespace dlib
                 for (auto i : grid_stride_range(0, num))
                 {
                     const float x_hat = ps[i] * scale[n];
-                    const float dx = pgi[i] * gamma[i / num];
+                    const float dx = pgi[i] * gamma[k];
                     temp_gg += pgi[i] * x_hat;
                     temp_ds += dx * ps[i] * scale_pow;
                 }
                 warp_reduce_atomic_add(gamma_grad[k], temp_gg);
                 warp_reduce_atomic_add(dscale[n], temp_ds);
             }
-            __syncthreads();
+        }
 
+        __global__ void _cuda_rms_normalize_gradient_apply(
+            float* src_grad,
+            const float* dscale,
+            const float* src,
+            const float* gradient_input,
+            const float* scale,
+            const float* gamma,
+            size_t ns,
+            size_t ks,
+            size_t num
+        )
+        {
             const float invnum = 1.0f / (ks * num);
             for (auto n : grid_stride_range_y(0, ns))
             {
                 const auto ps = src + n * ks * num;
                 const auto pgi = gradient_input + n * ks * num;
                 const auto psg = src_grad + n * ks * num;
-                for (auto i : grid_stride_range(0, ks * num))
+                for (auto i : grid_stride_range(0, ks* num))
                 {
                     const float dx = pgi[i] * gamma[i / num];
                     psg[i] += dx * scale[n] + dscale[n] * 2 * ps[i] * invnum;
@@ -2541,7 +2569,7 @@ namespace dlib
             tensor& gamma_grad,
             resizable_tensor& dscale
         )
-        {            
+        {
             DLIB_CASSERT(src.num_samples() == scale.size());
             DLIB_CASSERT(have_same_dimensions(gamma, gamma_grad));
             DLIB_CASSERT(gamma.k() == src.k());
@@ -2558,9 +2586,13 @@ namespace dlib
             dscale.copy_size(scale);
             dscale = 0;
 
-            // Lancement du kernel CUDA
-            launch_kernel(_cuda_rms_normalize_gradient, max_jobs(ks * num, ns),
-                src_grad.device(), gamma_grad.device(), dscale.device(),
+            launch_kernel(_cuda_rms_normalize_gradient_accumulate, max_jobs(ks * num, ns * ks),
+                gamma_grad.device(), dscale.device(),
+                src.device(), gradient_input.device(), scale.device(), gamma.device(),
+                ns, ks, num);
+
+            launch_kernel(_cuda_rms_normalize_gradient_apply, max_jobs(ks * num, ns),
+                src_grad.device(), dscale.device(),
                 src.device(), gradient_input.device(), scale.device(), gamma.device(),
                 ns, ks, num);
         }
@@ -2736,12 +2768,23 @@ namespace dlib
     // ----------------------------------------------------------------------------------------
 
         // CUDA Kernels for ACT operations
-        __global__ void _cuda_compute_act_halt_probabilities(
-            float* halt_probs,
+
+        // Kernel 1: initialize logits with bias
+        __global__ void _cuda_act_init_logits(
+            float* logits,
+            float b_halt,
+            size_t total_positions
+        )
+        {
+            for (auto pos : grid_stride_range(0, total_positions))
+                logits[pos] = b_halt;
+        }
+
+        // Kernel 2: compute dot product and accumulate into logits
+        __global__ void _cuda_act_accumulate_logits(
             float* logits,
             const float* input_data,
             const float* W_halt,
-            float b_halt,
             size_t batch_size,
             size_t seq_len,
             size_t d_model,
@@ -2751,11 +2794,6 @@ namespace dlib
         {
             const long total_positions = batch_size * seq_len;
 
-            for (auto pos : grid_stride_range_y(0, total_positions))
-                for (auto i : grid_stride_range(0, 1))
-                    logits[pos] = b_halt;
-            __syncthreads();
-
             for (auto pos : grid_stride_range_y(0, total_positions))
             {
                 const long n = pos / seq_len;
@@ -2773,12 +2811,17 @@ namespace dlib
 
                 warp_reduce_atomic_add(logits[pos], temp);
             }
-            __syncthreads();
+        }
 
+        // Kernel 3: apply sigmoid to compute halt probabilities
+        __global__ void _cuda_act_apply_sigmoid(
+            float* halt_probs,
+            const float* logits,
+            size_t total_positions
+        )
+        {
             for (auto pos : grid_stride_range(0, total_positions))
-            {
                 halt_probs[pos] = 1.0f / (1.0f + expf(-logits[pos]));
-            }
         }
 
         void compute_act_halt_probabilities(
@@ -2798,18 +2841,36 @@ namespace dlib
             halt_probs.set_size(total_positions, 1, 1, 1);
             logits.set_size(total_positions, 1, 1, 1);
 
-            launch_kernel(_cuda_compute_act_halt_probabilities,
+            // Extract bias from halt_params (last element)
+            const float b_halt = halt_params.host()[feature_dim];
+
+            // Phase 1: initialize logits with bias
+            launch_kernel(_cuda_act_init_logits,
+                max_jobs(total_positions),
+                logits.device(),
+                b_halt,
+                total_positions);
+
+            // Phase 2: accumulate dot product into logits
+            // Note: sequential kernel launch provides implicit synchronization
+            launch_kernel(_cuda_act_accumulate_logits,
                 max_jobs(feature_dim, total_positions),
-                halt_probs.device(),
                 logits.device(),
                 input_data.device(),
                 halt_params.device(),
-                halt_params.host()[feature_dim],
                 batch_size,
                 seq_len,
                 d_model,
                 num_channels,
                 feature_dim);
+
+            // Phase 3: apply sigmoid
+            // Note: sequential kernel launch provides implicit synchronization
+            launch_kernel(_cuda_act_apply_sigmoid,
+                max_jobs(total_positions),
+                halt_probs.device(),
+                logits.device(),
+                total_positions);
         }
 
         __global__ void _cuda_update_act_state(
@@ -2993,6 +3054,263 @@ namespace dlib
 
     // ----------------------------------------------------------------------------------------
 
+        __global__ void apply_rope_kernel(
+            float* __restrict__ data,
+            const float* __restrict__ cos_cache,
+            const float* __restrict__ sin_cache,
+            const size_t total_pairs,
+            const long num_heads,
+            const long seq_len,
+            const long d_head,
+            const long half_d,
+            const long rot_dim,
+            const bool is_backward)
+        {
+            for (auto pair_id : grid_stride_range(0, total_pairs))
+            {
+                const long pair_idx = pair_id % half_d;
+                const long pos = (pair_id / half_d) % seq_len;
+                const long head = (pair_id / (half_d * seq_len)) % num_heads;
+                const long batch = pair_id / (half_d * seq_len * num_heads);
+        
+                const long dim_i = pair_idx * 2;
+                if (dim_i >= rot_dim) continue;
+        
+                const long base_offset = ((batch * num_heads + head) * seq_len + pos) * d_head;
+                const long data_offset = base_offset + dim_i;
+                const long trig_offset = pos * half_d + pair_idx;
+        
+                const float c = cos_cache[trig_offset];
+                const float s = sin_cache[trig_offset];
+                const float x0 = data[data_offset];
+                const float x1 = data[data_offset + 1];
+        
+                if (!is_backward)
+                {
+                    // Forward: rotation standard
+                    data[data_offset]     = x0 * c - x1 * s;
+                    data[data_offset + 1] = x0 * s + x1 * c;
+                }
+                else
+                {
+                    // Backward: rotation inverse
+                    data[data_offset]     = x0 * c + x1 * s;
+                    data[data_offset + 1] = -x0 * s + x1 * c;
+                }
+            }
+        }
+
+        void apply_rotary_positional_embedding(
+            bool is_backward,
+            tensor& data,
+            const tensor& cos_cache,
+            const tensor& sin_cache)
+        {
+            const long batch_size = data.num_samples();
+            const long num_heads = data.k();
+            const long seq_len = data.nr();
+            const long d_head = data.nc();
+            const long half_d = d_head / 2;
+
+            DLIB_CASSERT(cos_cache.nr() == seq_len, "cos_cache.nr() must match seq_len");
+            DLIB_CASSERT(cos_cache.nc() == half_d, "cos_cache.nc() must be d_head/2");
+            DLIB_CASSERT(sin_cache.nr() == seq_len, "sin_cache.nr() must match seq_len");
+            DLIB_CASSERT(sin_cache.nc() == half_d, "sin_cache.nc() must be d_head/2");
+
+            const bool is_odd = (d_head % 2 != 0);
+            const long rot_dim = is_odd ? d_head - 1 : d_head;
+
+            const size_t total_elements = batch_size * num_heads * seq_len * half_d;
+            if (total_elements == 0) return;
+
+            launch_kernel(apply_rope_kernel, max_jobs(total_elements),
+                data.device(),
+                cos_cache.device(),
+                sin_cache.device(),
+                total_elements,
+                num_heads,
+                seq_len,
+                d_head,
+                half_d,
+                rot_dim,
+                is_backward
+            );
+        }
+
+    // ----------------------------------------------------------------------------------------
+
+        __global__ void _cuda_count_valid_tokens(
+            float* valid_count,
+            const unsigned long* truth,
+            const float* input_data,
+            size_t batch_size,
+            size_t seq_len,
+            long ignore_index
+        )
+        {
+            float count = 0.0f;
+
+            for (auto sample_idx : grid_stride_range(0, batch_size))
+            {
+                for (size_t t = 0; t < seq_len; ++t)
+                {
+                    unsigned long target_class;
+                    if (t < seq_len - 1) {
+                        const size_t input_idx = sample_idx * seq_len + (t + 1);
+                        target_class = static_cast<unsigned long>(input_data[input_idx]);
+                    }
+                    else {
+                        target_class = truth[sample_idx];
+                    }
+
+                    if (ignore_index < 0 || static_cast<long>(target_class) != ignore_index) {
+                        count += 1.0f;
+                    }
+                }
+            }
+
+            warp_reduce_atomic_add(*valid_count, count);
+        }
+
+        __global__ void _cuda_compute_loss_cross_entropy_per_logit(
+            float* loss_out,
+            float* g,
+            const unsigned long* truth,
+            const float* input_data,
+            const float* out_data,
+            size_t batch_size,
+            size_t seq_len,
+            size_t vocab_size,
+            float scale,
+            long ignore_index
+        )
+        {
+            float total_loss = 0;
+
+            for (auto sample_idx : grid_stride_range(0, batch_size))
+            {
+                for (size_t t = 0; t < seq_len; ++t)
+                {
+                    unsigned long target_class;
+                    if (t < seq_len - 1) {
+                        const size_t input_idx = sample_idx * seq_len + (t + 1);
+                        target_class = static_cast<unsigned long>(input_data[input_idx]);
+                    }
+                    else {
+                        target_class = truth[sample_idx];
+                    }
+
+                    const size_t base_idx = sample_idx * seq_len * vocab_size + t * vocab_size;
+
+                    if (ignore_index >= 0 && static_cast<long>(target_class) == ignore_index) {
+                        for (size_t c = 0; c < vocab_size; ++c) {
+                            g[base_idx + c] = 0.0f;
+                        }
+                        continue;
+                    }
+
+                    float max_val = out_data[base_idx];
+                    for (size_t c = 1; c < vocab_size; ++c)
+                    {
+                        max_val = ::max(max_val, out_data[base_idx + c]);
+                    }
+
+                    float sum_exp = 0.0f;
+                    for (size_t c = 0; c < vocab_size; ++c)
+                    {
+                        const size_t idx = base_idx + c;
+                        const float exp_val = ::exp(out_data[idx] - max_val);
+                        g[idx] = exp_val;
+                        sum_exp += exp_val;
+                    }
+
+                    for (size_t c = 0; c < vocab_size; ++c)
+                    {
+                        const size_t idx = base_idx + c;
+                        const float softmax_val = g[idx] / sum_exp;
+
+                        if (c == target_class)
+                        {
+                            total_loss += -::log(::max(softmax_val, 1e-10f));
+                            g[idx] = scale * (softmax_val - 1.0f);
+                        }
+                        else
+                        {
+                            g[idx] = scale * softmax_val;
+                        }
+                    }
+                }
+            }
+
+            warp_reduce_atomic_add(*loss_out, total_loss);
+        }
+
+        void compute_loss_cross_entropy_per_logit::do_work(
+            cuda_data_ptr<float> loss_work_buffer,
+            cuda_data_ptr<const unsigned long> truth_buffer,
+            const tensor& input_tensor,
+            const tensor& subnetwork_output,
+            tensor& gradient,
+            double& loss,
+            long ignore_index
+        )
+        {
+            CHECK_CUDA(cudaMemset(gradient.device(), 0, gradient.size() * sizeof(float)));
+            CHECK_CUDA(cudaMemset(loss_work_buffer, 0, sizeof(float)));
+
+            const long batch_size = subnetwork_output.num_samples();
+            const long seq_len = subnetwork_output.nr();
+            const long vocab_size = subnetwork_output.nc();
+
+            double scale;
+            if (ignore_index < 0)
+            {
+                scale = 1.0 / (batch_size * seq_len);
+            }
+            else {
+                cuda_data_void_ptr count_buf = device_global_buffer(sizeof(float));
+                auto valid_count_ptr = static_pointer_cast<float>(count_buf, 1);
+                CHECK_CUDA(cudaMemset(valid_count_ptr, 0, sizeof(float)));
+
+                launch_kernel(_cuda_count_valid_tokens, max_jobs(batch_size),
+                    valid_count_ptr.data(),
+                    truth_buffer.data(),
+                    input_tensor.device(),
+                    batch_size,
+                    seq_len,
+                    ignore_index
+                );
+
+                float valid_count;
+                dlib::cuda::memcpy(&valid_count, valid_count_ptr);
+
+                if (valid_count == 0) {
+                    loss = 0.0;
+                    return;
+                }
+
+                scale = 1.0 / valid_count;
+            }
+
+            launch_kernel(_cuda_compute_loss_cross_entropy_per_logit, max_jobs(batch_size),
+                loss_work_buffer.data(),
+                gradient.device(),
+                truth_buffer.data(),
+                input_tensor.device(),
+                subnetwork_output.device(),
+                batch_size,
+                seq_len,
+                vocab_size,
+                static_cast<float>(scale),
+                ignore_index
+            );
+
+            float floss;
+            dlib::cuda::memcpy(&floss, loss_work_buffer);
+            loss = scale * floss;
+        }
+
+    // ----------------------------------------------------------------------------------------
 
         __device__ float cuda_log1pexp(float x)
         {
diff --git a/dlib/cuda/cuda_dlib.h b/dlib/cuda/cuda_dlib.h
index 26e1d29e4f..e1a345cf9e 100644
--- a/dlib/cuda/cuda_dlib.h
+++ b/dlib/cuda/cuda_dlib.h
@@ -656,6 +656,65 @@ namespace dlib
             float scale_factor
         );
 
+    // ----------------------------------------------------------------------------------------
+
+        void apply_rotary_positional_embedding(
+            bool is_backward,
+            tensor& data,
+            const tensor& cos_cache,
+            const tensor& sin_cache
+        );
+
+    // ----------------------------------------------------------------------------------------
+
+        class compute_loss_cross_entropy_per_logit
+        {
+            /*!
+                The point of this class is to compute the loss computed by
+                loss_cross_entropy_per_logit_, but to do so with CUDA
+            !*/
+        public:
+            compute_loss_cross_entropy_per_logit() {}
+
+            template <typename const_label_iterator>
+            void operator() (
+                const_label_iterator truth,
+                const tensor& input_tensor,        // Source tokens
+                const tensor& subnetwork_output,   // Logits
+                tensor& gradient,
+                double& loss,
+                long ignore_index
+                ) const
+            {
+                const size_t bytes_per_sample = sizeof(unsigned long);
+                buf = device_global_buffer(subnetwork_output.num_samples() * bytes_per_sample + sizeof(float));
+                cuda_data_ptr<float> loss_buf = static_pointer_cast<float>(buf, 1);
+                buf = buf + sizeof(float);
+
+                for (long i = 0; i < subnetwork_output.num_samples(); ++i, ++truth)
+                {
+                    const unsigned long t = *truth;
+                    memcpy(buf + i * bytes_per_sample, &t, bytes_per_sample);
+                }
+
+                auto truth_buf = static_pointer_cast<const unsigned long>(buf, subnetwork_output.num_samples());
+                do_work(loss_buf, truth_buf, input_tensor, subnetwork_output, gradient, loss, ignore_index);
+            }
+
+        private:
+            static void do_work(
+                cuda_data_ptr<float> loss_work_buffer,
+                cuda_data_ptr<const unsigned long> truth_buffer,
+                const tensor& input_tensor,
+                const tensor& subnetwork_output,
+                tensor& gradient,
+                double& loss,
+                long ignore_index
+            );
+
+            mutable cuda_data_void_ptr buf;
+        };
+
     // ----------------------------------------------------------------------------------------
 
         class compute_loss_binary_log_per_pixel
diff --git a/dlib/cuda/tensor.h b/dlib/cuda/tensor.h
index 6a893df311..138413b642 100644
--- a/dlib/cuda/tensor.h
+++ b/dlib/cuda/tensor.h
@@ -220,6 +220,17 @@ namespace dlib
                t.size() == (size_t)t.nc();
     }
 
+// ----------------------------------------------------------------------------------------
+
+    inline bool is_2d_matrix(
+        const tensor& t
+    )
+    {
+        return !is_vector(t) &&
+            (t.size() == (size_t)(t.num_samples() * t.k()) ||
+            t.size() == (size_t)(t.nr() * t.nc()));
+    }
+
 // ----------------------------------------------------------------------------------------
 
     inline const matrix_op<op_pointer_to_mat<float> > mat (
diff --git a/dlib/cuda/tensor_abstract.h b/dlib/cuda/tensor_abstract.h
index 62f649391e..3a3d83eda7 100644
--- a/dlib/cuda/tensor_abstract.h
+++ b/dlib/cuda/tensor_abstract.h
@@ -359,6 +359,18 @@ namespace dlib
                 - t.size() == t.nc()
     !*/
 
+// ----------------------------------------------------------------------------------------
+
+    inline bool is_2d_matrix(
+        const tensor& t
+    );
+    /*!
+        ensures
+            - returns true if and only if one of the following is true:
+                - t.size() == t.num_samples() * t.k()
+                - t.size() == t.nr() * t.nc()
+    !*/
+
 // ----------------------------------------------------------------------------------------
 
     const matrix_exp mat (
diff --git a/dlib/cuda/tensor_tools.cpp b/dlib/cuda/tensor_tools.cpp
index d9429df2f4..64f437480f 100644
--- a/dlib/cuda/tensor_tools.cpp
+++ b/dlib/cuda/tensor_tools.cpp
@@ -242,39 +242,54 @@ namespace dlib { namespace tt
         }
         else if (mode == operation_mode::PLANE_WISE)
         {
-            auto is_matrix = [](const auto& tensor) {
-                return ((tensor.num_samples() * tensor.k() == 1 && tensor.nr() * tensor.nc() > 1) ||
-                    (tensor.num_samples() * tensor.k() > 1 && tensor.nr() * tensor.nc() == 1));
-                };
-
-            long num_samples = std::min({ lhs.num_samples(), rhs.num_samples(), dest.num_samples() });
-            long num_channels = std::min({ lhs.k(), rhs.k(), dest.k() });
-            const bool lhs_is_matrix = is_matrix(lhs), rhs_is_matrix = is_matrix(rhs), dest_is_matrix = is_matrix(dest);
+            const bool lhs_is_matrix = is_2d_matrix(lhs);
+            const bool rhs_is_matrix = is_2d_matrix(rhs);
+            const bool dest_is_matrix = is_2d_matrix(dest);
+
+            const size_t lhs_plane_size = lhs.nr() * lhs.nc();
+            const size_t rhs_plane_size = rhs.nr() * rhs.nc();
+            const size_t dest_plane_size = dest.nr() * dest.nc();
+
+            long num_samples, num_channels = std::min({ lhs.k(), rhs.k(), dest.k() });
+            if (lhs_is_matrix && rhs_is_matrix && dest_is_matrix)
+                num_samples = 1;
+            else if (!lhs_is_matrix && rhs_is_matrix)
+                num_samples = lhs.num_samples();
+            else
+                num_samples = std::min({ lhs.num_samples(), rhs.num_samples(), dest.num_samples() });
 
-            if (lhs_is_matrix && rhs_is_matrix && dest_is_matrix) {
-                num_samples = num_channels = 1;
+            size_t lhs_rows = lhs.nr();
+            size_t lhs_cols = lhs.nc();
+            if (lhs_is_matrix && (lhs.num_samples() > 1 || lhs.k() > 1)) {
+                lhs_rows = lhs.num_samples();
+                lhs_cols = lhs.k();
+            }
+            size_t rhs_rows = rhs.nr();
+            size_t rhs_cols = rhs.nc();
+            if (rhs_is_matrix && (rhs.num_samples() > 1 || rhs.k() > 1)) {
+                rhs_rows = rhs.num_samples();
+                rhs_cols = rhs.k();
+            }
+            size_t dest_rows = dest.nr();
+            size_t dest_cols = dest.nc();
+            if (dest_is_matrix && (dest.num_samples() > 1 || dest.k() > 1)) {
+                dest_rows = dest.num_samples();
+                dest_cols = dest.k();
             }
 
-            long lhs_rows = (lhs_is_matrix && lhs.num_samples() > 1) ? lhs.num_samples() : lhs.nr();
-            long lhs_cols = (lhs_is_matrix && lhs.k() > 1) ? lhs.k() : lhs.nc();
-            long rhs_rows = (rhs_is_matrix && rhs.num_samples() > 1) ? rhs.num_samples() : rhs.nr();
-            long rhs_cols = (rhs_is_matrix && rhs.k() > 1) ? rhs.k() : rhs.nc();
-            long dest_rows = (dest_is_matrix && dest.num_samples() > 1) ? dest.num_samples() : dest.nr();
-            long dest_cols = (dest_is_matrix && dest.k() > 1) ? dest.k() : dest.nc();
-
-            const size_t lhs_plane_size = lhs_rows * lhs_cols;
-            const size_t rhs_plane_size = rhs_rows * rhs_cols;
-            const size_t dest_plane_size = dest_rows * dest_cols;
-
+            // Process each plane
             for (long b = 0; b < num_samples; ++b)
             {
                 for (long c = 0; c < num_channels; ++c)
                 {
-                    auto lhs_slice = lhs_is_matrix ? alias_tensor(lhs_rows, lhs_cols)(lhs, 0) :
+                    auto lhs_slice = lhs_is_matrix ?
+                        alias_tensor(lhs_rows, lhs_cols)(lhs, 0) :
                         alias_tensor(lhs_rows, lhs_cols)(lhs, (b * num_channels + c) * lhs_plane_size);
-                    auto rhs_slice = rhs_is_matrix ? alias_tensor(rhs_rows, rhs_cols)(rhs, 0) :
+                    auto rhs_slice = rhs_is_matrix ?
+                        alias_tensor(rhs_rows, rhs_cols)(rhs, 0) :
                         alias_tensor(rhs_rows, rhs_cols)(rhs, (b * num_channels + c) * rhs_plane_size);
-                    auto dest_slice = dest_is_matrix ? alias_tensor(dest_rows, dest_cols)(dest, 0) :
+                    auto dest_slice = dest_is_matrix ?
+                        alias_tensor(dest_rows, dest_cols)(dest, 0) :
                         alias_tensor(dest_rows, dest_cols)(dest, (b * num_channels + c) * dest_plane_size);
 
                     if (beta != 0)
@@ -1496,6 +1511,22 @@ namespace dlib { namespace tt
 #endif
     }
     
+// ----------------------------------------------------------------------------------------
+
+    void apply_rotary_positional_embedding(
+        bool is_backward,
+        resizable_tensor& data,
+        const resizable_tensor& cos_cache,
+        const resizable_tensor& sin_cache
+    )
+    {
+#ifdef DLIB_USE_CUDA
+		cuda::apply_rotary_positional_embedding(is_backward, data, cos_cache, sin_cache);
+#else
+        cpu::apply_rotary_positional_embedding(is_backward, data, cos_cache, sin_cache);
+#endif
+    }
+
 // ----------------------------------------------------------------------------------------
 
 }}
diff --git a/dlib/cuda/tensor_tools.h b/dlib/cuda/tensor_tools.h
index fe0260ea88..89d3d6c627 100644
--- a/dlib/cuda/tensor_tools.h
+++ b/dlib/cuda/tensor_tools.h
@@ -2516,6 +2516,39 @@ namespace dlib { namespace tt
             - scale_factor: scaling strength (0 = no scaling)
     !*/
 
+// ----------------------------------------------------------------------------------------
+
+    void apply_rotary_positional_embedding(
+        bool is_backward,
+        resizable_tensor& data,
+        const resizable_tensor& cos_cache,
+        const resizable_tensor& sin_cache
+    );
+    /*!
+        requires
+            - data.nr() == cos_cache.nr()
+            - data.nr() == sin_cache.nr()
+            - cos_cache.nc() == data.nc() / 2
+            - sin_cache.nc() == data.nc() / 2
+            - cos_cache.num_samples() == 1
+            - cos_cache.k() == 1
+            - sin_cache.num_samples() == 1
+            - sin_cache.k() == 1
+            - data.nc() >= 2
+        ensures
+            - Applies rotary positional embeddings (RoPE) to the input tensor
+            - data is modified in-place with the rotation applied pairwise to dimensions
+            - For each position pos and dimension pair (i, i+1):
+                if (!is_backward):
+                    // Forward rotation (encoding)
+                    data[pos,i]   = data[pos,i] * cos_cache[pos,i/2] - data[pos,i+1] * sin_cache[pos,i/2]
+                    data[pos,i+1] = data[pos,i] * sin_cache[pos,i/2] + data[pos,i+1] * cos_cache[pos,i/2]
+                else:
+                    // Backward rotation (decoding, inverse transformation for gradients)
+                    data[pos,i]   = data[pos,i] * cos_cache[pos,i/2] + data[pos,i+1] * sin_cache[pos,i/2]
+                    data[pos,i+1] = -data[pos,i] * sin_cache[pos,i/2] + data[pos,i+1] * cos_cache[pos,i/2]
+        !*/
+
 // ----------------------------------------------------------------------------------------
 
 }}
diff --git a/dlib/data_io.h b/dlib/data_io.h
index 15c630e9e9..505f75108c 100644
--- a/dlib/data_io.h
+++ b/dlib/data_io.h
@@ -8,6 +8,7 @@
 #include "data_io/mnist.h"
 #include "data_io/cifar.h"
 #include "data_io/arc_agi.h"
+#include "data_io/language_model_data.h"
 
 #ifndef DLIB_ISO_CPP_ONLY
 #include "data_io/load_image_dataset.h"
diff --git a/dlib/data_io/arc_agi.h b/dlib/data_io/arc_agi.h
index 9153e8d4fd..64356dda8c 100644
--- a/dlib/data_io/arc_agi.h
+++ b/dlib/data_io/arc_agi.h
@@ -715,8 +715,8 @@ namespace dlib
             sequence.push_back(TOKEN_GEN_START);
 
             // Convert to dlib column vector
-            arc_token_sequence_t result(static_cast<long>(sequence.size()));
-            for (long i = 0; i < static_cast<long>(sequence.size()); ++i)
+            arc_token_sequence_t result(sequence.size());
+            for (size_t i = 0; i < sequence.size(); ++i)
                 result(i) = sequence[i];
             return result;
         }
@@ -736,8 +736,8 @@ namespace dlib
             append_flat_grid(sequence, test_pair.output);
             sequence.push_back(TOKEN_END_OF_OUTPUT);
 
-            arc_token_sequence_t result(static_cast<long>(sequence.size()));
-            for (long i = 0; i < static_cast<long>(sequence.size()); ++i)
+            arc_token_sequence_t result(sequence.size());
+            for (size_t i = 0; i < sequence.size(); ++i)
                 result(i) = sequence[i];
             return result;
         }
diff --git a/dlib/data_io/language_model_data.h b/dlib/data_io/language_model_data.h
new file mode 100644
index 0000000000..d1f4aa6ae2
--- /dev/null
+++ b/dlib/data_io/language_model_data.h
@@ -0,0 +1,976 @@
+﻿#ifndef DLIB_LANGUAGE_MODEL_DATA_H_
+#define DLIB_LANGUAGE_MODEL_DATA_H_
+
+#include "language_model_data_abstract.h"
+
+#include <iostream>
+#include <string>
+#include <vector>
+#include "../matrix.h"
+#include "../serialize.h"
+
+namespace dlib
+{
+
+    // ---------------------------------------------------------------------------------
+
+    enum class file_content_type
+    {
+        TEXT_PLAIN,      // Plain text file (including CSV, code, etc.)
+        TEXT_XML,        // XML or HTML markup
+        IMAGE,           // Image formats (PNG, JPEG, GIF, TIFF, BMP, etc.)
+        VIDEO,           // Video formats (MP4, AVI, MKV, etc.)
+        AUDIO,           // Audio formats (MP3, WAV, FLAC, etc.)
+        EXECUTABLE,      // Executable files (EXE, DLL, ELF, Mach-O)
+        COMPRESSED,      // Compressed archives (ZIP, GZIP, 7Z, RAR, etc.)
+        PDF,             // PDF documents
+        OFFICE,          // Office documents (DOCX, XLSX, PPTX, etc.)
+        UNKNOWN          // Unknown or undetermined file type
+    };
+
+    // ---------------------------------------------------------------------------------
+
+    namespace impl
+    {
+        // Magic number signature structure
+        struct magic_signature
+        {
+            const unsigned char* bytes;
+            size_t length;
+            file_content_type type;
+            size_t offset;  // Byte offset where signature should appear
+        };
+
+        // Common magic number signatures (ordered by frequency/priority)
+        static const unsigned char sig_png[] = { 0x89, 0x50, 0x4E, 0x47, 0x0D, 0x0A, 0x1A, 0x0A };
+        static const unsigned char sig_jpg1[] = { 0xFF, 0xD8, 0xFF, 0xE0 };
+        static const unsigned char sig_jpg2[] = { 0xFF, 0xD8, 0xFF, 0xE1 };
+        static const unsigned char sig_jpg3[] = { 0xFF, 0xD8, 0xFF, 0xDB };
+        static const unsigned char sig_jpg4[] = { 0xFF, 0xD8, 0xFF, 0xEE };
+        static const unsigned char sig_gif87[] = { 0x47, 0x49, 0x46, 0x38, 0x37, 0x61 };  // GIF87a
+        static const unsigned char sig_gif89[] = { 0x47, 0x49, 0x46, 0x38, 0x39, 0x61 };  // GIF89a
+        static const unsigned char sig_tiff_le[] = { 0x49, 0x49, 0x2A, 0x00 };  // Little endian
+        static const unsigned char sig_tiff_be[] = { 0x4D, 0x4D, 0x00, 0x2A };  // Big endian
+        static const unsigned char sig_bmp[] = { 0x42, 0x4D };
+        static const unsigned char sig_webp[] = { 0x52, 0x49, 0x46, 0x46 };  // RIFF (check for WEBP at offset 8)
+
+        static const unsigned char sig_pdf[] = { 0x25, 0x50, 0x44, 0x46 };  // %PDF
+
+        static const unsigned char sig_zip[] = { 0x50, 0x4B, 0x03, 0x04 };
+        static const unsigned char sig_gzip[] = { 0x1F, 0x8B };
+        static const unsigned char sig_7z[] = { 0x37, 0x7A, 0xBC, 0xAF, 0x27, 0x1C };
+        static const unsigned char sig_rar[] = { 0x52, 0x61, 0x72, 0x21, 0x1A, 0x07 };
+
+        static const unsigned char sig_exe[] = { 0x4D, 0x5A };  // MZ (DOS/Windows executable)
+        static const unsigned char sig_elf[] = { 0x7F, 0x45, 0x4C, 0x46 };  // ELF (Unix/Linux executable)
+        static const unsigned char sig_macho_32[] = { 0xFE, 0xED, 0xFA, 0xCE };  // Mach-O 32-bit
+        static const unsigned char sig_macho_64[] = { 0xFE, 0xED, 0xFA, 0xCF };  // Mach-O 64-bit
+
+        static const unsigned char sig_mp3_id3[] = { 0x49, 0x44, 0x33 };  // ID3
+        static const unsigned char sig_mp3_ff[] = { 0xFF, 0xFB };
+        static const unsigned char sig_wav[] = { 0x52, 0x49, 0x46, 0x46 };  // RIFF (check for WAVE at offset 8)
+        static const unsigned char sig_flac[] = { 0x66, 0x4C, 0x61, 0x43 };  // fLaC
+        static const unsigned char sig_ogg[] = { 0x4F, 0x67, 0x67, 0x53 };  // OggS
+
+        static const unsigned char sig_mp4[] = { 0x66, 0x74, 0x79, 0x70 };  // ftyp (at offset 4)
+        static const unsigned char sig_avi[] = { 0x52, 0x49, 0x46, 0x46 };  // RIFF (check for AVI at offset 8)
+        static const unsigned char sig_mkv[] = { 0x1A, 0x45, 0xDF, 0xA3 };
+
+        static const magic_signature signatures[] = {
+            // Images
+            {sig_png, sizeof(sig_png), file_content_type::IMAGE, 0},
+            {sig_jpg1, sizeof(sig_jpg1), file_content_type::IMAGE, 0},
+            {sig_jpg2, sizeof(sig_jpg2), file_content_type::IMAGE, 0},
+            {sig_jpg3, sizeof(sig_jpg3), file_content_type::IMAGE, 0},
+            {sig_jpg4, sizeof(sig_jpg4), file_content_type::IMAGE, 0},
+            {sig_gif87, sizeof(sig_gif87), file_content_type::IMAGE, 0},
+            {sig_gif89, sizeof(sig_gif89), file_content_type::IMAGE, 0},
+            {sig_tiff_le, sizeof(sig_tiff_le), file_content_type::IMAGE, 0},
+            {sig_tiff_be, sizeof(sig_tiff_be), file_content_type::IMAGE, 0},
+            {sig_bmp, sizeof(sig_bmp), file_content_type::IMAGE, 0},
+
+            // PDF
+            {sig_pdf, sizeof(sig_pdf), file_content_type::PDF, 0},
+
+            // Compressed
+            {sig_zip, sizeof(sig_zip), file_content_type::COMPRESSED, 0},
+            {sig_gzip, sizeof(sig_gzip), file_content_type::COMPRESSED, 0},
+            {sig_7z, sizeof(sig_7z), file_content_type::COMPRESSED, 0},
+            {sig_rar, sizeof(sig_rar), file_content_type::COMPRESSED, 0},
+
+            // Executables
+            {sig_exe, sizeof(sig_exe), file_content_type::EXECUTABLE, 0},
+            {sig_elf, sizeof(sig_elf), file_content_type::EXECUTABLE, 0},
+            {sig_macho_32, sizeof(sig_macho_32), file_content_type::EXECUTABLE, 0},
+            {sig_macho_64, sizeof(sig_macho_64), file_content_type::EXECUTABLE, 0},
+
+            // Audio
+            {sig_mp3_id3, sizeof(sig_mp3_id3), file_content_type::AUDIO, 0},
+            {sig_mp3_ff, sizeof(sig_mp3_ff), file_content_type::AUDIO, 0},
+            {sig_flac, sizeof(sig_flac), file_content_type::AUDIO, 0},
+            {sig_ogg, sizeof(sig_ogg), file_content_type::AUDIO, 0},
+
+            // Video
+            {sig_mp4, sizeof(sig_mp4), file_content_type::VIDEO, 4},
+            {sig_mkv, sizeof(sig_mkv), file_content_type::VIDEO, 0}
+        };
+
+        // Portable case-insensitive string comparison (C++14 compatible)
+        inline bool iequals_n(const char* s1, const char* s2, size_t n)
+        {
+            for (size_t i = 0; i < n; ++i)
+            {
+                const char c1 = (s1[i] >= 'A' && s1[i] <= 'Z') ? s1[i] + 32 : s1[i];
+                const char c2 = (s2[i] >= 'A' && s2[i] <= 'Z') ? s2[i] + 32 : s2[i];
+                if (c1 != c2) return false;
+            }
+            return true;
+        }
+
+        // Case-insensitive check for file extension
+        inline bool has_extension(const std::string& filename, const char* ext)
+        {
+            const size_t ext_len = std::strlen(ext);
+            if (filename.length() < ext_len) return false;
+
+            const size_t start = filename.length() - ext_len;
+            for (size_t i = 0; i < ext_len; ++i)
+            {
+                const char fc = filename[start + i];
+                const char ec = ext[i];
+                const char fc_lower = (fc >= 'A' && fc <= 'Z') ? fc + 32 : fc;
+                const char ec_lower = (ec >= 'A' && ec <= 'Z') ? ec + 32 : ec;
+                if (fc_lower != ec_lower) return false;
+            }
+            return true;
+        }
+
+        // Calculate Shannon entropy for a buffer
+        inline double calculate_entropy(const unsigned char* buffer, size_t length)
+        {
+            if (length == 0) return 0.0;
+
+            // Count byte frequency
+            std::array<size_t, 256> counts = {};
+            for (size_t i = 0; i < length; ++i)
+                counts[buffer[i]]++;
+
+            // Calculate entropy using Shannon's formula: H = -sum(p * log2(p))
+            double entropy = 0.0;
+            const double length_d = static_cast<double>(length);
+
+            for (size_t i = 0; i < 256; ++i)
+            {
+                if (counts[i] > 0)
+                {
+                    const double probability = static_cast<double>(counts[i]) / length_d;
+                    entropy -= probability * std::log2(probability);
+                }
+            }
+
+            return entropy;
+        }
+
+        // Check if buffer contains mostly printable ASCII/UTF-8 text
+        inline bool is_text_content(const unsigned char* buffer, size_t length)
+        {
+            if (length == 0) return false;
+
+            size_t printable_count = 0;
+            size_t whitespace_count = 0;
+            size_t control_count = 0;
+
+            for (size_t i = 0; i < length; ++i)
+            {
+                const unsigned char ch = buffer[i];
+
+                // Common whitespace characters
+                if (ch == ' ' || ch == '\t' || ch == '\n' || ch == '\r')
+                {
+                    whitespace_count++;
+                    printable_count++;
+                }
+                // Printable ASCII range
+                else if (ch >= 32 && ch <= 126)
+                {
+                    printable_count++;
+                }
+                // UTF-8 continuation bytes (10xxxxxx)
+                else if ((ch & 0xC0) == 0x80)
+                {
+                    printable_count++;
+                }
+                // UTF-8 multi-byte sequence starts (110xxxxx, 1110xxxx, 11110xxx)
+                else if ((ch & 0xE0) == 0xC0 || (ch & 0xF0) == 0xE0 || (ch & 0xF8) == 0xF0)
+                {
+                    printable_count++;
+                }
+                // Control characters (excluding common whitespace)
+                else if (ch < 32)
+                {
+                    control_count++;
+                }
+            }
+
+            // Consider as text if >90% printable and <10% control chars
+            const double printable_ratio = static_cast<double>(printable_count) / length;
+            const double control_ratio = static_cast<double>(control_count) / length;
+
+            return printable_ratio > 0.90 && control_ratio < 0.10;
+        }
+
+        // Check for XML/HTML markers
+        inline bool is_xml_content(const unsigned char* buffer, size_t length)
+        {
+            if (length < 5) return false;
+
+            const char* str = reinterpret_cast<const char*>(buffer);
+
+            // Check for "<?xml" (case-insensitive)
+            if (length >= 5 && buffer[0] == '<' && buffer[1] == '?')
+            {
+                if (iequals_n(str + 2, "xml", 3))
+                    return true;
+            }
+
+            // Check for HTML doctype (case-insensitive)
+            if (length >= 9 && buffer[0] == '<' && buffer[1] == '!')
+            {
+                if (iequals_n(str + 2, "DOCTYPE", 7))
+                    return true;
+            }
+
+            // Check for HTML tags (case-insensitive)
+            if (length >= 6 && buffer[0] == '<')
+            {
+                if (iequals_n(str + 1, "html>", 5) || iequals_n(str + 1, "html ", 5))
+                    return true;
+            }
+
+            return false;
+        }
+
+        // Special check for RIFF-based formats (WAV, AVI, WEBP)
+        inline file_content_type check_riff_type(const unsigned char* buffer, size_t length)
+        {
+            if (length < 12) return file_content_type::UNKNOWN;
+
+            // RIFF format: "RIFF" + size (4 bytes) + format type (4 bytes)
+            if (std::memcmp(buffer + 8, "WAVE", 4) == 0)
+                return file_content_type::AUDIO;
+            else if (std::memcmp(buffer + 8, "AVI ", 4) == 0)
+                return file_content_type::VIDEO;
+            else if (std::memcmp(buffer + 8, "WEBP", 4) == 0)
+                return file_content_type::IMAGE;
+
+            return file_content_type::UNKNOWN;
+        }
+
+        // Check if ZIP is actually an Office document (DOCX, XLSX, PPTX)
+        inline file_content_type check_office_type(const std::string& filename)
+        {
+            if (has_extension(filename, ".docx") ||
+                has_extension(filename, ".xlsx") ||
+                has_extension(filename, ".pptx"))
+            {
+                return file_content_type::OFFICE;
+            }
+
+            return file_content_type::COMPRESSED;
+        }
+    }
+
+    // ---------------------------------------------------------------------------------
+
+    inline bool detect_file_type(
+        const std::string& filename,
+        file_content_type& detected_type
+    )
+    {
+        detected_type = file_content_type::UNKNOWN;
+
+        // Open file in binary mode
+        std::ifstream file(filename, std::ios::binary);
+        if (!file.is_open())
+            return false;
+
+        // Read initial bytes for analysis (8KB should be sufficient)
+        constexpr size_t BUFFER_SIZE = 8192;
+        std::array<unsigned char, BUFFER_SIZE> buffer;
+
+        file.read(reinterpret_cast<char*>(buffer.data()), BUFFER_SIZE);
+        const size_t bytes_read = static_cast<size_t>(file.gcount());
+        file.close();
+
+        if (bytes_read == 0)
+            return false;
+
+        // Step 1: Check for known magic number signatures
+        for (const auto& sig : impl::signatures)
+        {
+            if (bytes_read >= sig.offset + sig.length)
+            {
+                if (std::memcmp(buffer.data() + sig.offset, sig.bytes, sig.length) == 0)
+                {
+                    detected_type = sig.type;
+
+                    // Special handling for RIFF-based formats
+                    if (sig.bytes == impl::sig_webp || sig.bytes == impl::sig_wav ||
+                        sig.bytes == impl::sig_avi)
+                    {
+                        const auto riff_type = impl::check_riff_type(buffer.data(), bytes_read);
+                        if (riff_type != file_content_type::UNKNOWN)
+                            detected_type = riff_type;
+                    }
+
+                    // Special handling for ZIP (could be Office document)
+                    if (detected_type == file_content_type::COMPRESSED &&
+                        sig.bytes == impl::sig_zip)
+                    {
+                        detected_type = impl::check_office_type(filename);
+                    }
+
+                    // Binary types
+                    return false;
+                }
+            }
+        }
+
+        // Step 2: Check for XML/HTML content
+        if (impl::is_xml_content(buffer.data(), bytes_read))
+        {
+            detected_type = file_content_type::TEXT_XML;
+            return true;
+        }
+
+        // Step 3: Calculate entropy to distinguish text from binary
+        const double entropy = impl::calculate_entropy(buffer.data(), bytes_read);
+
+        // Step 4: Use heuristics to classify content
+        // Entropy thresholds:
+        //   < 5.0  : Likely plain text
+        //   5.0-6.8: Could be text or structured binary
+        //   > 6.8  : Likely compressed/encrypted/random binary
+
+        const bool is_text = impl::is_text_content(buffer.data(), bytes_read);
+
+        if (is_text && entropy < 6.5)
+        {
+            // High probability of plain text (< 5.5)
+            // Or could be text with some binary content (e.g., source code with special chars)
+            detected_type = file_content_type::TEXT_PLAIN;
+            return true;
+        }
+       
+        // Likely binary content (no recognized format)
+        detected_type = file_content_type::UNKNOWN;
+        return false;
+    }
+
+    // ---------------------------------------------------------------------------------   
+
+    // Compute Levenshtein (edit) distance between two token sequences
+    inline size_t edit_distance(const std::vector<int>& tokens1, const std::vector<int>& tokens2)
+    {
+        const size_t len1 = tokens1.size();
+        const size_t len2 = tokens2.size();
+
+        if (len1 == 0) return len2;
+        if (len2 == 0) return len1;
+
+        // DP table: dp[i][j] = edit distance between tokens1[0..i-1] and tokens2[0..j-1]
+        std::vector<std::vector<size_t>> dp(len1 + 1, std::vector<size_t>(len2 + 1));
+
+        // Initialize base cases
+        for (size_t i = 0; i <= len1; ++i)
+            dp[i][0] = i;
+        for (size_t j = 0; j <= len2; ++j)
+            dp[0][j] = j;
+
+        // Fill DP table
+        for (size_t i = 1; i <= len1; ++i) {
+            for (size_t j = 1; j <= len2; ++j) {
+                if (tokens1[i - 1] == tokens2[j - 1]) {
+                    dp[i][j] = dp[i - 1][j - 1];  // No edit needed
+                }
+                else {
+                    dp[i][j] = 1 + std::min({ dp[i - 1][j],     // Deletion
+                                             dp[i][j - 1],      // Insertion
+                                             dp[i - 1][j - 1]   // Substitution
+                        });
+                }
+            }
+        }
+
+        return dp[len1][len2];
+    }
+    
+    // Compute normalized edit distance as a similarity score between 0 and 1
+    inline double normalized_edit_similarity(const std::vector<int>& tokens1, const std::vector<int>& tokens2)
+    {
+        if (tokens1.empty() && tokens2.empty())
+            return 1.0;
+
+        const size_t max_len = std::max(tokens1.size(), tokens2.size());
+        if (max_len == 0)
+            return 1.0;
+
+        const size_t dist = edit_distance(tokens1, tokens2);
+        return 1.0 - (static_cast<double>(dist) / max_len);
+    }
+
+    // Compute token-level precision, recall, and F1-score
+    struct token_overlap_metrics
+    {
+        double precision;  // What fraction of generated tokens appear in reference
+        double recall;     // What fraction of reference tokens appear in generated
+        double f1_score;   // Harmonic mean of precision and recall
+
+        void print() const
+        {
+            std::cout << "Token overlap metrics:\n"
+                << "  Precision: " << std::fixed << std::setprecision(4) << (precision * 100.0) << "%\n"
+                << "  Recall:    " << std::fixed << std::setprecision(4) << (recall * 100.0) << "%\n"
+                << "  F1-score:  " << std::fixed << std::setprecision(4) << (f1_score * 100.0) << "%\n";
+        }
+    };
+
+    inline token_overlap_metrics compute_token_overlap(
+        const std::vector<int>& reference,
+        const std::vector<int>& generated)
+    {
+        token_overlap_metrics metrics{ 0.0, 0.0, 0.0 };
+
+        if (reference.empty() || generated.empty())
+            return metrics;
+
+        // Count matching tokens
+        std::multiset<int> ref_tokens(reference.begin(), reference.end());
+        std::multiset<int> gen_tokens(generated.begin(), generated.end());
+
+        size_t matches = 0;
+        for (int token : gen_tokens) {
+            auto it = ref_tokens.find(token);
+            if (it != ref_tokens.end()) {
+                ++matches;
+                ref_tokens.erase(it);  // Remove to handle duplicates correctly
+            }
+        }
+
+        // Calculate precision and recall
+        metrics.precision = static_cast<double>(matches) / generated.size();
+        metrics.recall = static_cast<double>(matches) / reference.size();
+
+        // Calculate F1-score
+        if (metrics.precision + metrics.recall > 0.0) {
+            metrics.f1_score = 2.0 * (metrics.precision * metrics.recall) /
+                (metrics.precision + metrics.recall);
+        }
+
+        return metrics;
+    }
+
+    // Compute BLEU-like n-gram overlap score
+    inline double compute_ngram_overlap(
+        const std::vector<int>& reference,
+        const std::vector<int>& generated,
+        int max_n = 4)
+    {
+        if (reference.empty() || generated.empty())
+            return 0.0;
+
+        double total_score = 0.0;
+        int valid_n_count = 0;
+
+        // Compute overlap for n-grams of size 1 to max_n
+        for (int n = 1; n <= max_n; ++n) {
+            if (static_cast<size_t>(n) > reference.size() ||
+                static_cast<size_t>(n) > generated.size())
+                break;
+
+            // Extract n-grams from reference
+            std::map<std::vector<int>, size_t> ref_ngrams;
+            for (size_t i = 0; i <= reference.size() - n; ++i) {
+                std::vector<int> ngram(reference.begin() + i, reference.begin() + i + n);
+                ref_ngrams[ngram]++;
+            }
+
+            // Count matching n-grams in generated
+            size_t matches = 0;
+            size_t total_gen_ngrams = 0;
+            for (size_t i = 0; i <= generated.size() - n; ++i) {
+                std::vector<int> ngram(generated.begin() + i, generated.begin() + i + n);
+                total_gen_ngrams++;
+
+                auto it = ref_ngrams.find(ngram);
+                if (it != ref_ngrams.end() && it->second > 0) {
+                    matches++;
+                    it->second--;  // Decrement to handle multiple occurrences
+                }
+            }
+
+            if (total_gen_ngrams > 0) {
+                total_score += static_cast<double>(matches) / total_gen_ngrams;
+                valid_n_count++;
+            }
+        }
+
+        // Return average n-gram precision
+        return valid_n_count > 0 ? total_score / valid_n_count : 0.0;
+    }
+
+    // Text similarity report
+    struct text_similarity_report
+    {
+        double edit_similarity;         // Normalized Levenshtein distance
+        token_overlap_metrics overlap;  // Token-level precision/recall/F1
+        double ngram_score;             // N-gram overlap (BLEU-like)
+
+        void print() const
+        {
+            std::cout << "\n=== Text similarity report ===\n";
+            std::cout << "Edit similarity (order-sensitive): "
+                << std::fixed << std::setprecision(4) << (edit_similarity * 100.0) << "%\n\n";
+
+            overlap.print();
+
+            std::cout << "\nN-gram overlap (BLEU-like): "
+                << std::fixed << std::setprecision(4) << (ngram_score * 100.0) << "%\n";
+            std::cout << "==============================\n\n";
+        }
+    };
+
+    inline text_similarity_report compute_text_similarity(
+        const std::vector<int>& reference,
+        const std::vector<int>& generated)
+    {
+        text_similarity_report report;
+
+        report.edit_similarity = normalized_edit_similarity(reference, generated);
+        report.overlap = compute_token_overlap(reference, generated);
+        report.ngram_score = compute_ngram_overlap(reference, generated, 4);
+
+        return report;
+    }
+
+    class inference_context
+    {
+    public:
+        inference_context(
+            long window_size = 256,
+            long context_multiplier = 10,
+            long padding_token = 0
+        ) : window_size_(window_size),
+            context_capacity_(window_size * context_multiplier),
+            padding_token_(padding_token),
+            current_size_(0)
+        {
+            DLIB_CASSERT(window_size > 0, "Window size must be positive");
+            DLIB_CASSERT(context_multiplier > 0, "Context multiplier must be positive");
+            context_.reserve(context_capacity_);
+        }
+
+        void add_token(unsigned long token)
+        {
+            if (current_size_ == context_capacity_)
+            {
+                // FIFO: remove oldest, add newest
+                context_.erase(context_.begin());
+                context_.push_back(static_cast<int>(token));
+            }
+            else
+            {
+                // Still room in context
+                context_.push_back(static_cast<int>(token));
+                current_size_++;
+            }
+        }
+
+        void add_tokens(const std::vector<unsigned long>& tokens)
+        {
+            for (unsigned long token : tokens) add_token(token);
+        }
+
+        void add_tokens(const std::vector<int>& tokens)
+        {
+            for (int token : tokens) add_token(static_cast<unsigned long>(token));
+        }
+
+        matrix<int, 0, 1> get_input_window(long custom_window_size = -1) const
+        {
+            long win_size = (custom_window_size > 0) ? custom_window_size : window_size_;
+            matrix<int, 0, 1> window(win_size, 1);
+
+            if (current_size_ >= win_size)
+            {
+                // Context has enough tokens - take last win_size tokens
+                for (long i = 0; i < win_size; ++i)
+                    window(i) = context_[current_size_ - win_size + i];
+            }
+            else
+            {
+                // Context has fewer tokens - left pad
+                long padding_needed = win_size - current_size_;
+
+                for (long i = 0; i < padding_needed; ++i)
+                    window(i) = padding_token_;
+                for (long i = 0; i < current_size_; ++i)
+                    window(padding_needed + i) = context_[i];
+            }
+
+            return window;
+        }
+
+        void reset()
+        {
+            context_.clear();
+            current_size_ = 0;
+        }
+
+        void resize_context(long new_capacity)
+        {
+            DLIB_CASSERT(new_capacity > 0, "New capacity must be positive");
+
+            if (new_capacity < current_size_)
+            {
+                // Keep only the last new_capacity tokens
+                context_.erase(context_.begin(), context_.begin() + (current_size_ - new_capacity));
+                current_size_ = new_capacity;
+            }
+
+            context_capacity_ = new_capacity;
+            context_.reserve(context_capacity_);
+        }
+
+        long size() const { return current_size_; }
+        long capacity() const { return context_capacity_; }
+        long window_size() const { return window_size_; }
+        bool is_full() const { return current_size_ >= context_capacity_; }
+        const std::vector<int>& get_full_context() const { return context_; }
+
+        std::string to_string(bool show_all = false) const
+        {
+            std::ostringstream ss;
+            ss << "InferenceContext[size=" << current_size_
+                << "/" << context_capacity_
+                << ", window=" << window_size_ << "]\n";
+
+            if (show_all && current_size_ > 0)
+            {
+                ss << "Tokens: [";
+                long display_count = show_all ? current_size_ : std::min(20L, current_size_);
+                for (long i = 0; i < display_count; ++i)
+                {
+                    ss << context_[i];
+                    if (i < display_count - 1) ss << ", ";
+                }
+                if (current_size_ > display_count)
+                {
+                    ss << " ... +" << (current_size_ - display_count) << " more";
+                }
+                ss << "]";
+            }
+
+            return ss.str();
+        }
+
+        friend void serialize(const inference_context& item, std::ostream& out)
+        {
+            serialize("inference_context", out);
+            serialize(item.window_size_, out);
+            serialize(item.context_capacity_, out);
+            serialize(item.padding_token_, out);
+            serialize(item.current_size_, out);
+            serialize(item.context_, out);
+        }
+
+        friend void deserialize(inference_context& item, std::istream& in)
+        {
+            std::string name;
+            deserialize(name, in);
+            if (name != "inference_context")
+            {
+                throw serialization_error("Error deserializing object of type 'inference_context': "
+                    "expected 'inference_context' but got '" + name + "'");
+            }
+
+            deserialize(item.window_size_, in);
+            deserialize(item.context_capacity_, in);
+            deserialize(item.padding_token_, in);
+            deserialize(item.current_size_, in);
+            deserialize(item.context_, in);
+        }
+
+    private:
+        std::vector<int> context_;      // Full context history
+        long window_size_;               // Window size for model input
+        long context_capacity_;          // Maximum context size
+        long padding_token_;             // Token used for left padding
+        long current_size_;              // Current number of tokens
+    };
+
+    inline void build_single_token_prediction_dataset(
+        const std::vector<std::vector<int>>& token_sequences,
+        long window_len,
+        long padding_token,
+        bool use_left_padding,
+        std::vector<matrix<int, 0, 1>>& X,
+        std::vector<unsigned long>& Y)
+    {
+        X.clear();
+        Y.clear();
+
+        for (const auto& seq : token_sequences)
+        {
+            const long len = static_cast<long>(seq.size());
+            if (len <= 1) continue;
+
+            long start = 0;
+            if (len < window_len)
+            {
+                if (!use_left_padding) continue;
+                start = (len - window_len);
+            }
+
+            // Generate initial padded samples for sequences >= window_len
+            if (use_left_padding && len >= window_len)
+            {
+                for (long pos = 1; pos < window_len; ++pos)
+                {
+                    matrix<int, 0, 1> window(window_len, 1);
+                    long pad = window_len - pos;
+
+                    for (long i = 0; i < pad; ++i) window(i) = padding_token;
+                    for (long i = 0; i < pos; ++i) window(pad + i) = seq[i];
+
+                    X.push_back(window);
+                    Y.push_back(seq[pos]);
+                }
+            }
+
+            // Slide window through sequence
+            for (long pos = start; pos < len - 1; ++pos)
+            {
+                matrix<int, 0, 1> window(window_len, 1);
+
+                for (long i = 0; i < window_len; ++i)
+                {
+                    long idx = pos + i;
+                    window(i) = (idx >= 0 && idx < len) ? seq[idx] : padding_token;
+                }
+
+                long target_idx = pos + window_len;
+                if (target_idx >= 0 && target_idx < len)
+                {
+                    X.push_back(window);
+                    Y.push_back(seq[target_idx]);
+                }
+            }
+        }
+    }
+
+    inline void build_multi_token_prediction_dataset(
+        const std::vector<std::vector<int>>& source_sequences,
+        const std::vector<std::vector<int>>& target_sequences,
+        long src_window_len,
+        long tgt_window_len,
+        long padding_token,
+        std::vector<matrix<int, 0, 1>>& X,
+        std::vector<matrix<unsigned long, 0, 1>>& Y)
+    {
+        DLIB_CASSERT(source_sequences.size() == target_sequences.size(),
+            "Source and target must have same size");
+
+        X.clear();
+        Y.clear();
+
+        for (size_t i = 0; i < source_sequences.size(); ++i)
+        {
+            const auto& src = source_sequences[i];
+            const auto& tgt = target_sequences[i];
+
+            const long src_len = static_cast<long>(src.size());
+            const long tgt_len = static_cast<long>(tgt.size());
+
+            if (src_len == 0 || tgt_len == 0) continue;
+
+            long src_pos = (src_len < src_window_len) ? (src_len - src_window_len) : 0;
+            long tgt_pos = 0;
+
+            while (true)
+            {
+                // Build source window
+                matrix<int, 0, 1> src_window(src_window_len, 1);
+                long src_real = 0;
+
+                for (long j = 0; j < src_window_len; ++j)
+                {
+                    long idx = src_pos + j;
+                    if (idx >= 0 && idx < src_len)
+                    {
+                        src_window(j) = src[idx];
+                        src_real++;
+                    }
+                    else
+                    {
+                        src_window(j) = padding_token;
+                    }
+                }
+
+                // Build target window
+                matrix<unsigned long, 0, 1> tgt_window(tgt_window_len, 1);
+                long tgt_real = 0;
+
+                for (long j = 0; j < tgt_window_len; ++j)
+                {
+                    long idx = tgt_pos + j;
+                    if (idx < tgt_len)
+                    {
+                        tgt_window(j) = tgt[idx];
+                        tgt_real++;
+                    }
+                    else
+                    {
+                        tgt_window(j) = padding_token;
+                    }
+                }
+
+                // Stop if no real tokens in either window
+                if (src_real == 0 || tgt_real == 0) break;
+
+                X.push_back(src_window);
+                Y.push_back(tgt_window);
+
+                // Stop if both sequences fully consumed
+                if (src_pos + src_window_len >= src_len &&
+                    tgt_pos + tgt_window_len >= tgt_len) break;
+
+                src_pos++;
+                tgt_pos++;
+            }
+        }
+    }
+
+    template <typename sample_type, typename label_type>
+    void shuffle_training_dataset(
+        std::vector<sample_type>& samples,
+        std::vector<label_type>& labels,
+        unsigned long seed = 0)
+    {
+        DLIB_CASSERT(samples.size() == labels.size(),
+            "samples and labels must have the same size");
+
+        const size_t dataset_size = samples.size();
+        if (dataset_size <= 1) return;
+
+        dlib::rand rng;
+        if (seed != 0) rng = dlib::rand(seed);
+
+        // Fisher-Yates shuffle algorithm
+        for (size_t i = dataset_size - 1; i > 0; --i)
+        {
+            size_t j = rng.get_random_32bit_number() % (i + 1);
+
+            // Swap samples[i] with samples[j]
+            std::swap(samples[i], samples[j]);
+
+            // Swap labels[i] with labels[j]
+            std::swap(labels[i], labels[j]);
+        }
+    }
+
+    template <typename sample_type, typename label_type>
+    void augment_training_dataset(
+        std::vector<sample_type>& samples,
+        std::vector<label_type>& labels,
+        int unk_token,
+        int padding_token,
+        double augmentation_ratio = 0.2,
+        long min_noise_tokens = 1,
+        long max_noise_tokens = 3,
+        unsigned long seed = 0)
+    {
+        DLIB_CASSERT(samples.size() == labels.size(),
+            "samples and labels must have the same size");
+        DLIB_CASSERT(augmentation_ratio >= 0.0 && augmentation_ratio <= 2.0,
+            "augmentation_ratio must be between 0.0 and 2.0");
+        DLIB_CASSERT(min_noise_tokens >= 0 && max_noise_tokens >= min_noise_tokens,
+            "Invalid noise token range: min=" << min_noise_tokens << ", max=" << max_noise_tokens);
+
+        const size_t original_size = samples.size();
+        if (original_size == 0 || augmentation_ratio == 0.0) return;
+
+        // Calculate number of augmented samples to create
+        const size_t num_augmented = static_cast<size_t>(original_size * augmentation_ratio);
+        if (num_augmented == 0) return;
+
+        // Reserve space to avoid multiple reallocations
+        samples.reserve(original_size + num_augmented);
+        labels.reserve(original_size + num_augmented);
+
+        dlib::rand rng;
+        if (seed != 0) rng = dlib::rand(seed);
+
+        for (size_t aug_idx = 0; aug_idx < num_augmented; ++aug_idx)
+        {
+            // Select a random sample to augment
+            const size_t source_idx = rng.get_random_32bit_number() % original_size;
+
+            // Create a copy of the sample and its label
+            auto augmented_sample = samples[source_idx];
+            auto augmented_label = labels[source_idx];
+
+            // Identify non-padding positions in the sample
+            std::vector<long> valid_positions;
+            const long sample_length = augmented_sample.nr();
+
+            for (long i = 0; i < sample_length; ++i)
+            {
+                if (augmented_sample(i) != padding_token)
+                    valid_positions.push_back(i);
+            }
+
+            // Skip if no valid positions to add noise
+            if (valid_positions.empty()) continue;
+
+            // Determine number of tokens to replace with noise
+            const long num_valid = static_cast<long>(valid_positions.size());
+            const long effective_max = std::min(max_noise_tokens, num_valid);
+            const long effective_min = std::min(min_noise_tokens, effective_max);
+
+            long num_noise = effective_min;
+            if (effective_max > effective_min)
+            {
+                num_noise = effective_min +
+                    (rng.get_random_32bit_number() % (effective_max - effective_min + 1));
+            }
+
+            // Ensure noise ratio is reasonable (max 30% of non-padding tokens)
+            const long max_reasonable = std::max(1L, static_cast<long>(num_valid * 0.3));
+            num_noise = std::min(num_noise, max_reasonable);
+
+            // Randomly select positions to replace with UNK
+            std::vector<long> noise_positions = valid_positions;
+
+            // Fisher-Yates shuffle to select random positions
+            for (long i = static_cast<long>(noise_positions.size()) - 1; i > 0; --i)
+            {
+                long j = rng.get_random_32bit_number() % (i + 1);
+                std::swap(noise_positions[i], noise_positions[j]);
+            }
+
+            // Apply noise to the first num_noise positions
+            for (long i = 0; i < num_noise; ++i)
+            {
+                augmented_sample(noise_positions[i]) = unk_token;
+            }
+
+            // Add augmented sample and label to the dataset
+            samples.push_back(std::move(augmented_sample));
+            labels.push_back(std::move(augmented_label));
+        }
+    }
+
+} // namespace dlib
+
+#endif // DLIB_LANGUAGE_MODEL_DATA_H_
\ No newline at end of file
diff --git a/dlib/data_io/language_model_data_abstract.h b/dlib/data_io/language_model_data_abstract.h
new file mode 100644
index 0000000000..2b797223e2
--- /dev/null
+++ b/dlib/data_io/language_model_data_abstract.h
@@ -0,0 +1,556 @@
+﻿// Copyright (C) 2025  Davis E. King (davis@dlib.net)
+// License: Boost Software License   See LICENSE.txt for the full license.
+#undef DLIB_LANGUAGE_MODEL_DATA_ABSTRACT_H_
+#ifdef DLIB_LANGUAGE_MODEL_DATA_ABSTRACT_H_
+
+#include <iostream>
+#include <string>
+#include <vector>
+#include "../matrix.h"
+#include "../serialize.h"
+
+namespace dlib
+{
+    // ---------------------------------------------------------------------------------
+
+    enum class file_content_type
+    {
+        /*!
+            WHAT THIS ENUM REPRESENTS
+                Enumeration of recognized file content types for classification purposes.
+                Used by detect_file_type() to identify the nature of file contents.
+
+            VALUES
+                TEXT_PLAIN   - Plain text files (including CSV, source code, logs, etc.)
+                TEXT_XML     - XML or HTML markup documents
+                IMAGE        - Image formats (PNG, JPEG, GIF, TIFF, BMP, WEBP, etc.)
+                VIDEO        - Video formats (MP4, AVI, MKV, etc.)
+                AUDIO        - Audio formats (MP3, WAV, FLAC, OGG, etc.)
+                EXECUTABLE   - Executable binary files (EXE, DLL, ELF, Mach-O)
+                COMPRESSED   - Compressed archives (ZIP, GZIP, 7Z, RAR, etc.)
+                PDF          - PDF documents
+                OFFICE       - Office documents (DOCX, XLSX, PPTX)
+                UNKNOWN      - File type could not be determined or is not recognized
+
+            NOTES
+                - Detection is based on file content analysis, not file extensions
+                - Magic number signatures are checked first for binary formats
+                - Entropy analysis and heuristics are used for text vs binary classification
+        !*/
+    };
+
+    // ---------------------------------------------------------------------------------
+
+    inline bool detect_file_type(
+        const std::string& filename,
+        file_content_type& detected_type
+    );
+    /*!
+        ensures
+            - Efficiently detects the content type of a file by analyzing its internal
+              structure using magic number signatures and entropy-based heuristics
+            - Opens and reads the first 8KB of the file for analysis
+            - Returns true if file contains text-based content (TEXT_PLAIN or TEXT_XML)
+            - Returns false if file contains binary content or cannot be opened
+            - Sets detected_type to the most specific content type that could be identified
+            - If file cannot be opened, returns false and sets detected_type to UNKNOWN
+
+        FILE DETECTION METHODOLOGY
+            The function uses a multi-stage detection process:
+
+            Stage 1: magic number detection (Binary Formats)
+                - Checks for ~30 common file format signatures (magic numbers)
+                - Supported formats include:
+                  * Images: PNG, JPEG (4 variants), GIF (87a/89a), TIFF (LE/BE), BMP, WEBP
+                  * Documents: PDF
+                  * Compressed: ZIP, GZIP, 7Z, RAR
+                  * Executables: Windows PE (EXE/DLL), Unix ELF, macOS Mach-O (32/64-bit)
+                  * Audio: MP3 (ID3/FF), WAV, FLAC, OGG
+                  * Video: MP4, AVI, MKV
+                - Special handling for container formats:
+                  * RIFF containers (WAV/AVI/WEBP) are distinguished by format identifier
+                  * ZIP files are checked against filename to detect Office documents (DOCX/XLSX/PPTX)
+                - If magic number is found, returns false (binary) with appropriate type
+
+            Stage 2: XML/HTML detection
+                - Checks for XML declarations (<?xml) and HTML markers
+                - Case-insensitive matching for robustness
+                - Returns true with TEXT_XML if detected
+
+            Stage 3: entropy analysis
+                - Calculates Shannon entropy: H = -sum(p * log2(p))
+                - Entropy ranges from 0 (completely uniform) to 8 (maximum randomness)
+                - Used to distinguish text from compressed/encrypted content
+
+            Stage 4: text content heuristics
+                - Analyzes character distribution:
+                  * Counts printable ASCII/UTF-8 characters
+                  * Counts whitespace and control characters
+                  * Supports multi-byte UTF-8 sequences
+                - Text classification criteria:
+                  * >90% printable characters
+                  * <10% control characters
+                  * Entropy < 5.5 (high confidence text)
+                  * Entropy < 6.5 (text with special characters)
+                  * Entropy >= 6.8 (likely binary/compressed/encrypted)
+
+        TYPICAL USAGE
+            file_content_type type;
+
+            // Detect file type
+            bool is_text = detect_file_type("document.pdf", type);
+
+            if (type == file_content_type::PDF)
+                std::cout << "PDF document detected\n";
+            else if (type == file_content_type::IMAGE)
+                std::cout << "Image file detected\n";
+            else if (is_text)
+                std::cout << "Text file detected\n";
+            else
+                std::cout << "Binary file or unknown format\n";
+
+            // Filter text files for processing
+            std::vector<std::string> filenames = get_file_list();
+            for (const auto& fname : filenames)
+            {
+                file_content_type ftype;
+                if (detect_file_type(fname, ftype))
+                {
+                    // Process text file
+                    process_text_file(fname);
+                }
+            }
+    !*/
+
+    // ---------------------------------------------------------------------------------
+
+    inline size_t edit_distance(
+        const std::vector<int>& tokens1,
+        const std::vector<int>& tokens2
+    );
+    /*!
+        ensures
+            - Computes the Levenshtein (edit) distance between two token sequences
+            - Returns the minimum number of single-token edits (insertions, deletions,
+              or substitutions) required to transform tokens1 into tokens2
+            - Uses dynamic programming with O(n*m) time complexity and O(n*m) space
+            - Returns tokens2.size() if tokens1 is empty
+            - Returns tokens1.size() if tokens2 is empty
+            - Returns 0 if both sequences are identical
+    !*/
+
+    inline double normalized_edit_similarity(
+        const std::vector<int>& tokens1,
+        const std::vector<int>& tokens2
+    );
+    /*!
+        ensures
+            - Computes a normalized similarity score based on edit distance
+            - Returns a value in the range [0.0, 1.0] where:
+              * 1.0 indicates identical sequences
+              * 0.0 indicates completely different sequences
+            - Formula: 1.0 - (edit_distance / max_length)
+            - If both sequences are empty, returns 1.0 (considered identical)
+            - This metric is order-sensitive: [1,2,3] vs [3,2,1] will have low similarity
+    !*/
+
+    // ---------------------------------------------------------------------------------
+
+    struct token_overlap_metrics
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                Stores token-level evaluation metrics that treat sequences as
+                bags of tokens (order-independent). Useful for assessing vocabulary
+                overlap between reference and generated text.
+
+            FIELDS
+                precision   - Fraction of generated tokens that appear in the reference
+                            Range: [0.0, 1.0]
+                            Formula: matching_tokens / total_generated_tokens
+
+                recall      - Fraction of reference tokens that appear in the generated text
+                            Range: [0.0, 1.0]
+                            Formula: matching_tokens / total_reference_tokens
+
+                f1_score    - Harmonic mean of precision and recall
+                            Range: [0.0, 1.0]
+                            Formula: 2 * (precision * recall) / (precision + recall)
+
+            INTERPRETATION
+                - High precision: generated text uses vocabulary from reference
+                - High recall: generated text covers reference vocabulary
+                - High F1: good balance between precision and recall
+                - Unlike edit distance, this metric ignores token order
+        !*/
+
+        double precision;
+        double recall;
+        double f1_score;
+
+        void print() const;
+        /*!
+            ensures
+                - Prints formatted metrics to standard output
+                - Format: "Precision: XX.XX%\n  Recall: XX.XX%\n  F1-score: XX.XX%"
+        !*/
+    };
+
+    inline token_overlap_metrics compute_token_overlap(
+        const std::vector<int>& reference,
+        const std::vector<int>& generated
+    );
+    /*!
+        ensures
+            - Computes token-level precision, recall, and F1-score between reference
+              and generated token sequences
+            - Treats sequences as multisets (bags) of tokens, ignoring order
+            - Handles duplicate tokens correctly by matching each token at most once
+            - Returns metrics with all values set to 0.0 if either sequence is empty
+            - Precision = fraction of generated tokens found in reference
+            - Recall = fraction of reference tokens found in generated
+            - F1 = harmonic mean of precision and recall
+    !*/
+
+    // ---------------------------------------------------------------------------------
+
+    inline double compute_ngram_overlap(
+        const std::vector<int>& reference,
+        const std::vector<int>& generated,
+        int max_n = 4
+    );
+    /*!
+        requires
+            - max_n >= 1
+        ensures
+            - Computes n-gram overlap score similar to BLEU metric
+            - Evaluates matching n-grams for n = 1, 2, 3, ..., max_n
+            - Returns average n-gram precision across all n values
+            - Score range: [0.0, 1.0] where 1.0 is perfect overlap
+            - Returns 0.0 if either sequence is empty
+            - Stops computing for n-values where n > sequence length
+
+        COMPARISON TO BLEU
+            - Similar to BLEU but simplified (no brevity penalty, no geometric mean)
+            - Uses arithmetic mean instead of geometric mean for simplicity
+            - Suitable for quick similarity assessment in language model evaluation
+    !*/
+
+    // ---------------------------------------------------------------------------------
+
+    struct text_similarity_report
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                Comprehensive similarity report combining multiple metrics to evaluate
+                how closely generated text matches reference text. Provides both
+                order-sensitive and order-insensitive measures.
+
+            FIELDS
+                edit_similarity  - Normalized Levenshtein distance (order-sensitive)
+                                 Range: [0.0, 1.0]
+                                 Measures token-by-token match considering order
+
+                overlap          - Token-level precision/recall/F1 metrics
+                                 Order-insensitive bag-of-tokens comparison
+                                 Useful for vocabulary coverage assessment
+
+                ngram_score      - BLEU-like n-gram overlap score (order-aware locally)
+                                 Range: [0.0, 1.0]
+                                 Captures phrase-level similarity
+
+            INTERPRETATION GUIDE
+                Use edit_similarity when:
+                    - Exact token order matters
+                    - Evaluating sequence prediction tasks
+                    - Need strict alignment measure
+
+                Use overlap metrics when:
+                    - Vocabulary coverage is important
+                    - Order is less critical
+                    - Want to know what fraction of tokens are correct
+
+                Use ngram_score when:
+                    - Local phrase structure matters
+                    - Evaluating fluency and coherence
+                    - Need metric between strict order and pure bag-of-words
+        !*/
+
+        double edit_similarity;
+        token_overlap_metrics overlap;
+        double ngram_score;
+
+        void print() const;
+        /*!
+            ensures
+                - Prints comprehensive formatted report to standard output
+                - Displays all three metric categories with clear labels
+                - Format optimized for readability with percentages and section headers
+        !*/
+    };
+
+    inline text_similarity_report compute_text_similarity(
+        const std::vector<int>& reference,
+        const std::vector<int>& generated
+    );
+    /*!
+        ensures
+            - Computes comprehensive similarity metrics between reference and generated
+              token sequences
+            - Returns text_similarity_report containing:
+              * edit_similarity: normalized Levenshtein distance
+              * overlap: token-level precision/recall/F1 scores
+              * ngram_score: BLEU-like n-gram overlap (up to 4-grams)
+            - This is the primary function for evaluating text generation quality
+            - Provides multiple complementary views of similarity
+    !*/
+
+    // ---------------------------------------------------------------------------------
+
+    class inference_context
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This class manages a token context for inference with language models.
+                It maintains a full history context and provides a sliding window view
+                for model input.
+
+                Features:
+                - Full context history with configurable capacity
+                - Sliding window extraction for model input
+                - Left padding when context not full
+                - FIFO policy when context reaches capacity
+                - Dynamic resizing without data loss
+
+            TYPICAL USAGE
+                inference_context ctx(256, 10, 0);  // window=256, capacity=2560, pad=0
+
+                ctx.add_tokens({1, 2, 3, 4, 5});    // Add tokens
+                auto input = ctx.get_input_window(); // Get last 256 tokens (padded if needed)
+
+                // Feed to model, get prediction, add to context
+                unsigned long next_token = model(input);
+                ctx.add_token(next_token);
+        !*/
+    public:        
+        inference_context(
+            long window_size = 256,
+            long context_multiplier = 10,
+            long padding_token = 0
+        );
+        /*!
+            requires
+                - window_size > 0
+                - context_multiplier > 0
+            ensures
+                - Constructs an inference context manager
+                - context_capacity = window_size * context_multiplier
+                - Context is initially empty (will be left-padded)
+        !*/
+        
+        void add_token(unsigned long token);
+        /*!
+            ensures
+                - Adds a single token to the context
+                - If context is full, removes oldest token (FIFO)
+                - New token is always added at the end
+        !*/        
+
+        void add_tokens(const std::vector<unsigned long>& tokens);
+        void add_tokens(const std::vector<int>& tokens);
+        /*!
+            ensures
+                - Adds multiple tokens to the context
+                - Tokens are added in order
+                - FIFO policy applies if capacity exceeded
+        !*/
+
+        matrix<int, 0, 1> get_input_window(long custom_window_size = -1) const;
+        /*!
+            ensures
+                - Returns a window of tokens suitable for model input
+                - Window size is custom_window_size if specified, otherwise window_size_
+                - Window contains the last N tokens from context
+                - Left-padded with padding_token if context has fewer than N tokens
+                - Returns matrix<int,0,1> of shape (N, 1) compatible with Dlib
+        !*/
+
+        void reset();
+        /*!
+            ensures
+                - Clears all tokens from context
+                - Resets current_size to 0
+                - Context capacity remains unchanged
+        !*/
+
+        void resize_context(long new_capacity);
+        /*!
+            requires
+                - new_capacity > 0
+            ensures
+                - Resizes the context capacity
+                - Preserves existing tokens (up to new capacity)
+                - If new_capacity < current_size, keeps only the last new_capacity tokens
+        !*/
+
+        long size() const;
+        /*!
+            ensures
+                - Returns the current number of tokens in context
+        !*/
+
+        long capacity() const;
+        /*!
+            ensures
+                - Returns the maximum capacity of the context
+        !*/
+
+        long window_size() const;
+        /*!
+            ensures
+                - Returns the default window size for model input
+        !*/
+
+        bool is_full() const;
+        /*!
+            ensures
+                - Returns true if context is at full capacity
+        !*/
+
+        const std::vector<int>& get_full_context() const;
+        /*!
+            ensures
+                - Returns a const reference to the full context vector
+        !*/
+
+        std::string to_string(bool show_all = false) const;
+        /*!
+            ensures
+                - Returns a string representation of the context for debugging
+        !*/
+
+        friend void serialize(const inference_context& item, std::ostream& out);
+        /*!
+            ensures
+                - Serializes the inference_context to an output stream
+                - Saves all context data and configuration parameters
+        !*/
+
+        friend void deserialize(inference_context& item, std::istream& in);
+        /*!
+            ensures
+                - Deserializes the inference_context from an input stream
+                - Restores all context data and configuration parameters
+        !*/
+
+    private:
+        std::vector<int> context_;      // Full context history
+        long context_capacity_;          // Maximum context size
+        long window_size_;               // Window size for model input
+        long padding_token_;             // Token used for left padding
+        long current_size_;              // Current number of tokens
+    };
+
+    inline void build_single_token_prediction_dataset(
+        const std::vector<std::vector<int>>& token_sequences,
+        long window_len,
+        long padding_token,
+        bool use_left_padding,
+        std::vector<matrix<int, 0, 1>>& X,
+        std::vector<unsigned long>& Y);
+    /*!
+        ensures
+            - Constructs training samples for single next-token prediction using a sliding window approach
+            - For each sequence, creates input windows of size window_len paired with the immediately following token
+            - If use_left_padding is true:
+                * Sequences shorter than window_len are left-padded with padding_token
+                * Sequences >= window_len generate initial samples with progressive left padding
+            - If use_left_padding is false:
+                * Sequences shorter than window_len are skipped
+            - Returns samples in X (input windows) and Y (target tokens)
+            - X contains matrix<int,0,1> of shape (window_len, 1)
+            - Y contains unsigned long values representing the next token
+    !*/
+
+    inline void build_multi_token_prediction_dataset(
+        const std::vector<std::vector<int>>& source_sequences,
+        const std::vector<std::vector<int>>& target_sequences,
+        long src_window_len,
+        long tgt_window_len,
+        long padding_token,
+        std::vector<matrix<int, 0, 1>>& X,
+        std::vector<matrix<unsigned long, 0, 1>>& Y);
+    /*!
+        requires
+            - source_sequences.size() == target_sequences.size()
+            - src_window_len > 0
+            - tgt_window_len > 0
+        ensures
+            - Constructs training samples for sequence-to-sequence prediction
+            - For each (source, target) pair, creates aligned windows that slide synchronously
+            - Source windows are left-padded with padding_token when source length < src_window_len
+            - Target windows are right-padded with padding_token when insufficient tokens remain
+            - Sliding continues while both windows contain at least one real (non-padding) token
+            - Stops when both sequences are fully consumed (all tokens have appeared in windows)
+            - Returns samples in X (source windows) and Y (target windows)
+            - X contains matrix<int,0,1> of shape (src_window_len, 1)
+            - Y contains matrix<unsigned long,0,1> of shape (tgt_window_len, 1)
+    !*/
+
+    template <typename sample_type, typename label_type>
+    void shuffle_training_dataset(
+        std::vector<sample_type>& samples,
+        std::vector<label_type>& labels,
+        unsigned long seed = 0
+    );
+    /*!
+        requires
+            - samples.size() == labels.size()
+        ensures
+            - Randomly shuffles the training dataset in-place
+            - Applies the same permutation to both samples and labels to maintain correspondence
+            - If seed == 0, uses a random seed based on current time
+            - If seed != 0, uses the provided seed for reproducible shuffling
+            - After shuffling, samples[i] still corresponds to labels[i]
+            - Uses Fisher-Yates shuffle algorithm for uniform random permutation
+    !*/
+
+    template <typename sample_type, typename label_type>
+    void augment_training_dataset(
+        std::vector<sample_type>& samples,
+        std::vector<label_type>& labels,
+        int unk_token,
+        int padding_token,
+        double augmentation_ratio = 0.2,
+        long min_noise_tokens = 1,
+        long max_noise_tokens = 3,
+        unsigned long seed = 0
+    );
+    /*!
+        requires
+            - samples.size() == labels.size()
+            - 0.0 <= augmentation_ratio <= 2.0
+            - min_noise_tokens >= 0
+            - max_noise_tokens >= min_noise_tokens
+        ensures
+            - Augments the training dataset by adding noisy copies of existing samples
+            - Creates floor(samples.size() * augmentation_ratio) new augmented samples
+            - For each augmented sample:
+                * Randomly selects a source sample from the original dataset
+                * Creates a copy of the sample and its corresponding label
+                * Randomly replaces between min_noise_tokens and max_noise_tokens
+                  non-padding tokens with unk_token
+                * Only tokens != padding_token are eligible for noise injection
+                * Number of noise tokens is capped at 30% of non-padding tokens
+                  to maintain sample quality
+            - Corresponding labels are appended to labels vector (unchanged)
+            - Original samples and labels are preserved
+            - If seed == 0, uses random seed based on current time
+            - If seed != 0, uses provided seed for reproducible augmentation
+            - Default augmentation_ratio of 0.2 (20%) follows common practices
+              in language model training literature
+    !*/
+
+} // namespace dlib
+
+#endif // DLIB_LANGUAGE_MODEL_DATA_ABSTRACT_H_
\ No newline at end of file
diff --git a/dlib/dnn.h b/dlib/dnn.h
index bc38dc4b73..313c19b6f7 100644
--- a/dlib/dnn.h
+++ b/dlib/dnn.h
@@ -32,6 +32,7 @@
 #include "dnn/utilities.h"
 #include "dnn/validation.h"
 #include "dnn/visitors.h"
+#include "dnn/transformer.h"
 
 #endif // DLIB_DNn_
 
diff --git a/dlib/dnn/layers.h b/dlib/dnn/layers.h
index 6f9389fced..cde2f7ed9f 100644
--- a/dlib/dnn/layers.h
+++ b/dlib/dnn/layers.h
@@ -1017,19 +1017,10 @@ namespace dlib
         void setup(const SUBNET& sub)
         {
             const auto& input = sub.get_output();
-            input_k = input.k();
-            input_nr = input.nr();
-            input_nc = input.nc();
-
-            // Calculate output dimensions using input dims where target is -1
-            if (k_ == -1) output_k = input_k;
-            if (nr_ == -1) output_nr = input_nr;
-            if (nc_ == -1) output_nc = input_nc;
+            update_dimensions_from_input(input);
 
-            // Check if this is well a pure reshape
             long input_elements = input_k * input_nr * input_nc;
             long output_elements = output_k * output_nr * output_nc;
-            if (input_elements != output_elements && input_k == output_k) needs_rescale = true;
             DLIB_CASSERT(input_elements == output_elements || needs_rescale,
                 "Cannot reshape tensor of " << input_elements <<
                 " elements into shape with " << output_elements << " elements. " <<
@@ -1039,8 +1030,14 @@ namespace dlib
         template <typename SUBNET>
         void forward(const SUBNET& sub, resizable_tensor& output)
         {
-            // Set the output size (always preserving batch dimension)
             const tensor& input = sub.get_output();
+
+            // Check if dimensions changed (after deserialization or fine-tuning)
+            // This ensures dimensions are always synchronized with current input
+            if (input_k != input.k() || input_nr != input.nr() || input_nc != input.nc())
+                update_dimensions_from_input(input);
+
+            // Set the output size (always preserving batch dimension)
             output.set_size(input.num_samples(), output_k, output_nr, output_nc);
 
             if (!needs_rescale)
@@ -1142,7 +1139,25 @@ namespace dlib
                 << "/>\n";
         }
 
-    private:        
+    private:
+        void update_dimensions_from_input(const tensor& input)
+        {
+            // Update input dimensions
+            input_k = input.k();
+            input_nr = input.nr();
+            input_nc = input.nc();
+
+            // Recalculate output dimensions for dynamic axes (-1)
+            if (k_ == -1) output_k = input_k;
+            if (nr_ == -1) output_nr = input_nr;
+            if (nc_ == -1) output_nc = input_nc;
+
+            // Check if rescaling is needed
+            long input_elements = input_k * input_nr * input_nc;
+            long output_elements = output_k * output_nr * output_nc;
+            needs_rescale = (input_elements != output_elements && input_k == output_k);
+        }
+
         long input_k, input_nr, input_nc;       // Input dimensions        
 		long output_k, output_nr, output_nc;    // Output dimensions        
         bool needs_rescale;        
@@ -2407,7 +2422,7 @@ namespace dlib
         {
             const auto& prev_output = sub.get_output();
             DLIB_CASSERT((long)num_inputs == prev_output.nc(),
-                "The size of the input tensor to this linear layer doesn't match the size the linear layer was trained with.");            
+                "The size of the input tensor to this linear layer doesn't match the size the linear layer was trained with.");
             output.set_size(prev_output.num_samples(), prev_output.k(), prev_output.nr(), num_outputs);
 
             auto o = alias_tensor(output.num_samples() * output.k() * output.nr(), num_outputs)(output, 0);
@@ -2441,8 +2456,6 @@ namespace dlib
                 }
             }
             
-            //prev_gradient is not const, so that sgi isn't const
-            //since sgi is used as a destination for tt::gemm
             auto& prev_gradient = sub.get_gradient_input();
             alias_tensor_instance sgi = alias_tensor(prev_gradient.num_samples() * prev_gradient.k() * prev_gradient.nr(), num_inputs)(prev_gradient, 0);
             auto w = weights(params, 0);
@@ -5441,7 +5454,8 @@ namespace dlib
         embeddings_() : num_embeddings(num_embeddings_),
             embedding_dim(embedding_dim_),
             learning_rate_multiplier(1.0f),
-            scale_by_freq(true)
+            scale_by_freq(true),
+            output_scale(std::sqrt(static_cast<float>(embedding_dim_)))
         {
         }
 
@@ -5473,12 +5487,17 @@ namespace dlib
             }
         }
 
+        float get_output_scale() const { return output_scale; }
+
         template <typename SUBNET>
         void setup(const SUBNET& /*sub*/)
         {
             embs.set_size(num_embeddings, embedding_dim);
             tt::tensor_rand rnd(std::rand());
             rnd.fill_gaussian(embs);
+
+            const float init_scale = 1.0f / std::sqrt(static_cast<float>(embedding_dim));
+            tt::affine_transform(embs, embs, init_scale);
         }
 
         template <typename SUBNET>
@@ -5488,6 +5507,7 @@ namespace dlib
             output.set_size(prev.num_samples(), prev.k(), prev.nr(), embedding_dim);
 
             tt::embeddings(output, prev, embs);
+            tt::affine_transform(output, output, output_scale);
         }
 
         template <typename SUBNET>
@@ -5502,7 +5522,8 @@ namespace dlib
                 auto& prev_src = sub.get_output();
                 
                 calc_token_freqs(prev_src, gradient_input);
-                tt::embeddings_gradient(prev_src, gradient_input, embs, freqs, learning_rate_multiplier, scale_by_freq);
+                const float scaled_lr = learning_rate_multiplier * output_scale;
+                tt::embeddings_gradient(prev_src, gradient_input, embs, freqs, scaled_lr, scale_by_freq);
             }
         }
 
@@ -5520,6 +5541,7 @@ namespace dlib
             serialize(item.embedding_dim, out);
             serialize(item.learning_rate_multiplier, out);
             serialize(item.scale_by_freq, out);
+            serialize(item.output_scale, out);
         }
         friend void deserialize(embeddings_& item, std::istream& in)
         {
@@ -5532,12 +5554,14 @@ namespace dlib
             deserialize(item.embedding_dim, in);
             deserialize(item.learning_rate_multiplier, in);
             deserialize(item.scale_by_freq, in);
+            deserialize(item.output_scale, in);
         }
 
         friend std::ostream& operator<<(std::ostream& out, const embeddings_& item)
         {
             out << "embeddings (num_embeddings=" << item.num_embeddings
                 << ", embedding_dim=" << item.embedding_dim
+                << ", scale=" << item.output_scale
                 << ") learning_rate_mult=" << item.learning_rate_multiplier;
             return out;
         }
@@ -5545,6 +5569,7 @@ namespace dlib
         {
             out << "<embeddings num_embeddings='" << item.num_embeddings
                 << "' embedding_dim='" << item.embedding_dim
+                << "' output_scale='" << item.output_scale
                 << "' learning_rate_mult='"
                 << item.learning_rate_multiplier << "'>\n";
             out << mat(item.embs);
@@ -5576,6 +5601,7 @@ namespace dlib
         unsigned long num_embeddings, embedding_dim;
         double learning_rate_multiplier;
         bool scale_by_freq;
+        float output_scale;
     };
 
     template <
@@ -5587,6 +5613,113 @@ namespace dlib
 
 // ----------------------------------------------------------------------------------------
   
+    class tril_padding_context
+    {
+    public:
+        static void set(const tensor& input_tokens, long padding_token)
+        {
+            if (padding_token < 0) {
+                clear();
+                return;
+            }
+            std::lock_guard<std::mutex> lock(get_mutex_());
+            const long batch_size = input_tokens.num_samples();
+            const long seq_len = input_tokens.nr();
+            const float* data = input_tokens.host();
+            get_padding_lengths_().resize(batch_size);
+            for (long s = 0; s < batch_size; ++s)
+            {
+                long count = 0;
+                for (long t = 0; t < seq_len; ++t)
+                {
+                    const long idx = s * seq_len + t;
+                    const long token = static_cast<long>(data[idx]);
+                    if (token == padding_token)
+                        count++;
+                    else
+                        break;
+                }
+                get_padding_lengths_()[s] = count;
+            }
+            get_is_set_() = true;
+        }
+
+        static void set_from_lengths(const std::vector<long>& lengths)
+        {
+            std::lock_guard<std::mutex> lock(get_mutex_());
+            get_padding_lengths_() = lengths;
+            get_is_set_() = true;
+        }
+
+        static void set_uniform(long padding_length, long batch_size)
+        {
+            std::lock_guard<std::mutex> lock(get_mutex_());
+            get_padding_lengths_().assign(batch_size, padding_length);
+            get_is_set_() = true;
+        }
+
+        static void clear()
+        {
+            std::lock_guard<std::mutex> lock(get_mutex_());
+            get_padding_lengths_().clear();
+            get_is_set_() = false;
+        }
+
+        static long get_padding_length(long sample_idx)
+        {
+            std::lock_guard<std::mutex> lock(get_mutex_());
+            if (!get_is_set_() || sample_idx < 0 ||
+                sample_idx >= static_cast<long>(get_padding_lengths_().size()))
+                return 0;
+            return get_padding_lengths_()[sample_idx];
+        }
+
+        static std::vector<long> get_all_lengths()
+        {
+            std::lock_guard<std::mutex> lock(get_mutex_());
+            return get_padding_lengths_();
+        }
+
+        static bool is_set()
+        {
+            std::lock_guard<std::mutex> lock(get_mutex_());
+            return get_is_set_();
+        }
+
+    private:
+        static std::mutex& get_mutex_()
+        {
+            static std::mutex m;
+            return m;
+        }
+
+        static std::vector<long>& get_padding_lengths_()
+        {
+            static std::vector<long> lengths;
+            return lengths;
+        }
+
+        static bool& get_is_set_()
+        {
+            static bool is_set = false;
+            return is_set;
+        }
+    };
+
+    template <typename T>
+    long count_leading_padding(const matrix<T, 0, 1>& seq, T padding_token)
+    {
+        long count = 0;
+        for (long i = 0; i < seq.size(); ++i)
+        {
+            if (seq(i) == padding_token) count++;
+            else break;
+        }
+        return count;
+    }
+
+// ----------------------------------------------------------------------------------------
+
     struct neg_infinity_tag {};
     struct zero_tag {};
 
@@ -5601,7 +5734,7 @@ namespace dlib
     class tril_
     {
     public:
-        tril_(): diag(diag_), diag_value(compute_diag_value()) {}
+        tril_(): diag(diag_), prefix_size(0), diag_value(compute_diag_value()) {}
         
         template <typename SUBNET>
         void setup(const SUBNET& /*sub*/)
@@ -5614,10 +5747,28 @@ namespace dlib
             auto& prev = sub.get_output();
             output.set_size(prev.num_samples(), prev.k(), prev.nr(), prev.nc());
 
+            // Check padding context and update cached lengths if needed
+            if (tril_padding_context::is_set())
+            {
+                auto new_lengths = tril_padding_context::get_all_lengths();
+                if (new_lengths != cached_padding_lengths_)
+                {
+                    cached_padding_lengths_ = new_lengths;
+                    invalidate_mask();
+                }
+            }
+            else if (!cached_padding_lengths_.empty())
+            {
+                // Context was cleared, reset padding
+                cached_padding_lengths_.clear();
+                invalidate_mask();
+            }
+
             check_mask(prev);
             tt::multiply(false, output, prev, binary_mask);
             if (diag_value != 0.0f) tt::add(1, output, 1, output_mask);
         }
+
         template <typename SUBNET>
         void backward(const tensor& gradient_input, SUBNET& sub, tensor& /*params_grad*/)
         {
@@ -5630,6 +5781,15 @@ namespace dlib
 
         const tensor& get_layer_params() const { return params; }
         tensor& get_layer_params() { return params; }
+
+        void set_prefix_size(long n_prefix_size)
+        {
+            if (prefix_size != n_prefix_size) {
+                prefix_size = n_prefix_size;
+                invalidate_mask();
+            }
+        }
+        long get_prefix_size() const { return prefix_size; }
         
         friend void serialize(const tril_& item, std::ostream& out)
         {
@@ -5667,25 +5827,66 @@ namespace dlib
                 return static_cast<float>(num_) / static_cast<float>(den_);
         }
 
+        void invalidate_mask()
+        {
+            binary_mask.set_size(0, 0, 0, 0);
+            output_mask.set_size(0, 0, 0, 0);
+        }
+
         void check_mask(const tensor& t)
         {
-            if (!have_same_dimensions(binary_mask, t)) {
+            if (!have_same_dimensions(binary_mask, t))
+            {
                 binary_mask.copy_size(t);
                 binary_mask = 1;
-                if (diag_value != 0.0f) {
+
+                const bool use_output_mask = (diag_value != 0.0f);
+                if (use_output_mask) {
                     output_mask.copy_size(t);
                     output_mask = 0;
-                }                                
-                for (long s = 0; s < output_mask.num_samples(); ++s)
+                }
+
+                const bool has_padding = !cached_padding_lengths_.empty();
+
+                for (long s = 0; s < t.num_samples(); ++s)
                 {
-                    for (long k = 0; k < output_mask.k(); ++k)
+                    const long pad_len = has_padding &&
+                        s < static_cast<long>(cached_padding_lengths_.size())
+                        ? cached_padding_lengths_[s] : 0;
+
+                    for (long k = 0; k < t.k(); ++k)
                     {
-                        for (long r = 0; r < output_mask.nr(); ++r)
+                        for (long r = 0; r < t.nr(); ++r)
                         {
-                            for (long c = std::max(r + diag + 1, 0L); c < output_mask.nc(); ++c)
+                            // Mask padding columns
+                            for (long c = 0; c < pad_len; ++c)
+                            {
+                                const long idx = tensor_index(t, s, k, r, c);
+                                binary_mask.host()[idx] = 0;
+                                if (use_output_mask)
+                                    output_mask.host()[idx] = diag_value;
+                            }
+
+                            // Mask future positions (causal)
+                            const long causal_start = std::max({ r + diag + 1, prefix_size, pad_len });
+                            for (long c = causal_start; c < t.nc(); ++c)
                             {
-                                if (diag_value != 0.0f) output_mask.host()[tensor_index(output_mask, s, k, r, c)] = diag_value;
-                                binary_mask.host()[tensor_index(binary_mask, s, k, r, c)] = 0;
+                                const long idx = tensor_index(t, s, k, r, c);
+                                binary_mask.host()[idx] = 0;
+                                if (use_output_mask)
+                                    output_mask.host()[idx] = diag_value;
+                            }
+
+                            // Mask padding rows
+                            if (r < pad_len)
+                            {
+                                for (long c = 0; c < t.nc(); ++c)
+                                {
+                                    const long idx = tensor_index(t, s, k, r, c);
+                                    binary_mask.host()[idx] = 0;
+                                    if (use_output_mask)
+                                        output_mask.host()[idx] = diag_value;
+                                }
                             }
                         }
                     }
@@ -5699,7 +5900,9 @@ namespace dlib
         resizable_tensor params; // unused
         resizable_tensor binary_mask, output_mask;
         long diag;
+        long prefix_size;
         float diag_value;
+        std::vector<long> cached_padding_lengths_;
     };
 
     template <typename SUBNET>
@@ -5742,8 +5945,7 @@ namespace dlib
             num_channels_(item.num_channels_),
             feature_dim_(item.feature_dim_),
             ponder_cost_(item.ponder_cost_),
-            avg_steps_(item.avg_steps_),
-            params(item.params),
+            avg_steps_(item.avg_steps_),            
             halting_probs_(item.halting_probs_),
             cumulative_halting_(item.cumulative_halting_),
             remainders_(item.remainders_),
@@ -5751,7 +5953,8 @@ namespace dlib
             logits_(item.logits_),
             grad_logits_(item.grad_logits_),
             input_cache_(item.input_cache_),
-            true_effective_weights_(item.true_effective_weights_)
+            true_effective_weights_(item.true_effective_weights_),
+            params(item.params)
         {
         }
 
@@ -5770,8 +5973,7 @@ namespace dlib
             num_channels_ = item.num_channels_;
             feature_dim_ = item.feature_dim_;
             ponder_cost_ = item.ponder_cost_;
-            avg_steps_ = item.avg_steps_;
-            params = item.params;
+            avg_steps_ = item.avg_steps_;            
             halting_probs_ = item.halting_probs_;
             cumulative_halting_ = item.cumulative_halting_;
             remainders_ = item.remainders_;
@@ -5780,6 +5982,7 @@ namespace dlib
             grad_logits_ = item.grad_logits_;
             input_cache_ = item.input_cache_;
             true_effective_weights_ = item.true_effective_weights_;
+            params = item.params;
 
             return *this;
         }
@@ -6077,9 +6280,6 @@ namespace dlib
         long num_channels_;
         long feature_dim_;
 
-        // Learnable parameters
-        resizable_tensor params;
-
         // Working memory
         resizable_tensor halting_probs_;        // p_t^n: Halting probabilities
         resizable_tensor cumulative_halting_;   // h_t^n: Cumulative halting probabilities
@@ -6093,6 +6293,9 @@ namespace dlib
         // Statistics for monitoring
         float ponder_cost_;      // R(x): Current ponder cost
         float avg_steps_;        // Average number of computation steps
+
+        // Learnable parameters
+        resizable_tensor params;
     };
 
     template <long max_steps, typename SUBNET>
@@ -6107,6 +6310,808 @@ namespace dlib
     template <typename SUBNET>
     using act16 = add_layer<adaptive_computation_time_<16>, SUBNET>;    // Deep version
 
+// ----------------------------------------------------------------------------------------
+
+    // YaRN configuration structure
+    struct yarn_config
+    {
+        // Alpha controls overall intensity of scaling (typical ~1.0)
+        float alpha = 1.0f;
+
+        // Beta controls curvature of scaling across head dimensions (typical 0.25..0.5)
+        float beta = 0.5f;
+
+        // original_len is the context length used at training time
+        // If 0, it will be set to the first seq_len observed (common pattern)
+        long original_len = 0;
+
+        // Enable/disable YaRN; if false, behavior is identical to classical RoPE
+        bool enabled = true;
+    };
+
+    class rotary_positional_embedding_
+    {
+    public:
+        explicit rotary_positional_embedding_() :
+            seq_len(0),
+            d_head(0),
+			theta_base(10000.0f)
+        {
+		}
+
+        rotary_positional_embedding_(const rotary_positional_embedding_& other) :
+            seq_len(other.seq_len),
+            d_head(other.d_head),
+            theta_base(other.theta_base),
+            cos_cache(other.cos_cache),
+            sin_cache(other.sin_cache),
+            yarn(other.yarn)
+        {
+        }
+
+        rotary_positional_embedding_& operator=(const rotary_positional_embedding_& other)
+        {
+            if (this != &other) {
+                seq_len = other.seq_len;
+                d_head = other.d_head;
+                theta_base = other.theta_base;
+                cos_cache = other.cos_cache;
+                sin_cache = other.sin_cache;
+                yarn = other.yarn;
+            }
+            return *this;
+        }
+
+        // Set base used to compute inverse frequencies (theta base > 0)
+        void set_theta_base(float base)
+        {
+            DLIB_CASSERT(base > 0, "Theta base must be positive");
+            theta_base = base;
+        }
+
+        float get_theta_base() const { return theta_base; }
+        long get_seq_len() const { return seq_len; }
+        long get_d_head() const { return d_head; }
+
+        // Configure YaRN hyperparameters
+        void set_yarn_params(float alpha, float beta, long original_len = 0, bool enabled = true)
+        {
+            DLIB_CASSERT(alpha >= 0, "alpha must be non-negative");
+            DLIB_CASSERT(beta >= 0, "beta must be non-negative");
+            yarn.alpha = alpha;
+            yarn.beta = beta;
+            yarn.original_len = original_len;
+            yarn.enabled = enabled;
+        }
+        const yarn_config& get_yarn_config() const { return yarn; }
+
+        template <typename SUBNET>
+        void setup(const SUBNET& sub)
+        {
+            const tensor& input = sub.get_output();
+
+            // Expected input shape: (batch, num_heads, seq_len, d_head)
+            seq_len = input.nr();
+            d_head = input.nc();
+
+            DLIB_CASSERT(d_head >= 2, "d_head must be at least 2 for rotation");
+            DLIB_CASSERT(seq_len > 0, "seq_len must be positive");
+
+            // If original_len not set, treat the setup seq_len as the model's training length
+            if (yarn.original_len == 0) yarn.original_len = seq_len;
+
+            // Precompute rotation angles and trigonometric values
+            compute_and_cache_trig_values(seq_len);
+        }
+
+        template <typename SUBNET>
+        void forward(const SUBNET& sub, resizable_tensor& output)
+        {
+            const tensor& input = sub.get_output();
+
+            // Validate shape; we expect shape (batch, num_heads, seq_len, d_head)
+            const long in_seq_len = input.nr();
+            const long in_d_head = input.nc();
+
+            DLIB_CASSERT(in_d_head >= 2, "d_head must be at least 2 for rotation");
+            DLIB_CASSERT(in_seq_len > 0, "seq_len must be positive");
+
+            // If setup() was not called or the incoming sequence length changed from
+            // the cached seq_len (e.g. inference with a different context window),
+            // recompute trig caches for the current seq_len.
+            if (seq_len != in_seq_len || d_head != in_d_head
+                || cos_cache.size() == 0 || sin_cache.size() == 0)
+            {
+                // If we don't have a recorded original_len yet, set it here (first observed seq_len)
+                if (yarn.original_len == 0) yarn.original_len = in_seq_len;
+
+                // Update internal dimensions and recompute caches targeted to in_seq_len
+                seq_len = in_seq_len;
+                d_head = in_d_head;
+                compute_and_cache_trig_values(seq_len);
+            }
+
+            output.copy_size(input);
+
+            // Copy input to output
+            tt::copy_tensor(false, output, 0, input, 0, input.k());
+
+            // Apply rotary embedding in-place
+            tt::apply_rotary_positional_embedding(
+                false,  // forward pass
+                output,
+                cos_cache,
+                sin_cache
+            );
+        }
+
+        template <typename SUBNET>
+        void backward(const tensor& gradient_input, SUBNET& sub, tensor& /*params_grad*/)
+        {
+            tensor& prev_grad = sub.get_gradient_input();
+
+            // Apply inverse rotation to gradients
+            resizable_tensor grad_output;
+            grad_output.copy_size(gradient_input);
+            tt::copy_tensor(false, grad_output, 0, gradient_input, 0, gradient_input.k());
+
+            tt::apply_rotary_positional_embedding(
+                true,   // backward pass (inverse rotation)
+                grad_output,
+                cos_cache,
+                sin_cache
+            );
+
+            // Accumulate gradients
+            tt::copy_tensor(true, prev_grad, 0, grad_output, 0, grad_output.k());
+        }
+
+        const tensor& get_layer_params() const { return params; }
+        tensor& get_layer_params() { return params; }
+
+        friend void serialize(const rotary_positional_embedding_& item, std::ostream& out)
+        {
+            serialize("rope_", out);
+            serialize(item.theta_base, out);
+            serialize(item.cos_cache, out);
+            serialize(item.sin_cache, out);
+
+            // yarn config
+            serialize(item.yarn.alpha, out);
+            serialize(item.yarn.beta, out);
+            serialize(item.yarn.original_len, out);
+            serialize(item.yarn.enabled, out);
+        }
+
+        friend void deserialize(rotary_positional_embedding_& item, std::istream& in)
+        {
+            std::string version;
+            deserialize(version, in);
+            if (version != "rope_")
+                throw serialization_error("Unexpected version '" + version +
+                    "' while deserializing rope_");
+
+            deserialize(item.theta_base, in);
+            deserialize(item.cos_cache, in);
+            deserialize(item.sin_cache, in);
+
+            // yarn config
+            deserialize(item.yarn.alpha, in);
+            deserialize(item.yarn.beta, in);
+            deserialize(item.yarn.original_len, in);
+            deserialize(item.yarn.enabled, in);
+        }
+
+        friend std::ostream& operator<<(std::ostream& out, const rotary_positional_embedding_& item)
+        {
+            out << "rope (theta_base=" << item.theta_base
+                << ", yarn.alpha=" << item.yarn.alpha
+                << ", yarn.beta=" << item.yarn.beta
+                << ", yarn.original_len=" << item.yarn.original_len
+                << ", yarn.enabled=" << (item.yarn.enabled ? "true" : "false")
+                << ")";
+            return out;
+        }
+
+        friend void to_xml(const rotary_positional_embedding_& item, std::ostream& out)
+        {
+            out << "<rope"
+                << " theta_base='" << item.theta_base << "'"
+                << " yarn_alpha='" << item.yarn.alpha << "'"
+                << " yarn_beta='" << item.yarn.beta << "'"
+                << " yarn_original_len='" << item.yarn.original_len << "'"
+                << " yarn_enabled='" << (item.yarn.enabled ? "true" : "false") << "'"
+                << "/>\n";
+        }
+
+        inline dpoint map_input_to_output(const dpoint& p) const { return p; }
+        inline dpoint map_output_to_input(const dpoint& p) const { return p; }
+
+    private:
+        // Compute and cache cosine/sine tables for target_seq_len
+        // This function uses YaRN scaling when yarn.enabled is true
+        void compute_and_cache_trig_values(long target_seq_len)
+        {
+            if (seq_len == 0 || d_head == 0) return;
+
+            // Half the head dimension (we rotate pairs)
+            const long half_dim = d_head / 2;
+
+            // Allocate cache tensors: shape (1, 1, seq_len, half_dim)
+            cos_cache.set_size(1, 1, seq_len, half_dim);
+            sin_cache.set_size(1, 1, seq_len, half_dim);
+
+            // Compute on host side
+            float* cos_ptr = cos_cache.host();
+            float* sin_ptr = sin_cache.host();
+
+            // Precompute inv_freq constant per dimension (independent of position)
+            // inv_freq_i = theta_base^(-2i/d_head)
+            std::vector<float> inv_freq(half_dim);
+            for (long i = 0; i < half_dim; ++i)
+                inv_freq[i] = std::pow(theta_base, -2.0f * i / static_cast<float>(d_head));
+
+            // Determine the training length to use for YaRN scaling
+            const long train_len = (yarn.original_len > 0) ? yarn.original_len : target_seq_len;
+
+            // Compute cos/sin for each position and frequency index, using YaRN if enabled
+            for (long pos = 0; pos < target_seq_len; ++pos)
+            {
+                for (long i = 0; i < half_dim; ++i)
+                {
+                    // Base angle: pos * inv_freq[i]
+                    float pos_scaled = static_cast<float>(pos);
+
+                    if (yarn.enabled)
+                    {
+                        // Compute dimension-normalized index in [0,1]
+                        const float dim_norm = static_cast<float>(i) / static_cast<float>(half_dim);
+
+                        // exponent = alpha * dim_norm^beta
+                        // Note: we use half_dim for normalization so higher-frequency dims get smaller exponent
+                        const float exponent = yarn.alpha * std::pow(dim_norm, yarn.beta);
+
+                        // scale = (target_len / train_len)^exponent
+                        // This allows small-dim (low freq) to scale less than high-dim if desired
+                        const float ratio = static_cast<float>(target_seq_len) / static_cast<float>(train_len);
+                        const float scale = std::pow(ratio, exponent);
+
+                        // Scaled position used to compute the angle
+                        pos_scaled = static_cast<float>(pos) * scale;
+                    }
+
+                    const float angle = pos_scaled * inv_freq[i];
+
+                    const long idx = pos * half_dim + i;
+                    cos_ptr[idx] = std::cos(angle);
+                    sin_ptr[idx] = std::sin(angle);
+                }
+            }
+        }
+
+        // Configuration
+        long seq_len;
+        long d_head;
+        float theta_base;
+
+        // Precomputed trigonometric values
+        // Shape: (1, 1, seq_len, d_head/2)
+        resizable_tensor cos_cache;
+        resizable_tensor sin_cache;
+
+        // YaRN configuration
+        yarn_config yarn;
+
+        // No trainable parameters
+        resizable_tensor params;
+    };
+
+    template <typename SUBNET>
+    using rope = add_layer<rotary_positional_embedding_, SUBNET>;
+
+// ----------------------------------------------------------------------------------------
+    
+    template <
+        long patch_size_,
+        long embedding_dim_,
+        long use_class_token_,
+        long use_position_embeddings_
+    >
+    class patch_embeddings_
+    {
+        static_assert(patch_size_ > 0, "Patch size must be positive");
+        static_assert(embedding_dim_ > 0, "Embedding dimension must be positive");
+        static_assert(use_class_token_ == 0 || use_class_token_ == 1,
+            "use_class_token must be 0 or 1");
+        static_assert(use_position_embeddings_ == 0 || use_position_embeddings_ == 1,
+            "use_position_embeddings must be 0 or 1");
+
+    public:
+
+        patch_embeddings_() :
+            in_channels(0),
+            num_patches_h(0),
+            num_patches_w(0),
+            cached_input_h(0),
+            cached_input_w(0),
+            cached_input_k(0),
+            learning_rate_multiplier(1.0)
+        {
+        }
+
+        patch_embeddings_(const patch_embeddings_& other) :
+            in_channels(other.in_channels),
+            num_patches_h(other.num_patches_h),
+            num_patches_w(other.num_patches_w),
+            cached_input_h(other.cached_input_h),
+            cached_input_w(other.cached_input_w),
+            cached_input_k(other.cached_input_k),
+            learning_rate_multiplier(other.learning_rate_multiplier),
+            params(other.params),
+            filters_alias(other.filters_alias),
+            biases_alias(other.biases_alias),
+            pos_embed_alias(other.pos_embed_alias),
+            cls_token_alias(other.cls_token_alias)
+        {
+        }
+
+        patch_embeddings_& operator=(const patch_embeddings_& other)
+        {
+            if (this != &other) {
+                in_channels = other.in_channels;
+                num_patches_h = other.num_patches_h;
+                num_patches_w = other.num_patches_w;
+                cached_input_h = other.cached_input_h;
+                cached_input_w = other.cached_input_w;
+                cached_input_k = other.cached_input_k;
+                learning_rate_multiplier = other.learning_rate_multiplier;
+                params = other.params;
+                filters_alias = other.filters_alias;
+                biases_alias = other.biases_alias;
+                pos_embed_alias = other.pos_embed_alias;
+                cls_token_alias = other.cls_token_alias;
+                // Note: conv_op is non-copyable and stateless, will be re-setup on forward()
+            }
+            return *this;
+        }
+
+        long get_patch_size() const { return patch_size_; }
+        long get_embedding_dim() const { return embedding_dim_; }
+        long uses_class_token() const { return use_class_token_; }
+        long uses_position_embeddings() const { return use_position_embeddings_; }
+        long get_num_patches() const { return num_patches_h * num_patches_w; }
+
+        double get_learning_rate_multiplier() const { return learning_rate_multiplier; }
+        void set_learning_rate_multiplier(double val) { learning_rate_multiplier = val; }
+
+        template <typename SUBNET>
+        void setup(const SUBNET& sub)
+        {
+            const tensor& input = sub.get_output();
+            in_channels = input.k();
+
+            DLIB_CASSERT(input.nr() % patch_size_ == 0,
+                "Image height must be divisible by patch size. Got height=" << input.nr()
+                << ", patch_size=" << patch_size_);
+            DLIB_CASSERT(input.nc() % patch_size_ == 0,
+                "Image width must be divisible by patch size. Got width=" << input.nc()
+                << ", patch_size=" << patch_size_);
+
+            num_patches_h = input.nr() / patch_size_;
+            num_patches_w = input.nc() / patch_size_;
+            const long num_patches = num_patches_h * num_patches_w;
+            const long sequence_length = num_patches + use_class_token_;
+
+            // Calculate total parameter size:
+            // - projection_filters: embedding_dim * in_channels * patch_size * patch_size
+            // - projection_biases: embedding_dim
+            // - position_embeddings (optional): sequence_length * embedding_dim
+            // - class_token (optional): embedding_dim
+            const long filter_size = embedding_dim_ * in_channels * patch_size_ * patch_size_;
+            const long bias_size = embedding_dim_;
+            const long pos_embed_size = use_position_embeddings_ ? sequence_length * embedding_dim_ : 0;
+            const long cls_token_size = use_class_token_ ? embedding_dim_ : 0;
+            const long total_params = filter_size + bias_size + pos_embed_size + cls_token_size;
+
+            // Allocate all parameters in a single contiguous tensor
+            params.set_size(total_params);
+
+            // Setup alias tensors for accessing parameter regions
+            filters_alias = alias_tensor(embedding_dim_, in_channels, patch_size_, patch_size_);
+            biases_alias = alias_tensor(1, embedding_dim_, 1, 1);
+
+            if (use_position_embeddings_) {
+                pos_embed_alias = alias_tensor(1, 1, sequence_length, embedding_dim_);
+            }
+            if (use_class_token_) {
+                cls_token_alias = alias_tensor(1, 1, 1, embedding_dim_);
+            }
+
+            // Initialize parameters with Xavier/Glorot for filters
+            tt::tensor_rand rnd;
+            const float fan_in = static_cast<float>(in_channels * patch_size_ * patch_size_);
+            const float fan_out = static_cast<float>(embedding_dim_);
+            const float xavier_stddev = std::sqrt(2.0f / (fan_in + fan_out));
+
+            // Initialize filter weights
+            auto filt = filters_alias(params, 0);
+            rnd.fill_gaussian(filt, 0.0f, xavier_stddev);
+
+            // Initialize biases to zero
+            auto bias = biases_alias(params, filters_alias.size());
+            bias = 0;
+
+            // Initialize position embeddings if enabled
+            if (use_position_embeddings_) {
+                auto pos = pos_embed_alias(params, filters_alias.size() + biases_alias.size());
+                rnd.fill_gaussian(pos, 0.0f, 0.02f);
+            }
+
+            // Initialize class token if enabled
+            if (use_class_token_) {
+                long cls_offset = filters_alias.size() + biases_alias.size();
+                if (use_position_embeddings_) cls_offset += pos_embed_alias.size();
+                auto cls = cls_token_alias(params, cls_offset);
+                rnd.fill_gaussian(cls, 0.0f, 0.02f);
+            }
+
+            // Cache input dimensions and setup convolution
+            cached_input_h = input.nr();
+            cached_input_w = input.nc();
+            cached_input_k = input.k();
+            conv_op.setup(input, filt, patch_size_, patch_size_, 0, 0);
+        }
+
+        template <typename SUBNET>
+        void forward(const SUBNET& sub, resizable_tensor& output)
+        {
+            const tensor& input = sub.get_output();
+            const long batch_size = input.num_samples();
+
+            // Re-setup convolution if input spatial dimensions changed
+            if (input.nr() != cached_input_h ||
+                input.nc() != cached_input_w ||
+                input.k() != cached_input_k ||
+                params.size() == 0)
+            {
+                DLIB_CASSERT(input.nr() % patch_size_ == 0,
+                    "Image height must be divisible by patch size. Got height=" << input.nr()
+                    << ", patch_size=" << patch_size_);
+                DLIB_CASSERT(input.nc() % patch_size_ == 0,
+                    "Image width must be divisible by patch size. Got width=" << input.nc()
+                    << ", patch_size=" << patch_size_);
+
+                cached_input_h = input.nr();
+                cached_input_w = input.nc();
+                cached_input_k = input.k();
+                num_patches_h = input.nr() / patch_size_;
+                num_patches_w = input.nc() / patch_size_;
+            }
+
+            const long num_patches = num_patches_h * num_patches_w;
+            const long sequence_length = num_patches + use_class_token_;
+
+            // Get parameter aliases
+            auto filt = filters_alias(params, 0);
+            auto bias = biases_alias(params, filters_alias.size());
+            conv_op.setup(input, filt, patch_size_, patch_size_, 0, 0);
+
+            // Step 1: apply convolution (patch extraction + projection)
+            conv_output.set_size(batch_size, embedding_dim_, num_patches_h, num_patches_w);
+            conv_op(false, conv_output, input, filt);
+
+            // Add bias using broadcasting
+            tt::add(1.0f, conv_output, 1.0f, bias);
+
+            // Step 2: reshape from (batch, embed, H/P, W/P) to (batch, 1, num_patches, embed)
+            patch_sequence.set_size(batch_size, 1, num_patches, embedding_dim_);
+            reshape_conv_to_sequence(conv_output, patch_sequence);
+
+            // Step 3: prepend class token if enabled
+            if (use_class_token_) {
+                long cls_offset = filters_alias.size() + biases_alias.size();
+                if (use_position_embeddings_) cls_offset += pos_embed_alias.size();
+                auto cls = cls_token_alias(params, cls_offset);
+
+                output.set_size(batch_size, 1, sequence_length, embedding_dim_);
+                prepend_class_token(patch_sequence, cls, output);
+            }
+            else {
+                output.copy_size(patch_sequence);
+                tt::copy_tensor(false, output, 0, patch_sequence, 0, patch_sequence.k());
+            }
+
+            // Step 4: add position embeddings if enabled
+            if (use_position_embeddings_) {
+                auto pos = pos_embed_alias(params, filters_alias.size() + biases_alias.size());
+                tt::add(1.0f, output, 1.0f, pos);
+            }
+        }
+
+        template <typename SUBNET>
+        void backward(const tensor& gradient_input, SUBNET& sub, tensor& params_grad)
+        {
+            const long batch_size = gradient_input.num_samples();
+            const long num_patches = num_patches_h * num_patches_w;
+
+            // Get parameter aliases from params
+            auto filt = filters_alias(params, 0);
+
+            // Get gradient aliases from params_grad
+            auto filt_grad = filters_alias(params_grad, 0);
+            auto bias_grad = biases_alias(params_grad, filters_alias.size());
+
+            // Step 1: gradient for position embeddings (if enabled)
+            if (use_position_embeddings_) {
+                auto pos_grad = pos_embed_alias(params_grad, filters_alias.size() + biases_alias.size());
+                // Zero out and accumulate across batch
+                pos_grad = 0;
+                sum_across_batch_to_alias(gradient_input, pos_grad);
+                tt::affine_transform(pos_grad, pos_grad, static_cast<float>(learning_rate_multiplier));
+            }
+
+            // Step 2: split gradient between class token and patches
+            grad_patch_sequence.set_size(batch_size, 1, num_patches, embedding_dim_);
+
+            if (use_class_token_) {
+                long cls_offset = filters_alias.size() + biases_alias.size();
+                if (use_position_embeddings_) cls_offset += pos_embed_alias.size();
+                auto cls_grad = cls_token_alias(params_grad, cls_offset);
+
+                cls_grad = 0;
+                split_class_token_gradient_to_alias(gradient_input, cls_grad, grad_patch_sequence);
+                tt::affine_transform(cls_grad, cls_grad, static_cast<float>(learning_rate_multiplier));
+            }
+            else {
+                tt::copy_tensor(false, grad_patch_sequence, 0, gradient_input, 0, gradient_input.k());
+            }
+
+            // Step 3: reshape gradient from sequence back to spatial format
+            grad_conv_output.set_size(batch_size, embedding_dim_, num_patches_h, num_patches_w);
+            reshape_sequence_to_conv(grad_patch_sequence, grad_conv_output);
+
+            // Step 4: gradient for projection bias
+            bias_grad = 0;
+            tt::assign_conv_bias_gradient(bias_grad, grad_conv_output);
+            tt::affine_transform(bias_grad, bias_grad, static_cast<float>(learning_rate_multiplier));
+
+            // Step 5: gradient for convolution filters
+            const tensor& input = sub.get_output();
+            filt_grad = 0;
+            conv_op.get_gradient_for_filters(false, grad_conv_output, input, filt_grad);
+            tt::affine_transform(filt_grad, filt_grad, static_cast<float>(learning_rate_multiplier));
+
+            // Step 6: gradient for input (accumulate)
+            tensor& grad_input = sub.get_gradient_input();
+            conv_op.get_gradient_for_data(true, grad_conv_output, filt, grad_input);
+        }
+
+        const tensor& get_layer_params() const { return params; }
+        tensor& get_layer_params() { return params; }
+
+        friend void serialize(const patch_embeddings_& item, std::ostream& out)
+        {
+            serialize("patch_embeddings_", out);
+            serialize(item.in_channels, out);
+            serialize(item.num_patches_h, out);
+            serialize(item.num_patches_w, out);
+            serialize(item.cached_input_h, out);
+            serialize(item.cached_input_w, out);
+            serialize(item.cached_input_k, out);
+            serialize(item.learning_rate_multiplier, out);
+            serialize(item.params, out);
+            serialize(item.filters_alias, out);
+            serialize(item.biases_alias, out);
+            if (use_position_embeddings_)
+                serialize(item.pos_embed_alias, out);
+            if (use_class_token_)
+                serialize(item.cls_token_alias, out);
+        }
+
+        friend void deserialize(patch_embeddings_& item, std::istream& in)
+        {
+            std::string version;
+            deserialize(version, in);
+            if (version != "patch_embeddings_")
+                throw serialization_error("Unexpected version '" + version +
+                    "' found while deserializing patch_embeddings_.");
+
+            deserialize(item.in_channels, in);
+            deserialize(item.num_patches_h, in);
+            deserialize(item.num_patches_w, in);
+            deserialize(item.cached_input_h, in);
+            deserialize(item.cached_input_w, in);
+            deserialize(item.cached_input_k, in);
+            deserialize(item.learning_rate_multiplier, in);
+            deserialize(item.params, in);
+            deserialize(item.filters_alias, in);
+            deserialize(item.biases_alias, in);
+            if (use_position_embeddings_)
+                deserialize(item.pos_embed_alias, in);
+            if (use_class_token_)
+                deserialize(item.cls_token_alias, in);            
+        }
+
+        friend std::ostream& operator<<(std::ostream& out, const patch_embeddings_& item)
+        {
+            out << "patch_embeddings (patch_size=" << patch_size_
+                << ", embedding_dim=" << embedding_dim_
+                << ", num_patches=" << item.get_num_patches()
+                << ", use_class_token=" << use_class_token_
+                << ", use_position_embeddings=" << use_position_embeddings_
+                << ") learning_rate_mult=" << item.learning_rate_multiplier;
+            return out;
+        }
+
+        friend void to_xml(const patch_embeddings_& item, std::ostream& out)
+        {
+            out << "<patch_embeddings"
+                << " patch_size='" << patch_size_ << "'"
+                << " embedding_dim='" << embedding_dim_ << "'"
+                << " num_patches='" << item.get_num_patches() << "'"
+                << " use_class_token='" << use_class_token_ << "'"
+                << " use_position_embeddings='" << use_position_embeddings_ << "'"
+                << " learning_rate_mult='" << item.learning_rate_multiplier << "'"
+                << "/>\n";
+        }
+
+    private:
+
+        // Reshape conv output (batch, embed, H/P, W/P) to sequence (batch, 1, num_patches, embed)
+        void reshape_conv_to_sequence(const tensor& src, tensor& dest)
+        {
+            const long batch_size = src.num_samples();
+            const long embed_dim = src.k();
+            const long h = src.nr();
+            const long w = src.nc();
+            const long num_patches = h * w;
+
+            const float* src_ptr = src.host();
+            float* dest_ptr = dest.host_write_only();
+
+            // src[n, d, i, j] -> dest[n, 0, i*w + j, d]
+            for (long n = 0; n < batch_size; ++n) {
+                for (long i = 0; i < h; ++i) {
+                    for (long j = 0; j < w; ++j) {
+                        const long patch_idx = i * w + j;
+                        for (long d = 0; d < embed_dim; ++d) {
+                            const long src_idx = ((n * embed_dim + d) * h + i) * w + j;
+                            const long dest_idx = (n * num_patches + patch_idx) * embed_dim + d;
+                            dest_ptr[dest_idx] = src_ptr[src_idx];
+                        }
+                    }
+                }
+            }
+        }
+
+        // Reshape sequence (batch, 1, num_patches, embed) to conv format (batch, embed, H/P, W/P)
+        void reshape_sequence_to_conv(const tensor& src, tensor& dest)
+        {
+            const long batch_size = src.num_samples();
+            const long num_patches = src.nr();
+            const long embed_dim = src.nc();
+            const long h = dest.nr();
+            const long w = dest.nc();
+
+            const float* src_ptr = src.host();
+            float* dest_ptr = dest.host_write_only();
+
+            // src[n, 0, i*w + j, d] -> dest[n, d, i, j]
+            for (long n = 0; n < batch_size; ++n) {
+                for (long i = 0; i < h; ++i) {
+                    for (long j = 0; j < w; ++j) {
+                        const long patch_idx = i * w + j;
+                        for (long d = 0; d < embed_dim; ++d) {
+                            const long src_idx = (n * num_patches + patch_idx) * embed_dim + d;
+                            const long dest_idx = ((n * embed_dim + d) * h + i) * w + j;
+                            dest_ptr[dest_idx] = src_ptr[src_idx];
+                        }
+                    }
+                }
+            }
+        }
+
+        // Prepend class token to patch sequence
+        void prepend_class_token(const tensor& patches, const tensor& cls_token, tensor& output)
+        {
+            const long batch_size = patches.num_samples();
+            const long num_patches = patches.nr();
+            const long embed_dim = patches.nc();
+            const long seq_len = num_patches + 1;
+
+            const float* patches_ptr = patches.host();
+            const float* cls_ptr = cls_token.host();
+            float* out_ptr = output.host_write_only();
+
+            for (long n = 0; n < batch_size; ++n) {
+                // Copy class token to position 0
+                for (long d = 0; d < embed_dim; ++d) {
+                    out_ptr[n * seq_len * embed_dim + d] = cls_ptr[d];
+                }
+                // Copy patch embeddings to positions 1..seq_len-1
+                for (long s = 0; s < num_patches; ++s) {
+                    for (long d = 0; d < embed_dim; ++d) {
+                        out_ptr[(n * seq_len + s + 1) * embed_dim + d] =
+                            patches_ptr[(n * num_patches + s) * embed_dim + d];
+                    }
+                }
+            }
+        }
+
+        // Split gradient between class token and patches (writes to alias)
+        void split_class_token_gradient_to_alias(const tensor& grad_in, tensor& grad_cls, tensor& grad_patches)
+        {
+            const long batch_size = grad_in.num_samples();
+            const long seq_len = grad_in.nr();
+            const long embed_dim = grad_in.nc();
+            const long num_patches = seq_len - 1;
+
+            const float* grad_in_ptr = grad_in.host();
+            float* grad_cls_ptr = grad_cls.host();
+            float* grad_patches_ptr = grad_patches.host_write_only();
+
+            for (long n = 0; n < batch_size; ++n) {
+                // Accumulate gradient for class token across batch
+                for (long d = 0; d < embed_dim; ++d) {
+                    grad_cls_ptr[d] += grad_in_ptr[n * seq_len * embed_dim + d];
+                }
+                // Copy gradient for patches
+                for (long s = 0; s < num_patches; ++s) {
+                    for (long d = 0; d < embed_dim; ++d) {
+                        grad_patches_ptr[(n * num_patches + s) * embed_dim + d] =
+                            grad_in_ptr[(n * seq_len + s + 1) * embed_dim + d];
+                    }
+                }
+            }
+        }
+
+        // Sum tensor across batch dimension (writes to alias)
+        void sum_across_batch_to_alias(const tensor& src, tensor& dest)
+        {
+            const long batch_size = src.num_samples();
+            const long seq_len = src.nr();
+            const long embed_dim = src.nc();
+
+            const float* src_ptr = src.host();
+            float* dest_ptr = dest.host();
+
+            for (long n = 0; n < batch_size; ++n) {
+                for (long s = 0; s < seq_len; ++s) {
+                    for (long d = 0; d < embed_dim; ++d) {
+                        dest_ptr[s * embed_dim + d] += src_ptr[(n * seq_len + s) * embed_dim + d];
+                    }
+                }
+            }
+        }
+
+        // Configuration
+        long in_channels;
+        long num_patches_h, num_patches_w;
+        long cached_input_h, cached_input_w, cached_input_k;
+        double learning_rate_multiplier;
+
+        // All learnable parameters stored in a single tensor
+        resizable_tensor params;
+
+        // Alias tensors for accessing parameter regions
+        alias_tensor filters_alias;     // (embedding_dim, in_channels, patch_size, patch_size)
+        alias_tensor biases_alias;      // (1, embedding_dim, 1, 1)
+        alias_tensor pos_embed_alias;   // (1, 1, sequence_length, embedding_dim) if enabled
+        alias_tensor cls_token_alias;   // (1, 1, 1, embedding_dim) if enabled
+
+        // Intermediate tensors for forward/backward
+        resizable_tensor conv_output;
+        resizable_tensor patch_sequence;
+        resizable_tensor grad_conv_output;
+        resizable_tensor grad_patch_sequence;
+
+        // Convolution operation
+        tt::tensor_conv conv_op;
+    };
+
+    template <long patch_size, long embedding_dim, long use_cls, long use_pos, typename SUBNET>
+    using patch_embeddings = add_layer<patch_embeddings_<patch_size, embedding_dim, use_cls, use_pos>, SUBNET>;
+
 // ----------------------------------------------------------------------------------------
 
 }
diff --git a/dlib/dnn/layers_abstract.h b/dlib/dnn/layers_abstract.h
index cbfe81ad66..3222052ae3 100644
--- a/dlib/dnn/layers_abstract.h
+++ b/dlib/dnn/layers_abstract.h
@@ -4543,6 +4543,81 @@ namespace dlib
         >
     using embeddings = add_layer<embeddings_<num_embeddings, embedding_dim>, SUBNET>;
 
+// ----------------------------------------------------------------------------------------
+
+    class tril_padding_context
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This class provides a shared context for communicating padding information
+                to tril_ layers during forward passes. It solves the problem of nested
+                architectures where tril_ layers cannot directly access the input sequence.
+                The context stores per-sample padding lengths that are computed once
+                before each forward pass and consulted by all tril_ layers.
+
+            THREAD SAFETY
+                All methods are thread-safe through internal mutex protection.
+
+            TYPICAL USAGE
+                // Before forward pass:
+                tril_padding_context::set(input_tensor, padding_token);
+                // Or from pre-computed lengths:
+                tril_padding_context::set_from_lengths(padding_lengths);
+        !*/
+    public:
+        static void set(const tensor& input_tokens, long padding_token);
+        /*!
+            ensures
+                - Computes and stores padding lengths by scanning input_tokens
+                - For each sample, counts leading tokens equal to padding_token
+                - #is_set() == true (if padding_token >= 0)
+                - If padding_token < 0, clears the context instead
+        !*/
+
+        static void set_from_lengths(const std::vector<long>& lengths);
+        /*!
+            ensures
+                - Stores the provided padding lengths directly
+                - #is_set() == true
+                - #get_padding_length(i) == lengths[i] for all valid i
+        !*/
+
+        static void set_uniform(long padding_length, long batch_size);
+        /*!
+            ensures
+                - Sets uniform padding length for all samples
+                - #is_set() == true
+                - #get_padding_length(i) == padding_length for i in [0, batch_size)
+        !*/
+
+        static void clear();
+        /*!
+            ensures
+                - #is_set() == false
+                - Releases stored padding lengths
+        !*/
+
+        static long get_padding_length(long sample_idx);
+        /*!
+            ensures
+                - If is_set() and sample_idx is valid: returns padding length for that sample
+                - Otherwise: returns 0
+        !*/
+
+        static std::vector<long> get_all_lengths();
+        /*!
+            ensures
+                - Returns a copy of all stored padding lengths
+                - Returns empty vector if !is_set()
+        !*/
+
+        static bool is_set();
+        /*!
+            ensures
+                - Returns true if padding context has been initialized
+        !*/
+    };
+
 // ----------------------------------------------------------------------------------------
 
     struct neg_infinity_tag {};
@@ -4665,6 +4740,25 @@ namespace dlib
                 - Returns the parameters of this layer.
         !*/
 
+        void set_prefix_size(long n_prefix_size);
+        /*!
+            ensures
+                - #get_prefix_size() == n_prefix_size
+                - Invalidates cached mask if value changed
+        !*/
+        long get_prefix_size() const;
+
+        void set_padding_token(long token_id);
+        /*!
+            ensures
+                - #get_padding_token() == token_id
+                - If token_id >= 0: enables automatic padding context usage
+                - If token_id < 0: disables padding masking
+        !*/
+        long get_padding_token() const;
+
+        bool uses_padding_context() const;
+
         friend void serialize(const tril_& item, std::ostream& out);
         /*!
             ensures
@@ -4818,6 +4912,343 @@ namespace dlib
     template <typename SUBNET>
     using act16 = add_layer<adaptive_computation_time_<16>, SUBNET>;
 
+// ----------------------------------------------------------------------------------------
+
+    class rotary_positional_embedding_
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This object implements a rotary positional embedding (RoPE) layer for neural
+                networks, as described in "RoFormer: Enhanced Transformer with Rotary Position
+                Embedding" by Su et al.
+
+                Rotary positional embeddings encode positional information by rotating pairs
+                of feature dimensions according to their position in the sequence. This method
+                provides better relative position encoding compared to traditional learned
+                positional embeddings, particularly for sequence-to-sequence tasks.
+
+                The transformation is applied as a rotation matrix in 2D subspaces:
+                    For each pair of dimensions (i, i+1) at position pos:
+                        [x'_i  ]   [cos(θ)  -sin(θ)] [x_i  ]
+                        [x'_i+1] = [sin(θ)   cos(θ)] [x_i+1]
+
+                    where θ(pos, i) = pos * base^(-2i/d_head) and base is typically 10000.
+
+                DYNAMIC SEQUENCE LENGTH SUPPORT:
+                    This layer automatically adapts to different sequence lengths during
+                    inference. When a sequence of different length is processed, the rotation
+                    angles are recomputed on-the-fly. This allows models trained on shorter
+                    sequences to handle longer contexts at inference time.
+
+                YARN EXTENSION (OPTIONAL):
+                    Optionally supports YaRN (Yet another RoPE extensioN) scaling for
+                    improved extrapolation to longer sequences than seen during training.
+                    YaRN applies frequency-dependent scaling that preserves low-frequency
+                    information while adapting high-frequency components. Enable via
+                    set_yarn_params().
+
+                This layer has no trainable parameters. All rotation angles are precomputed
+                during setup based on the sequence length and head dimension.
+        !*/
+
+    public:
+
+        rotary_positional_embedding_(
+        );
+        /*!
+            ensures
+                - #get_theta_base() == 10000.0
+                - #get_seq_len() == 0
+                - #get_d_head() == 0
+        !*/
+
+        rotary_positional_embedding_(
+            const rotary_positional_embedding_& item
+        );
+        /*!
+            ensures
+                - Creates a copy of item
+                - #get_theta_base() == item.get_theta_base()
+                - #get_seq_len() == item.get_seq_len()
+                - #get_d_head() == item.get_d_head()
+                - All precomputed trigonometric caches are copied
+        !*/
+
+        rotary_positional_embedding_& operator=(
+            const rotary_positional_embedding_& item
+            );
+        /*!
+            ensures
+                - Assigns item to *this
+                - returns #*this
+        !*/
+
+        void set_theta_base(
+            float base
+        );
+        /*!
+            requires
+                - base > 0
+            ensures
+                - #get_theta_base() == base
+                - Sets the base frequency for computing rotation angles
+                - Higher values result in slower rotation with increasing position
+                - Common values: 10000 (default), 500000 (for longer sequences)
+                - This should be called before setup() to take effect
+        !*/
+
+        float get_theta_base(
+        ) const;
+        /*!
+            ensures
+                - Returns the base frequency used for rotation angle computation
+        !*/
+
+        long get_seq_len(
+        ) const;
+        /*!
+            ensures
+                - Returns the most recent sequence length processed by this layer
+                - Returns 0 if forward() has not been called yet
+                - Note: this value may change between forward() calls if sequences
+                  of different lengths are processed
+        !*/
+
+        long get_d_head(
+        ) const;
+        /*!
+            ensures
+                - Returns the head dimension that this layer was configured for
+                - Returns 0 if forward() has not been called yet
+                - This value remains constant once set (determined by network architecture)
+        !*/
+
+        void set_yarn_params(
+            float alpha,
+            float beta,
+            long original_len = 0,
+            bool enabled = true
+        );
+        /*!
+            requires
+                - alpha >= 0
+                - beta >= 0
+            ensures
+                - Configures YaRN (Yet another RoPE extensioN) scaling parameters
+                - alpha controls the overall intensity of scaling (typical: 1.0)
+                - beta controls the curvature of scaling across frequency dimensions (typical: 0.25 to 0.5)
+                - original_len is the sequence length used during training
+                  If 0, it will be set to the first sequence length observed in forward()
+                - enabled determines whether YaRN scaling is active
+                - YaRN allows better extrapolation to sequence lengths longer than training
+                - Should be called before forward() to take effect
+        !*/
+
+        const yarn_config& get_yarn_config(
+        ) const;
+        /*!
+            ensures
+                - Returns the current YaRN configuration
+        !*/
+
+        template <typename SUBNET>
+        void setup(
+            const SUBNET& sub
+        );
+        /*!
+            requires
+                - sub.get_output().nr() > 0
+                - sub.get_output().nc() >= 2
+            ensures
+                - Initializes this layer based on the input dimensions
+                - #get_seq_len() == sub.get_output().nr()
+                - #get_d_head() == sub.get_output().nc()
+                - Precomputes and caches all cosine and sine values for the rotation
+                  angles based on the sequence length and head dimension
+                - The cos_cache and sin_cache tensors are allocated with shape:
+                  (1, 1, seq_len, d_head/2)
+                - If d_head is odd, only (d_head-1) dimensions will be rotated
+                - If YaRN is enabled and original_len is 0, the observed sequence
+                  length is recorded as the training length for YaRN scaling
+        !*/
+
+        template <typename SUBNET>
+        void forward(
+            const SUBNET& sub,
+            resizable_tensor& output
+        );
+        /*!
+            requires
+                - sub.get_output().nc() >= 2
+                - sub.get_output().nr() > 0
+            ensures
+                - Applies rotary positional embeddings to the input
+                - #output has the same dimensions as sub.get_output()
+                - If the input sequence length differs from get_seq_len(), or if
+                  this is the first forward pass after deserialization, the rotation
+                  angles are automatically recomputed for the current sequence length.
+                - For each position pos and dimension pair (i, i+1):
+                    output[pos,i]   = input[pos,i] * cos(θ_pos,i/2) - input[pos,i+1] * sin(θ_pos,i/2)
+                    output[pos,i+1] = input[pos,i] * sin(θ_pos,i/2) + input[pos,i+1] * cos(θ_pos,i/2)
+                - The rotation preserves the magnitude of feature vectors while encoding
+                  relative positional information
+                - If d_head is odd, the last dimension is copied without rotation
+                - Expected input shape: (batch_size, num_heads, seq_len, d_head)
+                - YaRN scaling is applied if enabled via set_yarn_params()
+        !*/
+
+        template <typename SUBNET>
+        void backward(
+            const tensor& gradient_input,
+            SUBNET& sub,
+            tensor& params_grad
+        );
+        /*!
+            requires
+                - setup() has been called
+                - gradient_input has the same dimensions as the output from forward()
+            ensures
+                - Computes gradients with respect to the input
+                - Applies the inverse rotation to gradient_input
+                - The inverse rotation is:
+                    grad_input[pos,i]   = grad_out[pos,i] * cos(θ) + grad_out[pos,i+1] * sin(θ)
+                    grad_input[pos,i+1] = -grad_out[pos,i] * sin(θ) + grad_out[pos,i+1] * cos(θ)
+                - Accumulated gradients are added to sub.get_gradient_input()
+                - params_grad is not used (this layer has no trainable parameters)
+        !*/
+
+        const tensor& get_layer_params() const;
+        tensor& get_layer_params();
+        inline dpoint map_input_to_output(const dpoint& p) const;
+        inline dpoint map_output_to_input(const dpoint& p) const;
+
+        friend void serialize(const rotary_positional_embedding_& item, std::ostream& out);
+        friend void deserialize(rotary_positional_embedding_& item, std::istream& in);
+        friend std::ostream& operator<<(std::ostream& out, const rotary_positional_embedding_& item);
+        friend void to_xml(const rotary_positional_embedding_& item, std::ostream& out);
+        /*!
+            provides serialization support and output operators
+        !*/
+
+    };
+
+    template <typename SUBNET>
+    using rope = add_layer<rotary_positional_embedding_, SUBNET>;
+
+// ----------------------------------------------------------------------------------------
+
+    template <
+        long patch_size,
+        long embedding_dim,
+        long use_class_token,
+        long use_position_embeddings
+    >
+    class patch_embeddings_
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This layer implements patch embeddings for Vision Transformers (ViT), as described
+                in "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale"
+                (Dosovitskiy et al., 2021).
+
+                The layer performs the following operations:
+                1. Convolves the input image with filters of size (patch_size x patch_size)
+                   and stride (patch_size) to create a set of projected patches
+                2. Reshapes the resulting spatial feature maps into a sequence of vectors
+                3. If use_class_token == 1, prepends a learnable 'class token' to the sequence
+                4. If use_position_embeddings == 1, adds learnable position embeddings to
+                   the entire sequence
+
+                The input to this layer is a 4D tensor of shape:
+                    (batch_size, in_channels, height, width)
+
+                The output is a 4D tensor representing a sequence:
+                    (batch_size, 1, sequence_length, embedding_dim)
+                where sequence_length is (height/patch_size * width/patch_size) + use_class_token
+
+            TEMPLATE PARAMETERS
+                - patch_size: the side length of the square patches (e.g., 16)
+                - embedding_dim: the dimensionality of the resulting embeddings (e.g., 768)
+                - use_class_token: set to 1 to prepend a learnable CLS token, 0 otherwise
+                - use_position_embeddings: set to 1 to add learnable absolute position
+                  embeddings to the sequence, 0 otherwise
+        !*/
+
+    public:
+
+        patch_embeddings_(
+        );
+        /*!
+            ensures
+                - #get_patch_size() == patch_size
+                - #get_embedding_dim() == embedding_dim
+                - #uses_class_token() == use_class_token
+                - #uses_position_embeddings() == use_position_embeddings
+                - #get_learning_rate_multiplier() == 1
+        !*/
+
+        long get_patch_size() const;
+        long get_embedding_dim() const;
+        long uses_class_token() const;
+        long uses_position_embeddings() const;
+
+        double get_learning_rate_multiplier() const;
+        void set_learning_rate_multiplier(double val);
+        /*!
+            ensures
+                - #get_learning_rate_multiplier() == val
+        !*/
+
+        template <typename SUBNET>
+        void setup(
+            const SUBNET& sub
+        );
+        /*!
+            requires
+                - sub.get_output().nr() % patch_size == 0
+                - sub.get_output().nc() % patch_size == 0
+            ensures
+                - Initialized the learned parameters:
+                    - projection filters: (embedding_dim, in_channels, patch_size, patch_size)
+                    - projection biases: (embedding_dim)
+                    - (optional) class token and position embeddings.
+                - Parameters are initialized using Xavier/Glorot initialization for filters
+                  and zero/truncated normal for other components.
+        !*/
+
+        template <typename SUBNET>
+        void forward(
+            const SUBNET& sub,
+            resizable_tensor& output
+        );
+        /*!
+            requires
+                - setup(sub) has been called.
+            ensures
+                - #output.num_samples() == sub.get_output().num_samples()
+                - #output.k() == 1
+                - #output.nr() == (sub.get_output().nr()/patch_size * sub.get_output().nc()/patch_size) + use_class_token
+                - #output.nc() == embedding_dim
+        !*/
+
+        template <typename SUBNET>
+        void backward(
+            const tensor& gradient_input,
+            SUBNET& sub,
+            tensor& params_grad
+        );
+        /*!
+            requires
+                - gradient_input has the same dimensions as the output of forward()
+            ensures
+                - Computes the gradient of the loss with respect to the input of this
+                  layer and adds it to #sub.get_gradient_input()
+        !*/
+    };
+
+    template <long patch_size, long embedding_dim, long use_cls, long use_pos, typename SUBNET>
+    using patch_embeddings = add_layer<patch_embeddings_<patch_size, embedding_dim, use_cls, use_pos>, SUBNET>;
+
 // ----------------------------------------------------------------------------------------
 
 }
diff --git a/dlib/dnn/loss.h b/dlib/dnn/loss.h
index 36b37a2956..823f2c2352 100644
--- a/dlib/dnn/loss.h
+++ b/dlib/dnn/loss.h
@@ -911,6 +911,124 @@ namespace dlib
     using loss_multibinary_log = add_loss_layer<loss_multibinary_log_, SUBNET>;
 
 // ----------------------------------------------------------------------------------------
+
+    class loss_cross_entropy_per_logit_
+    {
+    public:
+        typedef unsigned long training_label_type;
+        typedef unsigned long output_label_type;
+
+        loss_cross_entropy_per_logit_() : ignore_index_(-1) {}
+
+        void set_ignore_index(long idx) { ignore_index_ = idx; }
+        long get_ignore_index() const { return ignore_index_; }
+
+        template <typename SUB_TYPE, typename label_iterator>
+        void to_label(
+            const tensor& input_tensor,
+            const SUB_TYPE& sub,
+            label_iterator iter
+        ) const
+        {
+            const tensor& output_tensor = sub.get_output();
+            DLIB_CASSERT(sub.sample_expansion_factor() == 1);
+            DLIB_CASSERT(output_tensor.k() == 1);
+            DLIB_CASSERT(input_tensor.num_samples() == output_tensor.num_samples());
+
+            const long batch_size = output_tensor.num_samples();
+            const long seq_len = output_tensor.nr();
+            const long vocab_size = output_tensor.nc();
+
+            // Note that output_tensor.nc() should match the vocabulary size
+            const float* out_data = output_tensor.host();
+
+            for (long i = 0; i < batch_size; ++i, ++iter)
+            {
+                // For each sample, find the class with the maximum logit at the last
+                // position of the sequence (position seq_len-1). This is the predicted
+                // next token for autoregressive generation
+                long max_idx = 0;
+                float max_val = out_data[tensor_index(output_tensor, i, 0, seq_len - 1, 0)];
+                for (long c = 1; c < vocab_size; ++c)
+                {
+                    const float val = out_data[tensor_index(output_tensor, i, 0, seq_len - 1, c)];
+                    if (val > max_val)
+                    {
+                        max_val = val;
+                        max_idx = c;
+                    }
+                }
+                *iter = static_cast<unsigned long>(max_idx);
+            }
+        }
+
+        template <typename const_label_iterator, typename SUBNET>
+        double compute_loss_value_and_gradient(
+            const tensor& input_tensor,
+            const_label_iterator truth,
+            SUBNET& sub
+        ) const
+        {
+            const tensor& output_tensor = sub.get_output();
+            tensor& grad = sub.get_gradient_input();
+
+            DLIB_CASSERT(sub.sample_expansion_factor() == 1);
+            DLIB_CASSERT(input_tensor.num_samples() != 0);
+            DLIB_CASSERT(input_tensor.num_samples() == grad.num_samples());
+            DLIB_CASSERT(input_tensor.num_samples() == output_tensor.num_samples());
+            DLIB_CASSERT(output_tensor.nr() == grad.nr() &&
+                output_tensor.nc() == grad.nc() &&
+                output_tensor.k() == grad.k());
+
+            double loss = 0.0;
+#ifdef DLIB_USE_CUDA
+            cuda_compute(truth, input_tensor, output_tensor, grad, loss, ignore_index_);
+#else
+            cpu_compute(truth, input_tensor, output_tensor, grad, loss, ignore_index_);
+#endif
+            return loss;
+        }
+
+        friend void serialize(const loss_cross_entropy_per_logit_& item, std::ostream& out)
+        {
+            serialize("loss_cross_entropy_per_logit_", out);
+            serialize(item.ignore_index_, out);
+        }
+
+        friend void deserialize(loss_cross_entropy_per_logit_& item, std::istream& in)
+        {
+            std::string version;
+            deserialize(version, in);
+            if (version != "loss_cross_entropy_per_logit_")
+                throw serialization_error("Unexpected version found while deserializing dlib::loss_cross_entropy_per_logit_.");
+            deserialize(item.ignore_index_, in);
+        }
+
+        friend std::ostream& operator<<(std::ostream& out, const loss_cross_entropy_per_logit_& item)
+        {
+            out << "loss_cross_entropy_per_logit";
+            out << " (ignore_index=" << item.ignore_index_ << ")";
+            return out;
+        }
+
+        friend void to_xml(const loss_cross_entropy_per_logit_& item, std::ostream& out)
+        {
+            out << "<loss_cross_entropy_per_logit ignore_index='" << item.ignore_index_ << "'/>\n";
+        }
+
+        private:
+            long ignore_index_;
+
+#ifdef DLIB_USE_CUDA
+            cuda::compute_loss_cross_entropy_per_logit cuda_compute;
+#else
+            cpu::compute_loss_cross_entropy_per_logit cpu_compute;
+#endif            
+    };
+
+    template <typename SUBNET>
+    using loss_cross_entropy_per_logit = add_loss_layer<loss_cross_entropy_per_logit_, SUBNET>;
+
 // ----------------------------------------------------------------------------------------
 
     enum class use_image_pyramid : uint8_t
diff --git a/dlib/dnn/loss_abstract.h b/dlib/dnn/loss_abstract.h
index 9ddfb6a4a2..54d7413e55 100644
--- a/dlib/dnn/loss_abstract.h
+++ b/dlib/dnn/loss_abstract.h
@@ -810,6 +810,134 @@ namespace dlib
     using loss_multibinary_log = add_loss_layer<loss_multibinary_log_, SUBNET>;
 
 // ----------------------------------------------------------------------------------------
+
+    class loss_cross_entropy_per_logit_
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This loss layer implements cross-entropy loss for next token prediction
+                in transformer-based language models. Unlike loss_multiclass_log_ which
+                requires the output to be flattened through an fc layer, this loss function
+                is designed to work directly with sequence outputs from linear layers.
+
+                This loss expects the network to produce an output tensor with these dimensions:
+                    - output_tensor.num_samples() == batch size
+                    - output_tensor.k() == 1 (always)
+                    - output_tensor.nr() == sequence length
+                    - output_tensor.nc() == vocabulary size (number of classes)
+
+                The key feature of this loss is that it computes the cross-entropy loss
+                only on the LAST position of each sequence (position nr()-1), which is
+                the standard approach for autoregressive next token prediction.
+
+                TYPICAL NETWORK ARCHITECTURE:
+                    using net_type = loss_cross_entropy_per_logit
+                        linear<vocab_size,              // Projects to vocabulary logits
+                            rms_norm<                   // Optional normalization
+                                // ... transformer layers ...
+                                token_embeddings<vocab_size, embedding_dim,
+                                    input<matrix<int,0,1>>
+                                >
+                            >
+                        >
+                    >;
+
+                TRAINING LABELS:
+                    - Label type: unsigned long (scalar value per sample)
+                    - Each label represents the target token ID: 0 <= label < vocab_size
+                    - One label per sequence (predicting the token after the last position)
+
+                LOSS COMPUTATION:
+                    For each sample i in the batch:
+                        1. Extract logits at position [i, 0, seq_len-1, :]
+                        2. Compute softmax: probs = softmax(logits)
+                        3. Compute loss: loss += -log(probs[target_label])
+
+                    Final loss = sum(all_losses) / batch_size
+        !*/
+
+    public:
+        typedef unsigned long training_label_type;
+        typedef unsigned long output_label_type;
+
+        template <typename SUB_TYPE, typename label_iterator>
+        void to_label(
+            const tensor& input_tensor,
+            const SUB_TYPE& sub,
+            label_iterator iter
+        ) const;
+        /*!
+            requires
+                - SUBNET implements the EXAMPLE_COMPUTATIONAL_LAYER_ interface
+                - sub.get_output().k() == 1
+                - sub.sample_expansion_factor() == 1
+            ensures
+                - Converts the output of the subnetwork into predicted labels.
+                - For each sample in the batch, extracts the logits at the last
+                  sequence position (nr()-1) and assigns the index of the maximum
+                  logit as the predicted label.
+                - Interprets the output tensor as:
+                    output[i, 0, nr()-1, c] = logit for class c in sample i
+        !*/
+
+        template <typename const_label_iterator, typename SUBNET>
+        double compute_loss_value_and_gradient(
+            const tensor& input_tensor,
+            const_label_iterator truth,
+            SUBNET& sub
+        ) const;
+        /*!
+            requires
+                - SUBNET implements the EXAMPLE_COMPUTATIONAL_LAYER_ interface
+                - sub.sample_expansion_factor() == 1
+                - sub.get_output().k() == 1
+                - sub.get_output().num_samples() == input_tensor.num_samples()
+                - The output tensor has shape [batch_size, 1, seq_len, vocab_size]
+                - truth == an iterator pointing to the first label in a sequence
+                  of input_tensor.num_samples() labels
+                - All values pointed to by truth are < sub.get_output().nc()
+                  (i.e., valid token IDs within vocabulary)
+            ensures
+                - Computes the cross-entropy loss for next token prediction.
+                - For each sample, the loss is computed only at the last sequence
+                  position (nr()-1) using the corresponding label from truth.
+                - The loss is averaged over all samples in the batch.
+                - this function returns the loss value.
+                - Computes gradients with respect to the output logits and stores
+                  them in sub.get_gradient_input().
+                - Gradients are non-zero only at the last position of each sequence.
+                - The gradient computation uses numerically stable softmax.
+        !*/
+
+        friend void serialize(const loss_cross_entropy_per_logit_& item, std::ostream& out);
+        friend void deserialize(loss_cross_entropy_per_logit_& item, std::istream& in);
+        /*!
+            provides serialization support for loss_cross_entropy_per_logit_
+        !*/
+
+        friend std::ostream& operator<<(std::ostream& out, const loss_cross_entropy_per_logit_& item);
+        /*!
+            prints a human readable string describing the loss layer to the output stream
+        !*/
+
+        friend void to_xml(const loss_cross_entropy_per_logit_& item, std::ostream& out);
+        /*!
+            provides XML serialization support for loss_cross_entropy_per_logit_
+        !*/
+    };
+
+    template <typename SUBNET>
+    using loss_cross_entropy_per_logit = add_loss_layer<loss_cross_entropy_per_logit_, SUBNET>;
+    /*!
+        This adds the loss_cross_entropy_per_logit_ loss layer onto SUBNET.
+
+        TYPICAL USAGE IN TRANSFORMER NETWORKS:
+            This loss layer is specifically designed for transformer-based language
+            models that use autoregressive next token prediction. It should be used
+            as the final layer of a network that outputs logits for each position
+            in a sequence.
+    !*/
+
 // ----------------------------------------------------------------------------------------
 
     enum class use_image_pyramid : uint8_t
diff --git a/dlib/dnn/lr_scheduler.h b/dlib/dnn/lr_scheduler.h
new file mode 100644
index 0000000000..0ca8444c36
--- /dev/null
+++ b/dlib/dnn/lr_scheduler.h
@@ -0,0 +1,385 @@
+// Copyright (C) 2025  Cydral (cydraltechnology@gmail.com)
+// License: Boost Software License   See LICENSE.txt for the full license.
+#ifndef DLIB_DNN_LR_SCHEDULER_H_
+#define DLIB_DNN_LR_SCHEDULER_H_
+
+#include "lr_scheduler_abstract.h"
+#include "../serialize.h"
+#include <cmath>
+#include <algorithm>
+#include <string>
+
+namespace dlib
+{
+
+// ----------------------------------------------------------------------------------------
+
+    namespace impl
+    {
+        constexpr double lr_scheduler_pi = 3.14159265358979323846;
+    }
+
+// ----------------------------------------------------------------------------------------
+
+    enum class lr_decay_type
+    {
+        COSINE,
+        LINEAR,
+        CONSTANT,
+        EXPONENTIAL
+    };
+
+// ----------------------------------------------------------------------------------------
+
+    class lr_scheduler
+    {
+    public:
+
+        lr_scheduler(
+        ) :
+            current_step_(0),
+            warmup_steps_(2000),
+            hold_steps_(0),
+            total_steps_(100000),
+            initial_lr_(1e-7),
+            peak_lr_(3e-4),
+            min_lr_(1e-6),
+            decay_type_(lr_decay_type::COSINE)
+        {
+            compute_decay_steps();
+        }
+
+        lr_scheduler(
+            double peak_lr,
+            size_t warmup_steps,
+            size_t total_steps,
+            double min_lr = 1e-6,
+            lr_decay_type decay_type = lr_decay_type::COSINE
+        ) :
+            current_step_(0),
+            warmup_steps_(warmup_steps),
+            hold_steps_(0),
+            total_steps_(total_steps),
+            initial_lr_(min_lr),
+            peak_lr_(peak_lr),
+            min_lr_(min_lr),
+            decay_type_(decay_type)
+        {
+            DLIB_CASSERT(peak_lr > 0, "peak_lr must be positive");
+            DLIB_CASSERT(min_lr >= 0, "min_lr must be non-negative");
+            DLIB_CASSERT(min_lr < peak_lr, "min_lr must be less than peak_lr");
+            DLIB_CASSERT(warmup_steps < total_steps, "warmup_steps must be less than total_steps");
+            compute_decay_steps();
+        }
+
+        double get_learning_rate(
+        ) const
+        {
+            // Phase 1: Warmup
+            if (current_step_ < warmup_steps_)
+            {
+                if (warmup_steps_ == 0)
+                    return peak_lr_;
+                const double progress = static_cast<double>(current_step_) / warmup_steps_;
+                return initial_lr_ + (peak_lr_ - initial_lr_) * progress;
+            }
+
+            // Phase 2: Hold (optional)
+            const size_t post_warmup = current_step_ - warmup_steps_;
+            if (post_warmup < hold_steps_)
+                return peak_lr_;
+
+            // Phase 3: Decay
+            if (decay_steps_ == 0)
+                return peak_lr_;
+
+            const size_t decay_step = post_warmup - hold_steps_;
+            const double progress = std::min(1.0, static_cast<double>(decay_step) / decay_steps_);
+
+            switch (decay_type_)
+            {
+            case lr_decay_type::COSINE:
+                return min_lr_ + 0.5 * (peak_lr_ - min_lr_) * (1.0 + std::cos(impl::lr_scheduler_pi * progress));
+
+            case lr_decay_type::LINEAR:
+                return peak_lr_ - (peak_lr_ - min_lr_) * progress;
+
+            case lr_decay_type::EXPONENTIAL:
+                return peak_lr_ * std::pow(min_lr_ / peak_lr_, progress);
+
+            case lr_decay_type::CONSTANT:
+            default:
+                return peak_lr_;
+            }
+        }
+
+        double get_learning_rate(
+            size_t step
+        ) const
+        {
+            lr_scheduler temp = *this;
+            temp.current_step_ = step;
+            return temp.get_learning_rate();
+        }
+
+        void step(
+            size_t n = 1
+        )
+        {
+            current_step_ += n;
+        }
+
+        void reset(
+        )
+        {
+            current_step_ = 0;
+        }
+
+        void set_current_step(
+            size_t step
+        )
+        {
+            current_step_ = step;
+        }
+
+        size_t get_current_step(
+        ) const { return current_step_; }
+
+        size_t get_warmup_steps(
+        ) const { return warmup_steps_; }
+
+        size_t get_hold_steps(
+        ) const { return hold_steps_; }
+
+        size_t get_total_steps(
+        ) const { return total_steps_; }
+
+        size_t get_decay_steps(
+        ) const { return decay_steps_; }
+
+        double get_initial_lr(
+        ) const { return initial_lr_; }
+
+        double get_peak_lr(
+        ) const { return peak_lr_; }
+
+        double get_min_lr(
+        ) const { return min_lr_; }
+
+        lr_decay_type get_decay_type(
+        ) const { return decay_type_; }
+
+        void set_peak_lr(
+            double lr
+        )
+        {
+            DLIB_CASSERT(lr > 0 && lr > min_lr_);
+            peak_lr_ = lr;
+        }
+
+        void set_min_lr(
+            double lr
+        )
+        {
+            DLIB_CASSERT(lr >= 0 && lr < peak_lr_);
+            min_lr_ = lr;
+        }
+
+        void set_initial_lr(
+            double lr
+        )
+        {
+            DLIB_CASSERT(lr >= 0 && lr <= peak_lr_);
+            initial_lr_ = lr;
+        }
+
+        void set_warmup_steps(
+            size_t steps
+        )
+        {
+            DLIB_CASSERT(steps < total_steps_);
+            warmup_steps_ = steps;
+            compute_decay_steps();
+        }
+
+        void set_hold_steps(
+            size_t steps
+        )
+        {
+            hold_steps_ = steps;
+            compute_decay_steps();
+        }
+
+        void set_total_steps(
+            size_t steps
+        )
+        {
+            DLIB_CASSERT(steps > warmup_steps_);
+            total_steps_ = steps;
+            compute_decay_steps();
+        }
+
+        void set_decay_type(
+            lr_decay_type type
+        )
+        {
+            decay_type_ = type;
+        }
+
+        bool is_warmup_complete(
+        ) const { return current_step_ >= warmup_steps_; }
+
+        bool is_training_complete(
+        ) const { return current_step_ >= total_steps_; }
+
+        double get_warmup_progress(
+        ) const
+        {
+            if (warmup_steps_ == 0)
+                return 1.0;
+            return std::min(1.0, static_cast<double>(current_step_) / warmup_steps_);
+        }
+
+        double get_total_progress(
+        ) const
+        {
+            if (total_steps_ == 0)
+                return 1.0;
+            return std::min(1.0, static_cast<double>(current_step_) / total_steps_);
+        }
+
+        std::string get_phase_name(
+        ) const
+        {
+            if (current_step_ < warmup_steps_)
+                return "warmup";
+            else if (current_step_ < warmup_steps_ + hold_steps_)
+                return "hold";
+            else
+                return "decay";
+        }
+
+    private:
+
+        void compute_decay_steps(
+        )
+        {
+            const size_t non_decay = warmup_steps_ + hold_steps_;
+            decay_steps_ = (total_steps_ > non_decay) ? (total_steps_ - non_decay) : 0;
+        }
+
+        size_t current_step_;
+        size_t warmup_steps_;
+        size_t hold_steps_;
+        size_t total_steps_;
+        size_t decay_steps_;
+        double initial_lr_;
+        double peak_lr_;
+        double min_lr_;
+        lr_decay_type decay_type_;
+    };
+
+// ----------------------------------------------------------------------------------------
+
+    inline void serialize(
+        const lr_scheduler& item,
+        std::ostream& out
+    )
+    {
+        serialize("lr_scheduler", out);
+        serialize(item.get_current_step(), out);
+        serialize(item.get_warmup_steps(), out);
+        serialize(item.get_hold_steps(), out);
+        serialize(item.get_total_steps(), out);
+        serialize(item.get_decay_steps(), out);
+        serialize(item.get_initial_lr(), out);
+        serialize(item.get_peak_lr(), out);
+        serialize(item.get_min_lr(), out);
+        serialize(static_cast<int>(item.get_decay_type()), out);
+    }
+
+    inline void deserialize(
+        lr_scheduler& item,
+        std::istream& in
+    )
+    {
+        std::string version;
+        deserialize(version, in);
+        if (version != "lr_scheduler")
+            throw serialization_error("Unexpected version '" + version +
+                "' found while deserializing lr_scheduler.");
+
+        size_t current_step, warmup_steps, hold_steps, total_steps, decay_steps;
+        double initial_lr, peak_lr, min_lr;
+        int decay_type_int;
+
+        deserialize(current_step, in);
+        deserialize(warmup_steps, in);
+        deserialize(hold_steps, in);
+        deserialize(total_steps, in);
+        deserialize(decay_steps, in);
+        deserialize(initial_lr, in);
+        deserialize(peak_lr, in);
+        deserialize(min_lr, in);
+        deserialize(decay_type_int, in);
+
+        item = lr_scheduler(peak_lr, warmup_steps, total_steps, min_lr,
+            static_cast<lr_decay_type>(decay_type_int));
+        item.set_initial_lr(initial_lr);
+        item.set_hold_steps(hold_steps);
+        item.set_current_step(current_step);
+    }
+
+    inline std::ostream& operator<<(
+        std::ostream& out,
+        const lr_scheduler& item
+    )
+    {
+        out << "lr_scheduler ("
+            << "step=" << item.get_current_step()
+            << ", lr=" << item.get_learning_rate()
+            << ", phase=" << item.get_phase_name()
+            << ", warmup=" << item.get_warmup_steps()
+            << ", total=" << item.get_total_steps()
+            << ", peak=" << item.get_peak_lr()
+            << ", min=" << item.get_min_lr()
+            << ")";
+        return out;
+    }
+
+// ----------------------------------------------------------------------------------------
+
+    inline lr_scheduler make_transformer_scheduler(
+        double peak_lr,
+        size_t total_steps,
+        double warmup_fraction = 0.02,
+        double min_lr = 1e-6,
+        lr_decay_type decay_type = lr_decay_type::COSINE
+    )
+    {
+        DLIB_CASSERT(peak_lr > 0, "peak_lr must be positive");
+        DLIB_CASSERT(total_steps > 0, "total_steps must be positive");
+        DLIB_CASSERT(warmup_fraction > 0 && warmup_fraction < 1, "warmup_fraction must be in (0, 1)");
+        DLIB_CASSERT(min_lr >= 0 && min_lr < peak_lr, "min_lr must be in [0, peak_lr)");
+
+        size_t warmup_steps = static_cast<size_t>(total_steps * warmup_fraction);
+        warmup_steps = std::max(size_t(100), warmup_steps);
+        return lr_scheduler(peak_lr, warmup_steps, total_steps, min_lr, decay_type);
+    }
+
+    inline size_t estimate_total_steps(
+        size_t dataset_size,
+        size_t batch_size,
+        size_t num_epochs
+    )
+    {
+        DLIB_CASSERT(batch_size > 0, "batch_size must be positive");
+        const size_t steps_per_epoch = (dataset_size + batch_size - 1) / batch_size;
+        return steps_per_epoch * num_epochs;
+    }
+
+// ----------------------------------------------------------------------------------------
+
+}
+
+#endif // DLIB_DNN_LR_SCHEDULER_H_
diff --git a/dlib/dnn/lr_scheduler_abstract.h b/dlib/dnn/lr_scheduler_abstract.h
new file mode 100644
index 0000000000..f1ced39e50
--- /dev/null
+++ b/dlib/dnn/lr_scheduler_abstract.h
@@ -0,0 +1,481 @@
+// Copyright (C) 2025  Cydral (cydraltechnology@gmail.com)
+// License: Boost Software License   See LICENSE.txt for the full license.
+#undef DLIB_DNN_LR_SCHEDULER_ABSTRACT_H_
+#ifdef DLIB_DNN_LR_SCHEDULER_ABSTRACT_H_
+
+#include <cstddef>
+#include <iostream>
+#include <string>
+
+namespace dlib
+{
+
+// ----------------------------------------------------------------------------------------
+
+    enum class lr_decay_type
+    {
+        /*!
+            WHAT THIS ENUM REPRESENTS
+                This enum specifies the type of learning rate decay to use after the
+                warmup phase completes. The decay function determines how the learning
+                rate decreases from peak_lr to min_lr over the remaining training steps.
+        !*/
+
+        COSINE,
+        /*!
+            Cosine annealing decay. The learning rate follows a cosine curve:
+                lr = min_lr + 0.5 * (peak_lr - min_lr) * (1 + cos(pi * progress))
+            
+            This is the recommended decay type for transformer training as it provides
+            smooth decay with a gradual slowdown near the end of training.
+        !*/
+
+        LINEAR,
+        /*!
+            Linear decay. The learning rate decreases linearly:
+                lr = peak_lr - (peak_lr - min_lr) * progress
+            
+            Simple and predictable decay suitable for general deep learning tasks.
+        !*/
+
+        CONSTANT,
+        /*!
+            No decay after warmup. The learning rate remains at peak_lr:
+                lr = peak_lr
+            
+            Useful when using external learning rate control or for debugging.
+        !*/
+
+        EXPONENTIAL
+        /*!
+            Exponential decay. The learning rate decreases exponentially:
+                lr = peak_lr * (min_lr / peak_lr)^progress
+            
+            Provides rapid initial decay that slows down over time.
+        !*/
+    };
+
+// ----------------------------------------------------------------------------------------
+
+    class lr_scheduler
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This object implements a learning rate scheduler with warmup and decay
+                phases, designed for training transformer-based neural networks. It is
+                intended to be used alongside dnn_trainer to provide dynamic learning
+                rate adjustment during training.
+
+                The schedule consists of three phases:
+                    1. WARMUP: Linear increase from initial_lr to peak_lr
+                    2. HOLD (optional): Maintain peak_lr for hold_steps
+                    3. DECAY: Decrease from peak_lr to min_lr using selected decay type
+
+            MATHEMATICAL FORMULATION
+                Warmup phase (step < warmup_steps):
+                    lr = initial_lr + (peak_lr - initial_lr) * (step / warmup_steps)
+
+                Hold phase (warmup_steps <= step < warmup_steps + hold_steps):
+                    lr = peak_lr
+
+                Decay phase (step >= warmup_steps + hold_steps):
+                    progress = (step - warmup_steps - hold_steps) / decay_steps
+
+                    For COSINE:
+                        lr = min_lr + 0.5 * (peak_lr - min_lr) * (1 + cos(pi * progress))
+
+                    For LINEAR:
+                        lr = peak_lr - (peak_lr - min_lr) * progress
+
+                    For EXPONENTIAL:
+                        lr = peak_lr * (min_lr / peak_lr)^progress
+
+                    For CONSTANT:
+                        lr = peak_lr
+
+            THREAD SAFETY
+                This object is not thread-safe. Each trainer should have its own scheduler
+                instance. If using multiple trainers in parallel, each should maintain its
+                own lr_scheduler.
+
+            SERIALIZATION
+                This object supports serialization through serialize() and deserialize()
+                functions, allowing training to be checkpointed and resumed.
+
+            TYPICAL USAGE
+                // Create scheduler
+                lr_scheduler scheduler(
+                    3e-4,       // peak_lr
+                    2000,       // warmup_steps
+                    100000,     // total_steps
+                    1e-6,       // min_lr
+                    lr_decay_type::COSINE
+                );
+
+                // Training loop
+                while (!scheduler.is_training_complete()) {
+                    trainer.set_learning_rate(scheduler.get_learning_rate());
+                    trainer.train_one_step(data, labels);
+                    scheduler.step();
+                }
+        !*/
+
+    public:
+
+        lr_scheduler(
+        );
+        /*!
+            ensures
+                - Constructs a default scheduler with reasonable defaults for transformer training
+                - #get_peak_lr() == 3e-4
+                - #get_min_lr() == 1e-6
+                - #get_initial_lr() == 1e-7
+                - #get_warmup_steps() == 2000
+                - #get_hold_steps() == 0
+                - #get_total_steps() == 100000
+                - #get_decay_type() == lr_decay_type::COSINE
+                - #get_current_step() == 0
+        !*/
+
+        lr_scheduler(
+            double peak_lr,
+            size_t warmup_steps,
+            size_t total_steps,
+            double min_lr = 1e-6,
+            lr_decay_type decay_type = lr_decay_type::COSINE
+        );
+        /*!
+            requires
+                - peak_lr > 0
+                - min_lr >= 0
+                - min_lr < peak_lr
+                - warmup_steps < total_steps
+            ensures
+                - #get_peak_lr() == peak_lr
+                - #get_min_lr() == min_lr
+                - #get_initial_lr() == min_lr
+                - #get_warmup_steps() == warmup_steps
+                - #get_hold_steps() == 0
+                - #get_total_steps() == total_steps
+                - #get_decay_type() == decay_type
+                - #get_current_step() == 0
+        !*/
+
+        double get_learning_rate(
+        ) const;
+        /*!
+            ensures
+                - Returns the learning rate for the current step based on the schedule
+                - The returned value is always >= get_min_lr()
+                - The returned value is always <= get_peak_lr()
+                - During warmup: returns a value linearly interpolated between
+                  get_initial_lr() and get_peak_lr()
+                - During hold: returns get_peak_lr()
+                - During decay: returns a value determined by get_decay_type()
+        !*/
+
+        double get_learning_rate(
+            size_t step
+        ) const;
+        /*!
+            ensures
+                - Returns the learning rate that would be used at the specified step
+                - Does not modify the scheduler state
+                - Equivalent to temporarily setting current_step to step and calling
+                  get_learning_rate(), then restoring the original current_step
+        !*/
+
+        void step(
+            size_t n = 1
+        );
+        /*!
+            ensures
+                - #get_current_step() == get_current_step() + n
+                - Advances the scheduler by n steps
+        !*/
+
+        void reset(
+        );
+        /*!
+            ensures
+                - #get_current_step() == 0
+                - Resets the scheduler to its initial state
+        !*/
+
+        void set_current_step(
+            size_t step
+        );
+        /*!
+            ensures
+                - #get_current_step() == step
+                - Useful for resuming training from a checkpoint
+        !*/
+
+        size_t get_current_step(
+        ) const;
+        /*!
+            ensures
+                - Returns the current training step
+        !*/
+
+        size_t get_warmup_steps(
+        ) const;
+        /*!
+            ensures
+                - Returns the number of warmup steps configured for this scheduler
+                - During warmup, the learning rate increases linearly from
+                  get_initial_lr() to get_peak_lr()
+        !*/
+
+        size_t get_hold_steps(
+        ) const;
+        /*!
+            ensures
+                - Returns the number of hold steps configured for this scheduler
+                - During hold, the learning rate remains constant at get_peak_lr()
+        !*/
+
+        size_t get_total_steps(
+        ) const;
+        /*!
+            ensures
+                - Returns the total number of training steps configured for this scheduler
+                - Training is considered complete when get_current_step() >= get_total_steps()
+        !*/
+
+        size_t get_decay_steps(
+        ) const;
+        /*!
+            ensures
+                - Returns the number of steps in the decay phase
+                - Computed as: get_total_steps() - get_warmup_steps() - get_hold_steps()
+        !*/
+
+        double get_initial_lr(
+        ) const;
+        /*!
+            ensures
+                - Returns the initial learning rate at the start of warmup
+                - This is the learning rate used at step 0
+        !*/
+
+        double get_peak_lr(
+        ) const;
+        /*!
+            ensures
+                - Returns the peak learning rate reached at the end of warmup
+                - This is the maximum learning rate during training
+        !*/
+
+        double get_min_lr(
+        ) const;
+        /*!
+            ensures
+                - Returns the minimum learning rate at the end of training
+                - The learning rate will never go below this value
+        !*/
+
+        lr_decay_type get_decay_type(
+        ) const;
+        /*!
+            ensures
+                - Returns the decay type used after warmup completes
+        !*/
+
+        void set_peak_lr(
+            double lr
+        );
+        /*!
+            requires
+                - lr > 0
+                - lr > get_min_lr()
+            ensures
+                - #get_peak_lr() == lr
+        !*/
+
+        void set_min_lr(
+            double lr
+        );
+        /*!
+            requires
+                - lr >= 0
+                - lr < get_peak_lr()
+            ensures
+                - #get_min_lr() == lr
+        !*/
+
+        void set_initial_lr(
+            double lr
+        );
+        /*!
+            requires
+                - lr >= 0
+                - lr <= get_peak_lr()
+            ensures
+                - #get_initial_lr() == lr
+        !*/
+
+        void set_warmup_steps(
+            size_t steps
+        );
+        /*!
+            requires
+                - steps < get_total_steps()
+            ensures
+                - #get_warmup_steps() == steps
+                - #get_decay_steps() is recomputed accordingly
+        !*/
+
+        void set_hold_steps(
+            size_t steps
+        );
+        /*!
+            ensures
+                - #get_hold_steps() == steps
+                - #get_decay_steps() is recomputed accordingly
+        !*/
+
+        void set_total_steps(
+            size_t steps
+        );
+        /*!
+            requires
+                - steps > get_warmup_steps()
+            ensures
+                - #get_total_steps() == steps
+                - #get_decay_steps() is recomputed accordingly
+        !*/
+
+        void set_decay_type(
+            lr_decay_type type
+        );
+        /*!
+            ensures
+                - #get_decay_type() == type
+        !*/
+
+        bool is_warmup_complete(
+        ) const;
+        /*!
+            ensures
+                - Returns true if the warmup phase has completed
+                - Equivalent to: get_current_step() >= get_warmup_steps()
+        !*/
+
+        bool is_training_complete(
+        ) const;
+        /*!
+            ensures
+                - Returns true if all training steps have been completed
+                - Equivalent to: get_current_step() >= get_total_steps()
+        !*/
+
+        double get_warmup_progress(
+        ) const;
+        /*!
+            ensures
+                - Returns a value between 0.0 and 1.0 indicating progress through warmup
+                - Returns 1.0 if warmup is complete
+                - Computed as: min(1.0, get_current_step() / get_warmup_steps())
+        !*/
+
+        double get_total_progress(
+        ) const;
+        /*!
+            ensures
+                - Returns a value between 0.0 and 1.0 indicating overall training progress
+                - Computed as: min(1.0, get_current_step() / get_total_steps())
+        !*/
+
+        std::string get_phase_name(
+        ) const;
+        /*!
+            ensures
+                - Returns "warmup" if in the warmup phase
+                - Returns "hold" if in the hold phase
+                - Returns "decay" if in the decay phase
+        !*/
+    };
+
+// ----------------------------------------------------------------------------------------
+
+    void serialize(
+        const lr_scheduler& item,
+        std::ostream& out
+    );
+    /*!
+        ensures
+            - Serializes the complete state of item to the output stream out
+            - The serialized state includes: current_step, warmup_steps, hold_steps,
+              total_steps, decay_steps, initial_lr, peak_lr, min_lr, and decay_type
+    !*/
+
+    void deserialize(
+        lr_scheduler& item,
+        std::istream& in
+    );
+    /*!
+        ensures
+            - Deserializes the state of item from the input stream in
+            - Restores all configuration and progress state
+        throws
+            - serialization_error if the data in 'in' is not valid lr_scheduler data
+    !*/
+
+    std::ostream& operator<<(
+        std::ostream& out,
+        const lr_scheduler& item
+    );
+    /*!
+        ensures
+            - Prints a human-readable summary of the scheduler state to out
+            - Includes: current step, current learning rate, phase name, and configuration
+    !*/
+
+// ----------------------------------------------------------------------------------------
+
+    lr_scheduler make_transformer_scheduler(
+        double peak_lr,
+        size_t total_steps,
+        double warmup_fraction = 0.02,
+        double min_lr = 1e-6,
+        lr_decay_type decay_type = lr_decay_type::COSINE
+    );
+    /*!
+        requires
+            - peak_lr > 0
+            - total_steps > 0
+            - 0 < warmup_fraction < 1
+            - min_lr >= 0
+            - min_lr < peak_lr
+        ensures
+            - Returns an lr_scheduler configured with common transformer training settings
+            - The warmup_steps is computed as: max(100, total_steps * warmup_fraction)
+            - returns a scheduler S such that:
+                - S.get_peak_lr() == peak_lr
+                - S.get_total_steps() == total_steps
+                - S.get_min_lr() == min_lr
+                - S.get_decay_type() == decay_type
+                - S.get_warmup_steps() == max(100, total_steps * warmup_fraction)
+    !*/
+
+    size_t estimate_total_steps(
+        size_t dataset_size,
+        size_t batch_size,
+        size_t num_epochs
+    );
+    /*!
+        requires
+            - batch_size > 0
+        ensures
+            - Returns an estimate of the total number of training steps
+            - Computed as: ceil(dataset_size / batch_size) * num_epochs
+            - Useful for configuring lr_scheduler when you know the dataset size,
+              batch size, and desired number of epochs
+    !*/
+
+// ----------------------------------------------------------------------------------------
+
+}
+
+#endif // DLIB_DNN_LR_SCHEDULER_ABSTRACT_H_
diff --git a/dlib/dnn/solvers.h b/dlib/dnn/solvers.h
index 6eab32be12..d28a5aa93f 100644
--- a/dlib/dnn/solvers.h
+++ b/dlib/dnn/solvers.h
@@ -397,6 +397,349 @@ namespace dlib
         float t;
     };
 
+    // ----------------------------------------------------------------------------------------
+
+    /*!
+        AdamW optimizer with decoupled weight decay regularization.
+
+        This optimizer implements the AdamW algorithm from "Decoupled Weight Decay
+        Regularization" (Loshchilov & Hutter, ICLR 2019). Unlike standard Adam,
+        AdamW decouples the weight decay from the gradient-based optimization step,
+        leading to better generalization and easier hyperparameter tuning.
+
+        THEORETICAL FOUNDATION:
+            Standard Adam with L2 regularization computes:
+                theta_t = theta_{t-1} - alpha * m_hat_t / sqrt(v_hat_t + epsilon)
+                where gradients include the L2 regularization term
+
+            AdamW decouples weight decay and computes:
+                m_t = beta1 * m_{t-1} + (1-beta1) * gradient_L
+                v_t = beta2 * v_{t-1} + (1-beta2) * (gradient_L)^2
+                theta_t = theta_{t-1} - alpha * (m_hat_t/sqrt(v_hat_t) + lambda*theta_{t-1})
+
+            This formulation makes the optimal weight decay factor independent of
+            the learning rate, improving generalization especially for long training runs.
+
+        IMPLEMENTATION STRATEGY:
+            1. Compute standard Adam update with weight_decay = 0 (decoupled)
+            2. Explicitly apply weight decay: update = update - lr * wd * params
+            3. The update is then added to parameters by the trainer
+
+        KEY DIFFERENCES FROM ADAM:
+            - Weight decay is applied directly to parameters (multiplicative)
+            - Weight decay does not interact with adaptive learning rates
+            - Better hyperparameter independence (learning rate vs weight decay)
+            - Superior generalization on image classification and NLP tasks
+
+        CONSTRUCTOR PARAMETERS:
+            - weight_decay: Decoupled weight decay coefficient (default: 0.01)
+                           Typical range: 0.0001 to 0.1
+                           Higher values = stronger regularization
+            - momentum1 (beta1): Exponential decay rate for first moment (default: 0.9)
+                                Controls the momentum of gradient moving average
+            - momentum2 (beta2): Exponential decay rate for second moment (default: 0.999)
+                                Controls the momentum of squared gradient moving average
+
+        REFERENCES:
+            - Loshchilov & Hutter (2019). "Decoupled Weight Decay Regularization"
+              ICLR 2019. https://arxiv.org/abs/1711.05101
+            - Kingma & Ba (2015). "Adam: A Method for Stochastic Optimization"
+              ICLR 2015. https://arxiv.org/abs/1412.6980
+
+        NOTE: AdamW is the standard optimizer for modern transformer models including
+              GPT, BERT, LLaMA, Mistral, Qwen, DeepSeek, and other large language models.
+              It consistently outperforms standard Adam with L2 regularization.
+    !*/
+    class adamw
+    {
+    public:
+
+        explicit adamw(
+            float weight_decay_ = 0.01f,
+            float momentum1_ = 0.9f,
+            float momentum2_ = 0.999f
+        )
+        {
+            weight_decay = weight_decay_;
+            momentum1 = momentum1_;
+            momentum2 = momentum2_;
+            t = 0;
+        }
+
+        float get_momentum1() const { return momentum1; }
+        float get_momentum2() const { return momentum2; }
+        float get_weight_decay() const { return weight_decay; }
+
+        template <typename layer_type>
+        const tensor& operator() (
+            const float learning_rate,
+            const layer_type& l,
+            const tensor& params_grad
+            )
+        {
+            const tensor& params = l.get_layer_params();
+            DLIB_CASSERT(params.size() != 0);
+
+            if (v.size() == 0)
+            {
+                m.copy_size(params_grad);
+                m = 0;
+                v.copy_size(params_grad);
+                v = 0;
+                s.copy_size(params_grad);
+            }
+
+            ++t;
+
+            // Step 1: compute standard Adam update with decoupled weight decay (wd = 0)
+            // This populates 's' with the adaptive gradient step: -alpha * m_hat_t / sqrt(v_hat_t)
+            // By passing weight_decay = 0, we decouple the regularization from the adaptive update
+            tt::compute_adam_update(0, params.size(), s, m, v, t,
+                learning_rate * get_learning_rate_multiplier(l),
+                0, // Critical: weight_decay = 0 for decoupled regularization
+                momentum1, momentum2, params, params_grad);
+
+            // Step 2: apply decoupled weight decay explicitly
+            // Formula: s = s - alpha * lambda * theta_{t-1}
+            // This implements the AdamW update: theta_t = theta_{t-1} - alpha * (m_hat_t/sqrt(v_hat_t) + lambda * theta_{t-1})
+            const double lr = learning_rate * get_learning_rate_multiplier(l);
+            const double wd = weight_decay * get_weight_decay_multiplier(l);
+
+            if (wd != 0)
+            {
+                // Compute: s = s + params * (-lr * wd)
+                tt::affine_transform(s, s, params, 1.0, -lr * wd);
+            }
+
+            return s;
+        }
+
+        template <unsigned long N>
+        const tensor& operator() (
+            const float learning_rate,
+            const fc_<N, FC_HAS_BIAS>& l,
+            const tensor& params_grad
+            )
+        {
+            update_considering_bias(learning_rate, l, params_grad, params_grad.size() - l.get_num_outputs());
+            return s;
+        }
+
+        template <
+            long _num_filters,
+            long _nr,
+            long _nc,
+            int _stride_y,
+            int _stride_x,
+            int _padding_y,
+            int _padding_x
+        >
+        const tensor& operator() (
+            const float learning_rate,
+            const con_<_num_filters, _nr, _nc, _stride_y, _stride_x, _padding_y, _padding_x>& l,
+            const tensor& params_grad
+            )
+        {
+            update_considering_bias(learning_rate, l, params_grad, params_grad.size() - l.num_filters());
+            return s;
+        }
+
+        template <
+            long _num_filters,
+            long _nr,
+            long _nc,
+            int _stride_y,
+            int _stride_x,
+            int _padding_y,
+            int _padding_x
+        >
+        const tensor& operator() (
+            const float learning_rate,
+            const cont_<_num_filters, _nr, _nc, _stride_y, _stride_x, _padding_y, _padding_x>& l,
+            const tensor& params_grad
+            )
+        {
+            update_considering_bias(learning_rate, l, params_grad, params_grad.size() - l.num_filters());
+            return s;
+        }
+
+        template < layer_mode mode >
+        const tensor& operator() (
+            const float learning_rate,
+            const bn_<mode>& l,
+            const tensor& params_grad
+            )
+        {
+            update_considering_bias(learning_rate, l, params_grad, params_grad.size() / 2);
+            return s;
+        }
+
+        friend void serialize(const adamw& item, std::ostream& out)
+        {
+            serialize("adamw", out);
+            serialize(item.m, out);
+            serialize(item.v, out);
+            serialize(item.s, out);
+            serialize(item.weight_decay, out);
+            serialize(item.momentum1, out);
+            serialize(item.momentum2, out);
+            serialize(item.t, out);
+        }
+
+        friend void deserialize(adamw& item, std::istream& in)
+        {
+            std::string version;
+            deserialize(version, in);
+            if (version != "adamw")
+                throw serialization_error("Unexpected version found while deserializing dlib::adamw.");
+            deserialize(item.m, in);
+            deserialize(item.v, in);
+            deserialize(item.s, in);
+            deserialize(item.weight_decay, in);
+            deserialize(item.momentum1, in);
+            deserialize(item.momentum2, in);
+            deserialize(item.t, in);
+        }
+
+        friend std::ostream& operator<< (std::ostream& out, const adamw& item)
+        {
+            out << "adamw: weight_decay=" << item.get_weight_decay()
+                << ", momentum1=" << item.get_momentum1()
+                << ", momentum2=" << item.get_momentum2();
+            return out;
+        }
+
+    private:
+
+        /*!
+            Updates parameters that may have different learning rate and weight decay
+            multipliers for weights vs biases (e.g., fully connected and convolutional layers).
+
+            BIAS HANDLING:
+                Most layers separate weights and biases:
+                - Weights: indices [0, bias_offset)
+                - Biases: indices [bias_offset, end)
+
+                Different multipliers may apply to each section:
+                - bias_learning_rate_multiplier (typically 1.0 or 2.0)
+                - bias_weight_decay_multiplier (typically 0.0 - no decay on biases)
+
+            PARAMETERS:
+                - learning_rate: base learning rate from trainer
+                - l: layer containing parameters and multiplier settings
+                - params_grad: gradient tensor
+                - bias_offset: index where biases start in the parameter tensor
+        !*/
+        template <typename layer_type>
+        void update_considering_bias(
+            const float learning_rate,
+            const layer_type& l,
+            const tensor& params_grad,
+            unsigned long bias_offset
+        )
+        {
+            const tensor& params = l.get_layer_params();
+            DLIB_CASSERT(params.size() != 0);
+
+            if (v.size() == 0)
+            {
+                m.copy_size(params_grad);
+                m = 0;
+                v.copy_size(params_grad);
+                v = 0;
+                s.copy_size(params_grad);
+            }
+
+            ++t;
+
+            // Step 1: compute adaptive gradient update with decoupled weight decay
+            if (l.get_bias_learning_rate_multiplier() == 1)
+            {
+                // Simple case: uniform learning rate for all parameters
+                tt::compute_adam_update(0, params.size(), s, m, v, t,
+                    learning_rate * get_learning_rate_multiplier(l),
+                    0, // Decoupled: weight_decay = 0 in Adam computation
+                    momentum1, momentum2, params, params_grad);
+            }
+            else
+            {
+                // Complex case: different learning rates for weights and biases
+
+                // Process weights: indices [0, bias_offset)
+                tt::compute_adam_update(0, bias_offset, s, m, v, t,
+                    learning_rate * get_learning_rate_multiplier(l),
+                    0, // Decoupled weight decay
+                    momentum1, momentum2, params, params_grad);
+
+                // Process biases: indices [bias_offset, end)
+                // Apply bias learning rate multiplier
+                tt::compute_adam_update(bias_offset, params.size(), s, m, v, t,
+                    learning_rate * get_learning_rate_multiplier(l) * l.get_bias_learning_rate_multiplier(),
+                    0, // Decoupled weight decay
+                    momentum1, momentum2, params, params_grad);
+            }
+
+            // Step 2: apply decoupled weight decay
+            // Formula: s = s - lr * wd * params
+            // This is applied separately to weights and biases because they may have
+            // different weight decay multipliers
+            double lr = learning_rate * get_learning_rate_multiplier(l);
+            double wd = weight_decay * get_weight_decay_multiplier(l);
+
+            if (l.get_bias_learning_rate_multiplier() == 1 && l.get_bias_weight_decay_multiplier() == 1)
+            {
+                // Simple case: uniform weight decay for all parameters
+                if (wd != 0)
+                    tt::affine_transform(s, s, params, 1.0, -lr * wd);
+            }
+            else
+            {
+                // Complex case: different weight decay for weights vs biases
+
+                // Apply weight decay to weights: indices [0, bias_offset)
+                // Computation: s[i] = 1.0 * s[i] + (-lr * wd) * params[i] + 0.0 * params[i]
+                // The third source (params) is not used since C = 0.0
+                if (wd != 0)
+                {
+                    tt::affine_transform_range(0, bias_offset,
+                        s,          // dest
+                        s,          // src1 (A coefficient)
+                        params,     // src2 (B coefficient) 
+                        params,     // src3 (C coefficient = 0, so this is unused)
+                        1.0,        // A: keep current update
+                        -lr * wd,   // B: subtract weight decay term
+                        0.0);       // C: ignore third source
+                }
+
+                // Apply weight decay to biases: indices [bias_offset, end)
+                // Note: typically bias_weight_decay_multiplier = 0 (no regularization on biases)
+                // This is a common practice in deep learning to prevent biases from becoming too small
+                lr *= l.get_bias_learning_rate_multiplier();
+                wd *= l.get_bias_weight_decay_multiplier();
+
+                if (wd != 0)
+                {
+                    tt::affine_transform_range(bias_offset, v.size(),
+                        s,
+                        s,
+                        params,
+                        params,
+                        1.0,
+                        -lr * wd,
+                        0.0);
+                }
+            }
+        }
+
+        resizable_tensor m;  // First moment estimate (exponential moving average of gradients)
+        resizable_tensor v;  // Second moment estimate (exponential moving average of squared gradients)
+        resizable_tensor s;  // Parameter update computed by the optimizer
+        float weight_decay;  // Weight decay coefficient (lambda in the paper)
+        float momentum1;     // Beta1: decay rate for first moment
+        float momentum2;     // Beta2: decay rate for second moment
+        float t;             // Time step counter for bias correction
+    };
+
 // ----------------------------------------------------------------------------------------
 
 }
diff --git a/dlib/dnn/solvers_abstract.h b/dlib/dnn/solvers_abstract.h
index 7a07452170..20c37987dd 100644
--- a/dlib/dnn/solvers_abstract.h
+++ b/dlib/dnn/solvers_abstract.h
@@ -9,8 +9,6 @@
 namespace dlib
 {
 
-// ----------------------------------------------------------------------------------------
-// ----------------------------------------------------------------------------------------
 // ----------------------------------------------------------------------------------------
 
     class EXAMPLE_SOLVER 
@@ -69,8 +67,6 @@ namespace dlib
         Prints the solver's name and parameters to out.
     !*/
 
-// ----------------------------------------------------------------------------------------
-// ----------------------------------------------------------------------------------------
 // ----------------------------------------------------------------------------------------
 
     class sgd
@@ -196,6 +192,82 @@ namespace dlib
         Prints the solver's name and parameters to out.
     !*/
 
+// ----------------------------------------------------------------------------------------
+
+    class adamw
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This object implements the EXAMPLE_SOLVER interface defined above. In
+                particular, it implements the AdamW parameter update method with decoupled
+                weight decay regularization as described in the paper:
+                    Loshchilov, Ilya, and Frank Hutter. "Decoupled weight decay
+                    regularization." International Conference on Learning Representations. 2019.
+
+                The key difference from standard Adam is that weight decay is decoupled from
+                the gradient-based optimization step. This leads to better generalization
+                performance and makes the optimal weight decay factor more independent of the
+                learning rate setting. AdamW has become the standard optimizer for training
+                large language models and transformer architectures.
+
+                The update is computed as:
+                    m_t = momentum1*m_{t-1} + (1-momentum1)*params_grad
+                    v_t = momentum2*v_{t-1} + (1-momentum2)*(params_grad^2)
+                    V = -learning_rate * (m_hat_t/sqrt(v_hat_t) + weight_decay*l.get_layer_params())
+                where m_hat_t and v_hat_t are bias-corrected moment estimates.
+
+                Note that the actual learning rate and weight decay used by the solver are
+                multiplied by the per layer multipliers. That is, the solver will call
+                get_learning_rate_multiplier(l) and get_weight_decay_multiplier(l) and
+                multiply these values with the nominal learning rate and weight decay,
+                respectively, to determine the values it will use during each step. It is
+                also overloaded to allow additional learning rate multipliers to be applied
+                to fc_ and con_ bias parameters.
+        !*/
+
+    public:
+
+        adamw(
+        );
+        /*!
+            ensures
+                - #get_weight_decay()  == 0.01
+                - #get_momentum1()     == 0.9
+                - #get_momentum2()     == 0.999
+        !*/
+
+        explicit adamw(
+            float weight_decay,
+            float momentum1 = 0.9,
+            float momentum2 = 0.999
+        );
+        /*!
+            requires
+                - weight_decay >= 0
+                - 0 <= momentum1 < 1
+                - 0 <= momentum2 < 1
+            ensures
+                - #get_weight_decay()  == weight_decay
+                - #get_momentum1()     == momentum1
+                - #get_momentum2()     == momentum2
+        !*/
+
+        float get_weight_decay() const;
+        float get_momentum1() const;
+        float get_momentum2() const;
+    };
+
+    void serialize(const adamw& item, std::ostream& out);
+    void deserialize(adamw& item, std::istream& in);
+    /*!
+        provides serialization support
+    !*/
+
+    std::ostream& operator<< (std::ostream& out, const adamw& item);
+    /*!
+        Prints the solver's name and parameters to out.
+    !*/
+
 // ----------------------------------------------------------------------------------------
 
 }
diff --git a/dlib/dnn/trainer.h b/dlib/dnn/trainer.h
index c329791e78..3cdc6fa1ec 100644
--- a/dlib/dnn/trainer.h
+++ b/dlib/dnn/trainer.h
@@ -11,6 +11,7 @@
 #include <fstream>
 #include <sstream>
 #include "../serialize.h"
+#include "lr_scheduler.h"
 
 #include "../pipe.h"
 #include "../threads.h"
diff --git a/dlib/dnn/transformer.h b/dlib/dnn/transformer.h
new file mode 100644
index 0000000000..786e8ea8a0
--- /dev/null
+++ b/dlib/dnn/transformer.h
@@ -0,0 +1,1019 @@
+﻿// Copyright (C) 2025  Cydral Technology (cydraltechnology@gmail.com)
+// License: Boost Software License   See LICENSE.txt for the full license.
+#ifndef DLIB_DNN_TRANSFORMER_H_
+#define DLIB_DNN_TRANSFORMER_H_
+
+#include "transformer_abstract.h"
+#include "layers.h"
+
+namespace dlib
+{
+    // ----------------------------------------------------------------------------------------
+
+    template <long d_k_>
+    class scale_weights_ : public multiply_
+    {
+    public:
+        explicit scale_weights_() : multiply_(1.0f / std::sqrt(static_cast<float>(d_k_))) {}
+    };
+
+    template <long d_k, typename SUBNET>
+    using scale_weights = add_layer<scale_weights_<d_k>, SUBNET>;
+
+    // ----------------------------------------------------------------------------------------
+    
+    template <long num_embeddings, long embedding_length, typename SUBNET>
+    using positional_embeddings = positional_encodings<
+        embeddings<num_embeddings, embedding_length, SUBNET>>;
+
+    // ----------------------------------------------------------------------------------------
+
+    // CANONICAL TRANSFORMER ARCHITECTURE
+    namespace canonical_transformer
+    {
+
+        template <long d_model, long num_heads, typename SUBNET>
+        using query = reshape_to<num_heads, -1, d_model / num_heads,
+            linear_no_bias<d_model, SUBNET>>;
+
+        template <long d_model, long num_heads, typename SUBNET>
+        using key = reshape_to<num_heads, -1, d_model / num_heads,
+            linear_no_bias<d_model, SUBNET>>;
+
+        template <long d_model, long num_heads, typename SUBNET>
+        using value = reshape_to<num_heads, -1, d_model / num_heads,
+            linear_no_bias<d_model, SUBNET>>;
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        using multihead_attention =
+            DO<linear_no_bias<d_model, reshape_to<1, -1, d_model,
+            multm_prev3<softmaxm<tril_mask<
+            scale_weights<d_model / num_heads,
+            multm_prev4<
+            rope<query<d_model, num_heads, skip1<
+            tag4<transpose<
+            rope<key<d_model, num_heads, skip2<
+            tag3<value<d_model, num_heads,
+            tag2<SUBNET>>>>>>>>>>>>>>>>>>>;
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, typename SUBNET>
+        using std_ffn = DO<linear<d_model, ACT<linear<d_model * 4, SUBNET>>>>;
+
+        // Standard SwiGLU FFN implementation
+        // Reference: Noam Shazeer's "GLU Variants Improve Transformer" (https://arxiv.org/abs/2002.05202)
+        template <template <typename> class DO, long d_model, typename SUBNET>
+        using swiglu = DO<linear<d_model, mult_prev7<linear<(d_model * 2) / 7, skip6<
+            tag7<silu<linear<(d_model * 2) / 7, tag6<SUBNET>>>>>>>>>;
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        using transformer_block = 
+            add_prev5<std_ffn<ACT, DO, d_model, rms_norm<tag5<
+            add_prev1<multihead_attention<ACT, DO, d_model, num_heads, rms_norm<tag1<SUBNET>>>>>>>>;
+
+        template<long remaining_layers, template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET, typename enabled = void>
+        struct transformer_stack_impl
+        {
+            using type = transformer_block<ACT, DO, d_model, num_heads,
+                typename transformer_stack_impl<remaining_layers - 1, ACT, DO, d_model, num_heads, SUBNET>::type>;
+        };
+
+        template<template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        struct transformer_stack_impl<0, ACT, DO, d_model, num_heads, SUBNET, void>
+        {
+            using type = tag10<SUBNET>;
+        };
+
+        template<long num_layers, template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        using transformer_stack = typename transformer_stack_impl<num_layers, ACT, DO, d_model, num_heads, SUBNET>::type;
+
+    } // namespace std_transformer
+
+    // FUSED TRANSFORMER ARCHITECTURE
+    namespace fused_transformer
+    {
+
+        template <long num_heads, long d_model, typename SUBNET>
+        using query = extract<0, num_heads, d_model / num_heads, 1, SUBNET>;
+
+        template <long num_heads, long d_model, typename SUBNET>
+        using key = extract<d_model, num_heads, 1, d_model / num_heads, SUBNET>;
+
+        template <long num_heads, long d_model, typename SUBNET>
+        using value = extract<(d_model * 2), num_heads, d_model / num_heads, 1, SUBNET>;
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        using multihead_attention =
+            DO<extract<0, 1, 1, d_model, fc_no_bias<d_model,
+            multm_prev3<softmaxm<tril_mask<
+            scale_weights<d_model / num_heads,
+            multm_prev4<
+            query<num_heads, d_model, skip1<
+            tag4<key<num_heads, d_model, skip2<
+            tag3<value<num_heads, d_model,
+            tag2<fc_no_bias<d_model * 3,
+            SUBNET>>>>>>>>>>>>>>>>>;
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, typename SUBNET>
+        using std_ffn = extract<0, 1, 1, d_model,
+            DO<fc<d_model, ACT<fc<d_model * 4, SUBNET>>>>>;
+
+        template <template <typename> class DO, long d_model, typename SUBNET>
+        using swiglu = extract<0, 1, 1, d_model,
+            DO<fc<d_model, mult_prev7<fc<(d_model * 2) / 7, skip6<
+            tag7<silu<fc<(d_model * 2) / 7, tag6<SUBNET>>>>>>>>>>;
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        using transformer_block = 
+            add_prev5<std_ffn<ACT, DO, d_model, rms_norm<tag5<
+            add_prev1<multihead_attention<ACT, DO, d_model, num_heads, rms_norm<tag1<SUBNET>>>>>>>>;
+
+        template<long remaining_layers, template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET, typename enabled = void>
+        struct transformer_stack_impl
+        {
+            using type = transformer_block<ACT, DO, d_model, num_heads,
+                typename transformer_stack_impl<remaining_layers - 1, ACT, DO, d_model, num_heads, SUBNET>::type>;
+        };
+
+        template<template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        struct transformer_stack_impl<0, ACT, DO, d_model, num_heads, SUBNET, void>
+        {
+            using type = tag10<SUBNET>;
+        };
+
+        template<long num_layers, template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        using transformer_stack = typename transformer_stack_impl<num_layers, ACT, DO, d_model, num_heads, SUBNET>::type;
+
+    } // namespace fused_transformer
+
+    // Default to canonical transformer implementation
+    using namespace canonical_transformer;
+
+	// ----------------------------------------------------------------------------------------
+
+    // HIERARCHICAL REASONING MODEL (HRM)
+    template<
+        typename H_NET,
+        typename L_NET,
+        int N,
+        int T
+    >
+        class hrm_
+    {
+        static_assert(N > 0, "N (high-level cycles) must be positive");
+        static_assert(T > 0, "T (low-level timesteps per cycle) must be positive");
+
+    public:
+        using h_net_type = H_NET;
+        using l_net_type = L_NET;
+
+        explicit hrm_() :
+            hidden_dim(0),
+            learning_rate_multiplier(1.0)
+        {
+        }
+
+        hrm_(const hrm_& other) :
+            h_net(other.h_net),
+            l_net(other.l_net),
+            z_h_init(other.z_h_init),
+            z_l_init(other.z_l_init),
+            hidden_dim(other.hidden_dim),
+            learning_rate_multiplier(other.learning_rate_multiplier)
+        {
+        }
+
+        hrm_& operator=(const hrm_& other)
+        {
+            if (this != &other) {
+                h_net = other.h_net;
+                l_net = other.l_net;
+                z_h_init = other.z_h_init;
+                z_l_init = other.z_l_init;
+                hidden_dim = other.hidden_dim;
+                learning_rate_multiplier = other.learning_rate_multiplier;
+            }
+            return *this;
+        }
+
+        template <typename SUBNET>
+        void setup(const SUBNET& sub)
+        {
+            const tensor& input = sub.get_output();
+
+            // Store dimension for initialization
+            hidden_dim = input.nc();
+
+            // Initialize hidden states with truncated normal (std=1, trunc=2)
+            init_hidden_states();
+        }
+
+        template <typename SUBNET>
+        void forward(const SUBNET& sub, resizable_tensor& output)
+        {
+            const tensor& x = sub.get_output();
+            const long batch_size = x.num_samples();
+            const long k = x.k();
+            const long seq_len = x.nr();
+
+            // Allocate working tensors with proper batch size
+            z_h_current.copy_size(x);
+            z_l_current.copy_size(x);
+
+            // Broadcast initial states to all samples and positions
+            // Initialize each (sample, k, row, col) with the same initial vector
+            auto* z_h_ptr = z_h_current.host();
+            auto* z_l_ptr = z_l_current.host();
+            const auto* h_init_ptr = z_h_init.host();
+            const auto* l_init_ptr = z_l_init.host();
+
+            for (long n = 0; n < batch_size; ++n) {
+                for (long kk = 0; kk < k; ++kk) {
+                    for (long r = 0; r < seq_len; ++r) {
+                        for (long c = 0; c < hidden_dim; ++c) {
+                            const long idx = ((n * k + kk) * seq_len + r) * hidden_dim + c;
+                            z_h_ptr[idx] = h_init_ptr[c];
+                            z_l_ptr[idx] = l_init_ptr[c];
+                        }
+                    }
+                }
+            }
+
+            // Main HRM recurrent loop (N×T iterations, all but last without gradients)
+            for (int n = 0; n < N; ++n)
+            {
+                for (int t = 0; t < T; ++t)
+                {
+                    // Skip last iteration (computed with gradients after loop)
+                    if (n == N - 1 && t == T - 1) continue;
+
+                    // L-Module: z_L' = f_L(z_L + z_H + x)
+                    l_input.copy_size(x);
+                    tt::copy_tensor(false, l_input, 0, z_l_current, 0, z_l_current.k());
+                    tt::add(1.0f, l_input, 1.0f, z_h_current);
+                    tt::add(1.0f, l_input, 1.0f, x);
+
+                    l_net.forward(l_input);
+                    const tensor& l_out = l_net.get_output();
+                    tt::copy_tensor(false, z_l_current, 0, l_out, 0, l_out.k());
+                }
+
+                // Skip last H-Module update (computed with gradients after loop)
+                if (n == N - 1) continue;
+
+                // H-Module: z_H' = f_H(z_H + z_L)
+                h_input.copy_size(x);
+                tt::copy_tensor(false, h_input, 0, z_h_current, 0, z_h_current.k());
+                tt::add(1.0f, h_input, 1.0f, z_l_current);
+
+                h_net.forward(h_input);
+                const tensor& h_out = h_net.get_output();
+                tt::copy_tensor(false, z_h_current, 0, h_out, 0, h_out.k());
+            }
+
+            // Final L-Module update
+            last_l_input.copy_size(x);
+            tt::copy_tensor(false, last_l_input, 0, z_l_current, 0, z_l_current.k());
+            tt::add(1.0f, last_l_input, 1.0f, z_h_current);
+            tt::add(1.0f, last_l_input, 1.0f, x);
+
+            l_net.forward(last_l_input);
+            const tensor& l_final = l_net.get_output();
+
+            // Final H-Module update
+            last_h_input.copy_size(x);
+            tt::copy_tensor(false, last_h_input, 0, z_h_current, 0, z_h_current.k());
+            tt::add(1.0f, last_h_input, 1.0f, l_final);
+
+            h_net.forward(last_h_input);
+            const tensor& h_final = h_net.get_output();
+
+            // Output is final high-level state z_H^{NT}
+            output.copy_size(h_final);
+            tt::copy_tensor(false, output, 0, h_final, 0, h_final.k());
+        }
+
+        template <typename SUBNET>
+        void backward(const tensor& gradient_input, SUBNET& sub, tensor& /*params_grad*/)
+        {
+            // Backprop through final H-Module update
+            h_net.back_propagate_error(last_h_input, gradient_input);
+            const tensor& grad_h = h_net.get_gradient_input();
+
+            // Backprop through final L-Module update
+            // Gradient from H-Module flows to z_L (and z_H_prev which we ignore)
+            l_net.back_propagate_error(last_l_input, grad_h);
+            const tensor& grad_l = l_net.get_gradient_input();
+
+            // Propagate gradient to input x (and z_L_prev, z_H_prev which we ignore)
+            tensor& prev_grad = sub.get_gradient_input();
+            tt::add(1.0f, prev_grad, 1.0f, grad_l);
+        }
+
+        void set_learning_rate_multiplier(double val)
+        {
+            learning_rate_multiplier = val;            
+            set_all_learning_rate_multipliers(h_net, val);
+            set_all_learning_rate_multipliers(l_net, val);
+        }
+        double get_learning_rate_multiplier() const { return learning_rate_multiplier; }
+
+
+        // Cleans up the internal state of H and L networks
+        void clean()
+        {
+            clean_subnet(h_net);
+            clean_subnet(l_net);
+        }
+
+        // Returns the H/L module network
+        const h_net_type& get_h_net() const { return h_net; }
+        const l_net_type& get_l_net() const { return l_net; }
+        h_net_type& get_h_net() { return h_net; }
+        l_net_type& get_l_net() { return l_net; }
+
+        const tensor& get_layer_params() const { return params; }
+        tensor& get_layer_params() { return params; }
+
+        friend void serialize(const hrm_& item, std::ostream& out)
+        {
+            serialize("hrm_", out);
+            serialize(item.h_net, out);
+            serialize(item.l_net, out);
+            serialize(item.z_h_init, out);
+            serialize(item.z_l_init, out);
+            serialize(item.hidden_dim, out);
+            serialize(item.learning_rate_multiplier, out);
+        }
+
+        friend void deserialize(hrm_& item, std::istream& in)
+        {
+            std::string version;
+            deserialize(version, in);
+            if (version != "hrm_")
+                throw serialization_error("Unexpected version '" + version + "' while deserializing hrm_");
+
+            deserialize(item.h_net, in);
+            deserialize(item.l_net, in);
+            deserialize(item.z_h_init, in);
+            deserialize(item.z_l_init, in);
+            deserialize(item.hidden_dim, in);
+            deserialize(item.learning_rate_multiplier, in);
+        }
+
+        friend std::ostream& operator<<(std::ostream& out, const hrm_& item)
+        {
+            out << "hrm\t ("
+                << "N=" << N
+                << ", T=" << T
+                << ")";
+            out << " learning_rate_mult=" << item.learning_rate_multiplier;
+            return out;
+        }
+
+        friend void to_xml(const hrm_& item, std::ostream& out)
+        {
+            out << "<hrm"
+                << " N='" << N << "'"
+                << " T='" << T << "'"
+                << " learning_rate_mult='" << item.learning_rate_multiplier << "'"
+                << ">\n";
+            out << "  <h_module>\n";
+            to_xml(item.h_net, out);
+            out << "  </h_module>\n";
+            out << "  <l_module>\n";
+            to_xml(item.l_net, out);
+            out << "  </l_module>\n";
+            out << "</hrm>\n";
+        }
+
+    private:
+        void init_hidden_states()
+        {
+            // Initialize single vector for H and L (will be broadcast to full tensor)
+            // Shape: (1, 1, 1, hidden_dim) - single vector per dimension
+            z_h_init.set_size(1, 1, 1, hidden_dim);
+            z_l_init.set_size(1, 1, 1, hidden_dim);
+
+            dlib::rand rnd(std::time(0));
+
+            auto* h_ptr = z_h_init.host();
+            auto* l_ptr = z_l_init.host();
+
+            // Truncated normal initialization (std=1, trunc=2)
+            for (long c = 0; c < hidden_dim; ++c) {
+                float h_val, l_val;
+                do {
+                    h_val = rnd.get_random_gaussian();
+                } while (std::abs(h_val) > 2.0f);
+
+                do {
+                    l_val = rnd.get_random_gaussian();
+                } while (std::abs(l_val) > 2.0f);
+
+                h_ptr[c] = h_val;
+                l_ptr[c] = l_val;
+            }
+        }
+
+        template<typename NET>
+        auto clean_subnet(NET& net) -> decltype(net.clean(), void())
+        {
+            net.clean();
+        }
+        template<typename NET>
+        void clean_subnet(...) {}
+
+        // Internal recurrent modules
+        h_net_type h_net;
+        l_net_type l_net;
+
+        // Initial hidden states (persistent, updated after each forward)
+        resizable_tensor z_h_init;
+        resizable_tensor z_l_init;
+
+        // Dimensions and learning rate
+        long hidden_dim;
+        double learning_rate_multiplier;
+
+        // Temporary computation tensors
+        resizable_tensor z_h_current;
+        resizable_tensor z_l_current;
+        resizable_tensor h_input;
+        resizable_tensor l_input;
+
+        // Saved for one-step gradient backward
+        resizable_tensor last_h_input;
+        resizable_tensor last_l_input;
+
+        resizable_tensor params; // No direct trainable parameters
+    };
+
+    template<typename H_NET, typename L_NET, int N, int T, typename SUBNET>
+    using hrm = add_layer<hrm_<H_NET, L_NET, N, T>, SUBNET>;
+
+    // ----------------------------------------------------------------------------------------
+
+    // Gate network: produces raw logits for expert selection
+    template <long num_experts, template <typename> class DO, typename SUBNET>
+    using gate = fc<num_experts, DO<leaky_relu<fc<num_experts * 8, avg_pool_everything<SUBNET>>>>>;
+
+    struct training_mode_tag {};
+    struct inference_mode_tag {};
+
+    template<
+        typename EXPERT_NET,                    // Expert network architecture
+        long top_e,                             // Number of experts to activate (0 = auto: 20%)
+        typename MODE,                          // Tag-based mode selection (training/inference)
+        template<typename> class TAG,           // Tag for gate input location
+        typename SUBNET                         // Input subnet type
+    >
+    class moe_
+    {
+    public:
+        /*!
+            Mixture of Experts layer with sample-wise expert routing.
+
+            Key features:
+            - Each sample independently selects top-k experts via gating network
+            - Gate produces logits, optional noise added before softmax (training only)
+            - Forward/backward consistency via cached expert selections
+            - Tracks expert usage statistics for monitoring
+
+            Hyperparameters:
+            - noise_scale: Gaussian noise std applied to gate logits (exploration)
+            - usage_update_rate: EMA smoothing for usage statistics
+        !*/
+        explicit moe_() :
+            n_experts(0),
+            noise_scale(0.1f),
+            top_k(top_e),
+            usage_update_rate(0.05f),
+            load_balance_weight(0.01f),
+            learning_rate_multiplier(1.0),
+            cached_batch_size_(0)
+        {
+        }
+
+        moe_(const moe_& other) :
+            n_experts(other.n_experts),
+            noise_scale(other.noise_scale),
+            top_k(other.top_k),
+            usage_update_rate(other.usage_update_rate),
+            load_balance_weight(other.load_balance_weight),
+            learning_rate_multiplier(other.learning_rate_multiplier),
+            expert_usage(other.expert_usage),
+            cached_batch_size_(0)
+        {
+            // Deep copy of expert networks
+            experts.reserve(other.experts.size());
+            for (const auto& expert : other.experts)
+                experts.push_back(expert);
+        }
+
+        moe_& operator=(const moe_& other)
+        {
+            if (this != &other) {
+                n_experts = other.n_experts;
+                noise_scale = other.noise_scale;
+                top_k = other.top_k;
+                usage_update_rate = other.usage_update_rate;
+                load_balance_weight = other.load_balance_weight;
+                learning_rate_multiplier = other.learning_rate_multiplier;
+                expert_usage = other.expert_usage;
+                cached_batch_size_ = 0;
+
+                // Deep copy of expert networks
+                experts.clear();
+                experts.reserve(other.experts.size());
+                for (const auto& expert : other.experts)
+                    experts.push_back(expert);
+            }
+            return *this;
+        }
+
+        /*!
+            SETUP
+                Initializes expert networks based on gate output dimensions.
+                - Number of experts automatically determined from gate output channels
+                - If top_e == 0 (auto mode), activates 20% of experts (minimum 1)
+        !*/
+        template <typename SUBNET_TYPE>
+        void setup(const SUBNET_TYPE& sub) {
+            const tensor& gate_output = layer<TAG>(sub).get_output();
+            long new_n_experts = gate_output.k();
+
+            // Initialize experts if needed
+            if (new_n_experts != n_experts) {
+                n_experts = new_n_experts;
+                expert_usage.resize(n_experts, 0.0f);
+
+                // Create expert network instances
+                experts.clear();
+                experts.reserve(n_experts);
+                for (long i = 0; i < n_experts; ++i)
+                    experts.emplace_back(EXPERT_NET{});
+
+                // Determine top-k activation count
+                if (top_e == 0) {
+                    // Auto mode: activate 20% of experts (minimum 1)
+                    top_k = std::max(1L, static_cast<long>(std::floor(n_experts * 0.2f)));
+                }
+                else {
+                    top_k = std::min(top_e, n_experts);
+                }
+            }
+        }
+
+        /*!
+            FORWARD PASS
+                Sample-wise expert routing with optional exploration noise.
+
+                Process per sample:
+                1. Retrieve gate logits for this sample
+                2. Add Gaussian noise to logits (training only, if noise_scale > 0)
+                3. Apply softmax to obtain expert probabilities
+                4. Select top-k experts with highest probabilities
+                5. Renormalize top-k weights to sum to 1
+                6. Route sample through selected experts with weighted combination
+                7. Cache expert indices and weights for backward pass
+
+                The cache ensures forward/backward consistency: backward uses the
+                exact same experts and weights, even with stochastic noise.
+        !*/
+        template <typename SUBNET_TYPE>
+        void forward(const SUBNET_TYPE& sub, resizable_tensor& output)
+        {
+            const tensor& expert_input = sub.get_output();
+            const tensor& gate_logits = layer<TAG>(sub).get_output();
+
+            DLIB_CASSERT(gate_logits.k() == n_experts &&
+                gate_logits.nr() == 1 && gate_logits.nc() == 1,
+                "\nExpected gate output shape [batch_size, " << n_experts << ", 1, 1]"
+                << "\nReceived shape [" << gate_logits.num_samples() << ", "
+                << gate_logits.k() << ", " << gate_logits.nr() << ", "
+                << gate_logits.nc() << "]");
+
+            const long num_samples = gate_logits.num_samples();
+            const long k = expert_input.k();
+            const long nr = expert_input.nr();
+            const long nc = expert_input.nc();
+            const long sample_size = k * nr * nc;
+            const float* logits_data = gate_logits.host();
+
+            // Initialize output tensor
+            output.copy_size(expert_input);
+            output = 0;
+
+            // Prepare forward pass cache for backward consistency
+            if (std::is_same<MODE, training_mode_tag>::value) {
+                cached_batch_size_ = num_samples;
+                selected_expert_indices_.resize(num_samples);
+                selected_expert_weights_.resize(num_samples);
+                cached_gate_probs_.resize(num_samples);
+            }
+
+            // Track expert usage for monitoring
+            std::vector<float> batch_expert_usage(n_experts, 0.0f);
+            std::vector<float> routing_fraction(n_experts, 0.0f);
+            std::vector<float> gate_prob_sum(n_experts, 0.0f);
+
+            alias_tensor sample_alias(1, k, nr, nc);
+
+            // Process each sample independently with its own expert routing
+            for (long n = 0; n < num_samples; ++n) {
+                const float* sample_logits = logits_data + n * n_experts;
+
+                // Apply optional Gaussian noise to logits before softmax
+                std::vector<float> noisy_logits(n_experts);
+                for (long e = 0; e < n_experts; ++e) {
+                    noisy_logits[e] = sample_logits[e];
+
+                    if (std::is_same<MODE, training_mode_tag>::value && noise_scale > 0) {
+                        static thread_local dlib::rand rnd(std::time(0));
+                        noisy_logits[e] += noise_scale * rnd.get_random_gaussian();
+                    }
+                }
+
+                // Softmax: numerically stable implementation
+                float max_logit = *std::max_element(noisy_logits.begin(), noisy_logits.end());
+
+                std::vector<float> exp_logits(n_experts);
+                float sum_exp = 0.0f;
+                for (long e = 0; e < n_experts; ++e) {
+                    exp_logits[e] = std::exp(noisy_logits[e] - max_logit);
+                    sum_exp += exp_logits[e];
+                }
+
+                std::vector<float> probs(n_experts);
+                for (long e = 0; e < n_experts; ++e) {
+                    probs[e] = exp_logits[e] / sum_exp;
+                    gate_prob_sum[e] += probs[e];
+                }
+                if (std::is_same<MODE, training_mode_tag>::value) {
+                    cached_gate_probs_[n] = probs;
+                }
+
+                // Select top-k experts by probability
+                std::vector<std::pair<float, size_t>> expert_scores;
+                expert_scores.reserve(n_experts);
+                for (long e = 0; e < n_experts; ++e)
+                    expert_scores.emplace_back(probs[e], e);
+
+                std::partial_sort(expert_scores.begin(),
+                    expert_scores.begin() + top_k,
+                    expert_scores.end(),
+                    [](const auto& a, const auto& b) { return a.first > b.first; });
+
+                // Renormalize top-k weights to sum to 1
+                float sum_weights = 0.0f;
+                for (long i = 0; i < top_k; ++i)
+                    sum_weights += expert_scores[i].first;
+
+                // Handle degenerate case (should be extremely rare with softmax)
+                if (sum_weights < 1e-8f) {
+                    sum_weights = top_k;
+                    for (long i = 0; i < top_k; ++i)
+                        expert_scores[i].first = 1.0f;
+                }
+
+                for (long i = 0; i < top_k; ++i)
+                    expert_scores[i].first /= sum_weights;
+
+                // Cache selection for backward pass
+                if (std::is_same<MODE, training_mode_tag>::value) {
+                    selected_expert_indices_[n].resize(top_k);
+                    selected_expert_weights_[n].resize(top_k);
+
+                    for (long i = 0; i < top_k; ++i) {
+                        selected_expert_indices_[n][i] = expert_scores[i].second;
+                        selected_expert_weights_[n][i] = expert_scores[i].first;
+                        routing_fraction[expert_scores[i].second] += 1.0f;
+                    }
+                }
+
+                // Zero-copy views into input and output tensors
+                const long sample_offset = n * sample_size;
+                auto sample_input = sample_alias(expert_input, sample_offset);
+                auto sample_output = sample_alias(output, sample_offset);
+
+                // Route through selected experts and accumulate weighted outputs
+                for (long i = 0; i < top_k; ++i) {
+                    const size_t expert_idx = expert_scores[i].second;
+                    const float weight = expert_scores[i].first;
+
+                    experts[expert_idx].forward(sample_input);
+                    const auto& expert_out = experts[expert_idx].get_output();
+
+                    tt::add(1, sample_output, weight, expert_out);
+
+                    batch_expert_usage[expert_idx] += weight;
+                }
+            }
+
+            // Update exponential moving average of expert usage (for monitoring)
+            if (std::is_same<MODE, training_mode_tag>::value) {
+                for (long e = 0; e < n_experts; ++e) {
+                    routing_fraction[e] /= num_samples;
+                    gate_prob_sum[e] /= num_samples;
+                }
+
+                load_balance_loss_ = 0.0f;
+                for (long e = 0; e < n_experts; ++e) {
+                    load_balance_loss_ += routing_fraction[e] * gate_prob_sum[e];
+                }
+                load_balance_loss_ *= n_experts * load_balance_weight;
+
+                cached_routing_fraction_ = routing_fraction;
+                cached_gate_prob_avg_ = gate_prob_sum;
+
+                if (usage_update_rate > 0) {
+                    for (long e = 0; e < n_experts; ++e) {
+                        float avg_usage = batch_expert_usage[e] / num_samples;
+                        expert_usage[e] = (1.0f - usage_update_rate) * expert_usage[e] +
+                            usage_update_rate * avg_usage;
+                    }
+                }
+            }
+        }
+
+        /*!
+            BACKWARD PASS
+                Backpropagates gradients through cached expert selections.
+
+                Process per sample:
+                1. Retrieve cached expert indices and weights from forward pass
+                2. For each selected expert:
+                   a. Scale incoming gradient by expert's weight
+                   b. Backpropagate through expert network
+                   c. Accumulate expert's input gradient
+
+                Note: Gradients automatically flow back to gate network through
+                Dlib's computational graph without explicit implementation here.
+        !*/
+        template <typename SUBNET_TYPE>
+        void backward(const tensor& gradient_input, SUBNET_TYPE& sub, tensor& params_grad)
+        {
+            tensor& expert_input_grad = sub.get_gradient_input();
+            expert_input_grad = 0;
+
+            const tensor& expert_input = sub.get_output();
+            const long num_samples = cached_batch_size_;
+            const long k = gradient_input.k();
+            const long nr = gradient_input.nr();
+            const long nc = gradient_input.nc();
+            const long sample_size = k * nr * nc;
+
+            DLIB_CASSERT(num_samples == (long)selected_expert_indices_.size(),
+                "Forward pass cache missing or invalid in backward pass");
+
+            alias_tensor sample_alias(1, k, nr, nc);
+
+            for (long n = 0; n < num_samples; ++n) {
+                const long sample_offset = n * sample_size;
+
+                auto sample_grad = sample_alias(gradient_input, sample_offset);
+                auto sample_input = sample_alias(expert_input, sample_offset);
+                auto sample_input_grad = sample_alias(expert_input_grad, sample_offset);
+
+                // Use cached expert routing from forward pass
+                const auto& expert_indices = selected_expert_indices_[n];
+                const auto& expert_weights = selected_expert_weights_[n];
+
+                for (size_t i = 0; i < expert_indices.size(); ++i) {
+                    const size_t expert_idx = expert_indices[i];
+                    const float weight = expert_weights[i];
+
+                    // Scale gradient by expert weight
+                    resizable_tensor weighted_grad;
+                    weighted_grad.copy_size(sample_grad);
+
+                    const float* src_data = gradient_input.host() + sample_offset;
+                    float* dst_data = weighted_grad.host();
+                    std::transform(src_data, src_data + sample_size, dst_data,
+                        [weight](float v) { return v * weight; });
+
+                    // Backpropagate through expert
+                    experts[expert_idx].back_propagate_error(sample_input, weighted_grad);
+                    const auto& expert_grad = experts[expert_idx].get_gradient_input();
+
+                    // Accumulate gradient
+                    tt::add(1, sample_input_grad, 1, expert_grad);
+                }
+            }
+
+            if (std::is_same<MODE, training_mode_tag>::value && load_balance_weight > 0
+                && learning_rate_multiplier > 0) {
+                tensor& gate_grad = layer<TAG>(sub).get_gradient_input();
+                float* gate_grad_data = gate_grad.host();
+
+                // Compute gradient of load balancing loss w.r.t. gate logits
+                // Loss: L_aux = alpha * N * sum_e (f_e * P_e)
+                // where f_e = routing fraction, P_e = gate probability average
+                //
+                // Gradient through softmax: dL/dz_j = P_j * (w_j - sum_e (w_e * P_e))
+                // where w_e = df_e + dP_e = routing_fraction[e] + gate_prob_avg[e]
+
+                for (long n = 0; n < num_samples; ++n) {
+                    const auto& gate_probs = cached_gate_probs_[n];
+
+                    // First pass: compute weighted sum for softmax normalization term
+                    float sum_weighted_probs = 0.0f;
+                    for (long e = 0; e < n_experts; ++e) {
+                        float w_e = (cached_routing_fraction_[e] + cached_gate_prob_avg_[e]) *
+                            n_experts * load_balance_weight / num_samples;
+                        sum_weighted_probs += w_e * gate_probs[e];
+                    }
+
+                    // Second pass: apply complete softmax gradient formula
+                    for (long e = 0; e < n_experts; ++e) {
+                        float w_e = (cached_routing_fraction_[e] + cached_gate_prob_avg_[e]) *
+                            n_experts * load_balance_weight / num_samples;
+
+                        // Gradient component: P_j * (w_j - sum_e (w_e * P_e))
+                        gate_grad_data[n * n_experts + e] += gate_probs[e] * (w_e - sum_weighted_probs);
+                    }
+                }
+            }
+        }
+
+        void clean()
+        {
+            for (auto& expert : experts)
+                clean_subnet(expert);
+        }
+
+        const tensor& get_layer_params() const { return params; }
+        tensor& get_layer_params() { return params; }
+
+        void set_learning_rate_multiplier(double val)
+        {
+            learning_rate_multiplier = val;
+            for (auto& expert : experts)
+                set_all_learning_rate_multipliers(expert, val);
+        }
+        double get_learning_rate_multiplier() const { return learning_rate_multiplier; }
+
+        // Direct access to expert networks (for inspection/debugging)
+        EXPERT_NET& get_expert(size_t idx) {
+            DLIB_CASSERT(idx < experts.size(), "Expert index out of bounds");
+            return experts[idx];
+        }
+
+        const EXPERT_NET& get_expert(size_t idx) const {
+            DLIB_CASSERT(idx < experts.size(), "Expert index out of bounds");
+            return experts[idx];
+        }
+
+        // Accessors
+        long num_experts() const { return n_experts; }
+        long num_active_experts() const { return top_k; }
+        bool is_training_mode() const { return std::is_same<MODE, training_mode_tag>::value; }
+        const std::vector<float>& get_expert_usage() const { return expert_usage; }
+        float get_load_balance_loss() const { return load_balance_loss_; }
+
+        friend void serialize(const moe_& item, std::ostream& out)
+        {
+            serialize("moe_", out);
+            serialize(item.n_experts, out);
+            serialize(item.top_k, out);
+            serialize(item.noise_scale, out);
+            serialize(item.usage_update_rate, out);
+            serialize(item.load_balance_weight, out);
+            serialize(item.learning_rate_multiplier, out);
+            serialize(item.experts, out);
+            serialize(item.expert_usage, out);
+        }
+
+        friend void deserialize(moe_& item, std::istream& in)
+        {
+            std::string version;
+            deserialize(version, in);
+            if (version != "moe_")
+                throw serialization_error("Incorrect version '" + version + "' found while deserializing moe_.");
+
+            deserialize(item.n_experts, in);
+            deserialize(item.top_k, in);
+            deserialize(item.noise_scale, in);
+            deserialize(item.usage_update_rate, in);
+            deserialize(item.load_balance_weight, in);
+            deserialize(item.learning_rate_multiplier, in);
+            deserialize(item.experts, in);
+            deserialize(item.expert_usage, in);
+
+            item.cached_batch_size_ = 0;
+        }
+
+        friend std::ostream& operator<<(std::ostream& out, const moe_& item)
+        {
+            const bool is_training = std::is_same<MODE, training_mode_tag>::value;
+            out << "moe\t ("
+                << "experts=" << item.n_experts
+                << ", top_k=" << item.top_k
+                << ", mode=" << (is_training ? "train" : "infer")
+                << ", noise=" << item.noise_scale
+                << ", lb=" << item.load_balance_weight
+                << ")";
+            out << " learning_rate_mult=" << item.learning_rate_multiplier;
+            return out;
+        }
+
+        friend void to_xml(const moe_& item, std::ostream& out)
+        {
+            const bool is_training = std::is_same<MODE, training_mode_tag>::value;
+            out << "<moe"
+                << " num_experts='" << item.n_experts << "'"
+                << " top_k='" << item.top_k << "'"
+                << " noise_scale='" << item.noise_scale << "'"
+                << " usage_update_rate='" << item.usage_update_rate << "'"
+                << " load_balance_weight='" << item.load_balance_weight << "'"
+                << " learning_rate_mult='" << item.learning_rate_multiplier << "'"
+                << " mode='" << (is_training ? "training" : "inference") << "'"
+                << ">\n";
+            for (size_t i = 0; i < item.experts.size(); ++i)
+            {
+                out << "<expert index='" << i << "'>\n";
+                to_xml(item.experts[i], out);
+                out << "</expert>\n";
+            }
+            out << "<expert_usage>";
+            for (size_t i = 0; i < item.expert_usage.size(); ++i)
+            {
+                if (i > 0) out << " ";
+                out << item.expert_usage[i];
+            }
+            out << "</expert_usage>\n";
+            out << "</moe>\n";
+        }
+
+    private:
+        template<typename NET>
+        auto clean_subnet(NET& net) -> decltype(net.clean(), void())
+        {
+            net.clean();
+        }
+
+        template<typename NET>
+        void clean_subnet(...)
+        {
+            // No-op if network doesn't have clean() method
+        }
+
+        // Configuration
+        long n_experts;                     // Number of expert networks
+        float noise_scale;                  // Gaussian noise std for exploration
+        long top_k;                         // Number of experts to activate per sample
+        float usage_update_rate;            // EMA smoothing rate for usage tracking
+        float load_balance_weight;          // Auxiliary loss coefficient for expert load balancing
+        double learning_rate_multiplier;
+
+        // Expert networks
+        std::vector<EXPERT_NET> experts;
+        std::vector<float> expert_usage;     // Usage statistics (for monitoring)
+
+        // Forward/backward cache (training mode only)
+        std::vector<std::vector<size_t>> selected_expert_indices_;  // [sample][top_k]
+        std::vector<std::vector<float>> selected_expert_weights_;   // [sample][top_k]
+        std::vector<std::vector<float>> cached_gate_probs_;
+        std::vector<float> cached_routing_fraction_;
+        std::vector<float> cached_gate_prob_avg_;
+        long cached_batch_size_;
+        float load_balance_loss_;
+
+		resizable_tensor params; // Unused
+    };
+
+    template<
+        typename EXPERT_NET,
+        long top_e,
+        typename MODE,
+        template<typename> class TAG,
+        typename SUBNET
+    >
+    using moe = add_layer<moe_<EXPERT_NET, top_e, MODE, TAG, SUBNET>, SUBNET>;
+
+    // This is a drop-in replacement for standard transformer feed-forward layers
+    template<
+        typename EXPERT_NET,
+        long num_experts,
+        long top_e,
+        typename MODE,
+        template <typename> class DO,
+        typename SUBNET
+    >
+    using moe_ffn = add_prev8<moe<EXPERT_NET, top_e, MODE, tag9, rms_norm<skip8<
+        tag9<gate<num_experts, DO, tag8<SUBNET>>>>>>>;
+}
+
+#endif // DLIB_DNN_TRANSFORMER_H_
\ No newline at end of file
diff --git a/dlib/dnn/transformer_abstract.h b/dlib/dnn/transformer_abstract.h
new file mode 100644
index 0000000000..80a2a71e44
--- /dev/null
+++ b/dlib/dnn/transformer_abstract.h
@@ -0,0 +1,940 @@
+﻿// Copyright (C) 2015  Davis E. King (davis@dlib.net)
+// License: Boost Software License   See LICENSE.txt for the full license.
+#undef DLIB_DNN_TRANSFORMER_ABSTRACT_H_
+#ifdef DLIB_DNN_TRANSFORMER_ABSTRACT_H_
+
+#include "layers_abstract.h"
+
+/*!
+    The transformer.h file contains specialized layers and building blocks designed
+    specifically for transformer architectures and attention mechanisms.
+
+    Two architectural variants are provided:
+
+    1. CANONICAL TRANSFORMER (namespace canonical_transformer):
+       - Separate Q, K, V projections using linear_no_bias
+       - Explicit reshape operations
+       - More modular, easier to understand
+       - Suitable for fine-grained control
+
+    2. FUSED TRANSFORMER (namespace fused_transformer):
+       - Combined QKV projection
+       - Extraction-based separation
+       - Optimized for performance and memory efficiency
+!*/
+
+namespace dlib
+{
+
+    template <long d_k_>
+    class scale_weights_ : public multiply_
+    {
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                This layer scales inputs by 1/sqrt(d_k), which is the standard scaling
+                factor used in transformer attention mechanisms.
+
+                This scaling prevents the dot products in attention from growing too large,
+                which would push the softmax function into regions with small gradients.
+
+                The scaling factor is: 1/sqrt(d_k) where d_k is the key/query dimension.
+
+            TEMPLATE PARAMETERS
+                - d_k: The dimension of keys/queries in the attention mechanism
+        !*/
+    };
+
+    template <long d_k, typename SUBNET>
+    using scale_weights = add_layer<scale_weights_<d_k>, SUBNET>;
+
+    // ----------------------------------------------------------------------------------------
+
+    template <long num_embeddings, long embedding_length, typename SUBNET>
+    using token_embeddings = some_template_expression;
+    /*!
+        WHAT THIS OBJECT REPRESENTS
+            Converts discrete token IDs to continuous embedding vectors with positional
+            encoding.
+
+        ARCHITECTURE FLOW
+            1. Token embedding lookup: maps token IDs to dense vectors
+            2. Positional encoding: adds learnable position information
+
+        TEMPLATE PARAMETERS
+            - num_embeddings: vocabulary size (number of unique tokens)
+            - embedding_length: embedding dimension (typically d_model)
+
+        INPUT/OUTPUT SHAPES
+            Input:  (batch_size, 1, seq_len, 1) - matrix of token IDs (long integers)
+            Output: (batch_size, 1, seq_len, embedding_length) - embedding vectors
+
+        TYPICAL USAGE
+            using my_model =
+                loss_multiclass_log<fc<vocab_size,
+                transformer_stack<6, gelu, dropout_10, seq_len, d_model, num_heads,
+                token_embeddings<vocab_size, d_model,
+                input<matrix<int, 0, 1>>>>>>;
+
+        NOTES
+            - Input tokens must be integers in range [0, num_embeddings)
+            - embedding_length should match d_model for transformer architectures
+    !*/
+
+    namespace canonical_transformer
+    {
+        /*!
+            WHAT THIS REPRESENTS
+                Standard transformer implementation with separate Q, K, V projections.
+
+                This architecture uses three independent linear transformations followed
+                by reshape operations to create the multi-head attention structure.
+
+                Advantages:
+                - Conceptually clearer and more modular
+                - Easier to debug and understand
+                - Each projection can be independently modified or analyzed
+
+                Use cases:
+                - When fine-grained control over each projection is needed
+                - Prototyping new attention mechanisms
+        !*/
+
+        template <long seq_len, long d_model, long num_heads, typename SUBNET>
+        using query = some_template_expression;
+        /*!
+            requires
+                - d_model % num_heads == 0
+            ensures
+                - Creates Query projection for multi-head attention
+                - Output shape: (batch, num_heads, seq_len, d_model/num_heads)
+        !*/
+
+        template <long seq_len, long d_model, long num_heads, typename SUBNET>
+        using key = some_template_expression;
+        /*!
+            requires
+                - d_model % num_heads == 0
+            ensures
+                - Creates Key projection for multi-head attention
+                - Output shape: (batch, num_heads, seq_len, d_model/num_heads)
+        !*/
+
+        template <long seq_len, long d_model, long num_heads, typename SUBNET>
+        using value = some_template_expression;
+        /*!
+            requires
+                - d_model % num_heads == 0
+            ensures
+                - Creates Value projection for multi-head attention
+                - Output shape: (batch, num_heads, seq_len, d_model/num_heads)
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long seq_len, long d_model, long num_heads, typename SUBNET>
+        using multihead_attention = some_template_expression;
+        /*!
+            WHAT THIS REPRESENTS
+                This template implements a complete multi-head self-attention mechanism with
+                causal masking, rotary positional embeddings (RoPE), and post-attention
+                normalization.
+
+                The attention mechanism computes:
+                    Attention(Q, K, V) = softmax((Q*K^T) / sqrt(d_k)) * V
+
+                Where Q, K, V are the Query, Key, and Value projections respectively.
+
+            ARCHITECTURE FLOW
+                1. RMS normalization
+                2. Input is split into Query, Key, and Value projections
+                3. RoPE is applied to Query and Key for positional encoding
+                4. Scaled dot-product attention: Q*K^T / sqrt(d_head)
+                5. Causal masking (tril_mask) prevents attending to future positions
+                6. Softmax normalization across the sequence dimension
+                7. Attention weights multiply Values: softmax(scores)*V
+                8. Reshape and project back to d_model dimension
+                9. Residual connection with input                
+
+            TEMPLATE PARAMETERS
+                - ACT: activation function template (e.g., silu, gelu, relu)
+                - DO: dropout policy template (e.g., dropout_10, multiply for inference)
+                - seq_len: maximum sequence length (context window size)
+                - d_model: model dimension (must be divisible by num_heads)
+                - num_heads: number of parallel attention heads
+
+            INPUT/OUTPUT SHAPES
+                Input:  (batch_size, 1, seq_len, d_model)
+                Output: (batch_size, 1, seq_len, d_model)
+
+            NOTES
+                - Uses causal masking (tril_mask) for autoregressive generation
+                - RoPE is applied to both Query and Key for relative position encoding
+                - The d_head per head is d_model / num_heads
+                - Attention scores are scaled by 1/sqrt(d_head) for stability
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, typename SUBNET>
+        using std_ffn = some_template_expression;
+        /*!
+            WHAT THIS REPRESENTS
+                Standard position-wise feed-forward network used in transformer blocks.
+                Implements a two-layer MLP with one intermediate activation and dropout
+                regularization.
+
+            ARCHITECTURE FLOW
+                1. Linear expansion: d_model => 4*d_model
+                2. Activation function (ACT)
+                3. Linear projection: 4*d_model => d_model
+                4. Dropout (DO) for regularization
+
+            TEMPLATE PARAMETERS
+                - ACT: activation function template (e.g., gelu, silu, relu)
+                - DO: dropout policy template (dropout_10 in training, multiply in inference)
+                - d_model: model dimension (input and output size)
+
+            INPUT/OUTPUT SHAPES
+                Input:  (batch_size, 1, seq_len, d_model)
+                Output: (batch_size, 1, seq_len, d_model)
+
+            NOTES
+                - Expansion factor is fixed at 4x (standard transformer practice)
+                - Single dropout applied after final projection
+                - No normalization inside FFN (handled by transformer_block)
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, typename SUBNET>
+        using swiglu = some_template_expression;
+        /*!
+            WHAT THIS REPRESENTS
+                SwiGLU (Swish-Gated Linear Unit) feed-forward network, an alternative to
+                standard FFN with improved performance on language modeling tasks.
+
+            REFERENCE
+                Noam Shazeer, "GLU Variants Improve Transformer" (https://arxiv.org/abs/2002.05202)
+
+            ARCHITECTURE FLOW
+                1. Split into two branches from input:
+                   - Gate branch: W1 projection => ACT activation
+                   - Linear branch: V projection
+                2. Element-wise multiplication of branches (Hadamard product)
+                3. Final projection: W2 => d_model
+                4. Dropout for regularization
+
+            TEMPLATE PARAMETERS
+                - ACT: activation function template (typically silu for true SwiGLU)
+                - DO: dropout policy template (dropout_10 in training, multiply in inference)
+                - d_model: model dimension (input and output size)
+
+            INPUT/OUTPUT SHAPES
+                Input:  (batch_size, 1, seq_len, d_model)
+                Output: (batch_size, 1, seq_len, d_model)
+
+            NOTES
+                - Uses (8*d_model)/3 for hidden dimension (equivalent parameters to 4x expansion)
+                - More expressive than standard FFN due to gating mechanism
+                - Single dropout applied after final projection
+                - ACT is typically silu (Swish) for standard SwiGLU
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long seq_len, long d_model, long num_heads, typename SUBNET>
+        using transformer_block = some_template_expression;
+        /*!
+            WHAT THIS REPRESENTS
+                A complete transformer decoder block combining multi-head self-attention and
+                feed-forward network with residual connections and RMS normalization.
+
+            ARCHITECTURE FLOW
+                Input => MultiHeadAttention => FFN => Output
+                Each sub-layer uses the pattern: RMSNorm(input + SubLayer(input))
+
+            TEMPLATE PARAMETERS
+                - ACT: activation function template (e.g., silu, gelu, relu)
+                - DO: dropout policy template (e.g., dropout_10, multiply for inference)
+                - seq_len: maximum sequence length (context window size)
+                - d_model: model dimension (must be divisible by num_heads)
+                - num_heads: number of parallel attention heads
+
+            INPUT/OUTPUT SHAPES
+                Input:  (batch_size, 1, seq_len, d_model)
+                Output: (batch_size, 1, seq_len, d_model)
+
+            NOTES
+                - Decoder-only architecture with causal masking
+                - Uses RMS normalization for improved training stability
+                - Cannot be used directly with repeat<> due to multiple template parameters
+                  (use transformer_stack<> instead for stacking multiple blocks)
+        !*/
+
+        template<long num_layers, template <typename> class ACT, template <typename> class DO,
+            long seq_len, long d_model, long num_heads, typename SUBNET>
+        using transformer_stack = some_template_expression;
+        /*!
+            WHAT THIS REPRESENTS
+                Stacks multiple transformer blocks using compile-time recursion.
+
+            TEMPLATE PARAMETERS
+                - num_layers: number of transformer blocks to stack (model depth)
+                - ACT: activation function template
+                - DO: dropout policy template
+                - seq_len: maximum sequence length
+                - d_model: model dimension
+                - num_heads: number of attention heads
+
+            TYPICAL USAGE
+                Create a 6-layer transformer:
+
+                using my_model =
+					loss_multiclass_log<fc<vocab_size, rms_norm<
+                    transformer_stack<6, silu, dropout_10, 512, 256, 8,
+                    token_embeddings<vocab_size, 256,
+                    input<matrix<int, 0, 1>>>>>>>;
+
+            NOTES
+                - Each layer has independent trainable parameters
+                - Equivalent to manually nesting num_layers transformer_block definitions
+        !*/
+
+    } // namespace std_transformer
+
+    namespace fused_transformer
+    {
+
+        /*!
+            WHAT THIS REPRESENTS
+                Optimized transformer implementation with fused QKV projections,
+                sometimes referred to as "kernel-fused" attention in the literature
+
+                This architecture uses a single fc_no_bias layer to compute all Q, K, V
+                projections simultaneously (dimension: d_model => 3*d_model), then uses
+                extract layers to separate them. This approach leverages Dlib's fc_ layer
+                optimizations and reduces memory access patterns.
+
+                Advantages:
+                - Single matrix multiplication instead of three
+                - Reduced memory bandwidth requirements
+                - Better GPU utilization through larger operations
+
+                Performance considerations:
+                - Typically 10-30% faster than standard implementation
+                - Lower memory footprint during forward/backward passes
+                - Better cache utilization
+        !*/
+
+        template <long num_heads, long d_model, typename SUBNET>
+        using query = some_template_expression;
+        /*!
+            requires
+                - d_model % num_heads == 0
+            ensures
+                - Extracts Query projection from fused QKV output
+                - Uses extract layer for efficient separation
+                - Output shape: (batch, num_heads, d_model/num_heads, 1)
+        !*/
+
+        template <long num_heads, long d_model, typename SUBNET>
+        using key = some_template_expression;
+        /*!
+            requires
+                - d_model % num_heads == 0
+            ensures
+                - Extracts Key projection from fused QKV output
+                - Uses extract layer for efficient separation
+                - Output shape: (batch, num_heads, 1, d_model/num_heads)
+        !*/
+
+        template <long num_heads, long d_model, typename SUBNET>
+        using value = some_template_expression;
+        /*!
+            requires
+                - d_model % num_heads == 0
+            ensures
+                - Extracts Value projection from fused QKV output
+                - Uses extract layer for efficient separation
+                - Output shape: (batch, num_heads, d_model/num_heads, 1)
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, long num_heads, typename SUBNET>
+        using multihead_attention = some_template_expression;
+        /*!
+            WHAT THIS OBJECT REPRESENTS
+                Optimized multi-head self-attention using fused QKV projection.
+                Functionally equivalent to canonical version but with better performance.
+
+            ARCHITECTURE FLOW
+                1. RMS normalization
+                2. Single fused projection: d_model => 3*d_model for Q, K, V
+                3. Extract Q, K, V from combined output
+                4. Compute attention with causal masking
+                5. Concatenate heads and project
+                6. Residual connection and normalization
+
+            TEMPLATE PARAMETERS
+                - ACT: activation function (for compatibility)
+                - DO: dropout policy
+                - d_model: model dimension
+                - num_heads: number of attention heads
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, typename SUBNET>
+        using std_ffn = some_template_expression;
+        /*!
+            WHAT THIS REPRESENTS
+                Fused implementation of standard feed-forward network using fc layers with
+                automatic dimension flattening for better BLAS/GEMM utilization.
+
+            ARCHITECTURE FLOW
+                1. fc layer: d_model => 4*d_model (with dimension flattening)
+                2. Activation function (ACT)
+                3. fc layer: 4*d_model => d_model
+                4. Dropout (DO)
+                5. extract operation to restore proper tensor dimensions
+
+            TEMPLATE PARAMETERS
+                - ACT: activation function template (e.g., gelu, silu, relu)
+                - DO: dropout policy template (dropout_10 in training, multiply in inference)
+                - d_model: model dimension (input and output size)
+
+            INPUT/OUTPUT SHAPES
+                Input:  (batch_size, 1, seq_len, d_model)
+                Output: (batch_size, 1, seq_len, d_model)
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long d_model, typename SUBNET>
+        using swiglu = some_template_expression;
+        /*!
+            WHAT THIS REPRESENTS
+                Fused implementation of SwiGLU using fc layers with automatic dimension
+                flattening for better BLAS/GEMM utilization.
+
+            REFERENCE
+                Noam Shazeer, "GLU Variants Improve Transformer" (https://arxiv.org/abs/2002.05202)
+
+            ARCHITECTURE FLOW
+                1. fc projections with dimension flattening
+                2. Split into gate and linear branches
+                3. Element-wise multiplication
+                4. Final fc projection with extraction
+                5. Dropout for regularization
+
+            TEMPLATE PARAMETERS
+                - ACT: activation function template (typically silu)
+                - DO: dropout policy template
+                - d_model: model dimension
+
+            INPUT/OUTPUT SHAPES
+                Input:  (batch_size, 1, seq_len, d_model)
+                Output: (batch_size, 1, seq_len, d_model)
+        !*/
+
+        template <template <typename> class ACT, template <typename> class DO,
+            long seq_len, long d_model, long num_heads, typename SUBNET>
+        using transformer_block = some_template_expression;
+        /*!
+            Same interface as canonical_transformer::transformer_block but with
+            optimized implementation using fused operations.
+        !*/
+
+        template<long num_layers, template <typename> class ACT, template <typename> class DO,
+            long seq_len, long d_model, long num_heads, typename SUBNET>
+        using transformer_stack = some_template_expression;
+        /*!
+            Same interface as canonical_transformer::transformer_stack but with
+            optimized implementation using fused operations.
+        !*/
+
+    } // namespace fused_transformer
+
+    // ----------------------------------------------------------------------------------------
+
+    template<
+        typename H_NET,
+        typename L_NET,
+        int N,
+        int T
+    >
+    class hrm_
+    {
+        /*!
+            REQUIREMENTS ON TEMPLATE ARGUMENTS
+                - H_NET must be a valid dlib network type (complete network with input layer)
+                - L_NET must be a valid dlib network type (complete network with input layer)
+                - N > 0 (number of high-level cycles)
+                - T > 0 (number of low-level steps per cycle)
+
+            WHAT THIS OBJECT REPRESENTS
+                This object implements a Hierarchical Reasoning Model (HRM) layer, a dual-
+                recurrent architecture inspired by hierarchical and multi-timescale processing
+                in cognitive systems.
+
+                The model consists of two interdependent recurrent modules:
+                    - High-level module (H_NET): executes N slow cycles for abstract planning
+                      and global reasoning
+                    - Low-level module (L_NET): executes T fast iterations per H-cycle for
+                      detailed, rapid computations
+
+                During forward propagation, the network performs N×T total recurrent steps
+                with hierarchical convergence. For each of the N high-level cycles, the
+                low-level module performs T iterations, converging locally before the
+                high-level module updates.
+
+                Mathematical formulation:
+                    For each high-level cycle n E [0, N):
+                        For each low-level step t E [0, T):
+                            z_L^{n,t} = f_L(z_L^{prev} + z_H^n + x0)
+                        z_H^{n+1} = f_H(z_H^n + z_L^{n,T-1})
+                    Output: z_H^N
+
+                where:
+                    - x0 is the input with positional encodings
+                    - z_H and z_L are the hidden states of the H and L modules
+                    - f_H and f_L are the recurrent transformations (H_NET and L_NET)
+
+                The backward pass uses a one-step gradient approximation, computing gradients
+                only through the final update of each module. This provides O(1) memory
+                complexity instead of O(N×T) required by full Backpropagation Through Time
+                (BPTT), while maintaining training stability.
+
+                Key features:
+                    - Hierarchical processing with temporal separation of concerns
+                    - Memory-efficient training (O(1) vs O(N×T) for BPTT)
+                    - Biologically-plausible recurrent computation
+                    - Suitable for complex reasoning tasks requiring iterative refinement
+
+                References:
+                    - Wang et al., "Hierarchical Reasoning Model", arXiv:2506.21734
+                    - Bai et al., "Deep Equilibrium Models", NeurIPS 2019
+        !*/
+
+    public:
+
+        hrm_();
+        /*!
+            ensures
+                - #seq_len == 0
+                - #hidden_dim == 0
+                - Internal networks (h_net, l_net) are default-constructed
+        !*/
+
+        template <typename SUBNET>
+        void setup(
+            const SUBNET& sub
+        );
+        /*!
+            ensures
+                - Initializes the internal H and L networks based on input dimensions
+                - Initializes hidden state vectors z_h_init and z_l_init with truncated
+                  normal distribution (std=1, truncated at ±2)
+                - Stores sequence length and hidden dimension from input
+        !*/
+
+        template <typename SUBNET>
+        void forward(
+            const SUBNET& sub,
+            resizable_tensor& output
+        );
+        /*!
+            ensures
+                - Performs hierarchical recurrent computation:
+                    * N high-level cycles, each with T low-level steps
+                    * Total of N×T recurrent iterations
+                    * All but the last iteration executed without gradient tracking
+                    * Final iteration computes gradients for one-step approximation
+                - #output contains the final high-level state z_H^{NT}
+                - output has the same dimensions as sub.get_output()
+        !*/
+
+        template <typename SUBNET>
+        void backward(
+            const tensor& gradient_input,
+            SUBNET& sub,
+            tensor& params_grad
+        );
+        /*!
+            ensures
+                - Performs one-step gradient approximation:
+                    * Backpropagates through final H-module update
+                    * Backpropagates through final L-module update
+                    * Accumulates gradients to input
+                - Memory complexity: O(1) instead of O(N×T) for full BPTT
+        !*/
+
+        const h_net_type& get_h_net() const;
+        h_net_type& get_h_net();
+        const l_net_type& get_l_net() const;
+        l_net_type& get_l_net();
+        /*!
+            ensures
+                - Returns a reference to the high-level (H) or low-level (L) network
+                - Allows inspection and manipulation of internal modules
+        !*/
+
+        const tensor& get_layer_params() const;
+        tensor& get_layer_params();
+        /*!
+            ensures
+                - Returns the parameters tensor
+                - Note: hrm_ has no direct trainable parameters; all parameters
+                  are contained within H_NET and L_NET
+        !*/
+    };
+
+    template<typename H_NET, typename L_NET, int N, int T, typename SUBNET>
+    using hrm = add_layer<hrm_<H_NET, L_NET, N, T>, SUBNET>;    
+
+    // ----------------------------------------------------------------------------------------
+
+    // Tags and type definitions for Mixture of Experts (MoE)
+    struct training_mode_tag {};
+    struct inference_mode_tag {};
+
+    template <long num_experts, template <typename> class DO, typename SUBNET>
+    using gate = some_template_expression;
+    /*!
+        WHAT THIS OBJECT REPRESENTS
+            Gating network that learns to route inputs to experts in a Mixture of Experts model.
+            Produces raw logits for expert selection using a learned hierarchical function
+            with multiple fully-connected layers and dropout for regularization.
+
+        TEMPLATE PARAMETERS
+            - num_experts: number of experts to route between
+            - DO: dropout policy template (e.g., dropout_10 for training, multiply for inference)
+
+        OUTPUT
+            Tensor with shape (batch_size, num_experts, 1, 1) containing raw logits
+            (unnormalized scores) for expert selection. The MoE layer applies softmax
+            to these logits to obtain routing probabilities.
+    !*/
+
+    template<
+        typename EXPERT_NET,
+        long top_e,
+        typename MODE,
+        template<typename> class TAG,
+        typename SUBNET
+    >
+    class moe_
+    {
+        /*!
+            REQUIREMENTS ON TEMPLATE PARAMETERS
+                - EXPERT_NET must be a valid Dlib network type that can process tensors
+                  through its forward() and back_propagate_error() methods
+                - top_e >= 0 (use 0 for automatic selection of 20% of available experts)
+                - MODE must be either training_mode_tag or inference_mode_tag
+                - TAG must be a valid layer tag template (e.g., tag9, tag8, etc.)
+                - The gate network referenced by TAG must output a tensor with shape
+                  (batch_size, num_experts, 1, 1) containing raw logits
+
+            WHAT THIS OBJECT REPRESENTS
+                This layer implements a Mixture of Experts (MoE) architecture with per-sample
+                dynamic routing. Each input sample in a batch independently selects and routes
+                through its own subset of specialized expert networks. This enables:
+
+                - Conditional computation: only top-k experts are activated per sample,
+                  reducing computational cost while increasing model capacity
+                - Per-sample routing: each sample can route to different experts based on
+                  learned gating probabilities, enabling sample-specific specialization
+                - Load balancing: auxiliary loss encourages balanced expert utilization
+                  to prevent expert collapse
+                - Mode-specific behavior: training mode includes exploration noise and
+                  usage tracking, while inference mode is deterministic
+
+            ROUTING MECHANISM
+                Unlike batch-wide routing that selects the same experts for all samples, this
+                implementation performs independent routing for each sample:
+
+                For each sample in the batch:
+                1. Read that sample's gate logits from layer<TAG>(sub).get_output()
+                2. Add Gaussian exploration noise to logits (training mode only)
+                3. Apply softmax to obtain expert probabilities
+                4. Select top-k experts with highest probabilities
+                5. Renormalize selected expert weights to sum to 1
+                6. Route sample through selected experts with weighted combination
+                7. Cache expert indices and weights for backward consistency
+
+                This per-sample routing allows different samples to utilize different experts,
+                providing fine-grained specialization and better model capacity utilization.
+
+            FORWARD PASS DETAILS
+                The forward pass processes each sample independently:
+
+                1. Extract gate logits for each sample from layer<TAG>(sub).get_output()
+                2. For each sample:
+                   a. Add exploration noise to logits: logits += N(0, noise_scale^2)
+                      (training mode only, noise_scale = 0.1 by default)
+                   b. Apply numerically stable softmax to obtain probabilities
+                   c. Select top-k experts with highest probabilities
+                   d. Renormalize selected expert weights to sum to 1
+                   e. Route sample through selected experts
+                   f. Accumulate weighted expert outputs: output = sum(w_i * expert_i(input))
+                3. Track expert usage statistics for monitoring and load balancing
+                4. Compute auxiliary load balancing loss (training mode only)
+
+            BACKWARD PASS DETAILS
+                The backward pass uses cached expert selections for consistency:
+
+                1. For each sample:
+                   a. Retrieve cached expert indices and weights from forward pass
+                   b. For each activated expert:
+                      - Scale incoming gradient by expert's weight
+                      - Backpropagate through expert network
+                      - Accumulate weighted expert gradient to input gradient
+                2. If load_balance_weight > 0 (training mode):
+                   a. Compute auxiliary load balancing loss gradient
+                   b. Add gradient to gate network via layer<TAG>(sub).get_gradient_input()
+                   c. Uses complete softmax gradient formula with normalization term
+
+                Note: Using cached selections ensures forward/backward consistency even with
+                stochastic noise during training.
+
+            LOAD BALANCING
+                To prevent expert collapse (where few experts dominate), an auxiliary loss
+                encourages balanced expert utilization:
+
+                    L_aux = alpha * N * sum_e (f_e * P_e)
+
+                where:
+                - alpha = load_balance_weight (default: 0.01)
+                - N = number of experts
+                - f_e = fraction of samples routed to expert e in current batch
+                - P_e = average gate probability for expert e across batch
+
+                This loss is minimized when:
+                - f_e = 1/N (uniform routing fraction)
+                - P_e = 1/N (uniform average probability)
+
+                The gradient flows back to the gate network, incentivizing more balanced
+                routing decisions. Higher load_balance_weight increases balancing pressure
+                but may reduce model performance if too strong.
+
+            EXPLORATION NOISE
+                During training, Gaussian noise is added to gate logits before softmax:
+
+                    noisy_logits[e] = logits[e] + N(0, noise_scale^2)
+
+                This encourages exploration of different expert combinations and prevents
+                premature convergence to suboptimal routing patterns. Typical values:
+                - noise_scale = 0.1 (default): moderate exploration
+                - noise_scale = 0.0: no exploration (deterministic routing)
+                - noise_scale = 0.2-0.3: aggressive exploration (use early in training)
+
+            TEMPLATE PARAMETERS
+                - EXPERT_NET: network architecture for each expert (e.g., feed-forward block)
+                - top_e: number of experts to activate per sample
+                  * If top_e == 0: auto-select 20% of experts (minimum 1)
+                  * If top_e > 0: activate exactly top_e experts (capped at num_experts)
+                - MODE: compile-time mode tag (training_mode_tag or inference_mode_tag)
+                - TAG: layer tag for accessing gate network output
+        !*/
+
+    public:
+        explicit moe_();
+        /*!
+            ensures
+                - #num_experts() == 0 (experts created during setup() based on gate)
+                - #num_active_experts() == top_e (or will be auto-selected if top_e == 0)
+                - Initializes hyperparameters with default values:
+                    * noise_scale = 0.1 (Gaussian noise std for exploration)
+                    * usage_update_rate = 0.05 (EMA smoothing for usage tracking)
+                    * load_balance_weight = 0.01 (auxiliary loss coefficient)
+                - cached_batch_size_ = 0 (no forward pass cache yet)
+        !*/
+
+        moe_(const moe_& other);
+        /*!
+            ensures
+                - Performs deep copy of all expert networks and configuration
+                - Copies: n_experts, noise_scale, top_k, usage_update_rate,
+                  load_balance_weight, expert_usage
+                - Does NOT copy forward/backward cache (cached_batch_size_ = 0)
+        !*/
+
+        moe_& operator=(const moe_& other);
+        /*!
+            ensures
+                - Performs deep copy assignment
+                - Same semantics as copy constructor
+        !*/
+
+        template <typename SUBNET_TYPE>
+        void setup(const SUBNET_TYPE& sub);
+        /*!
+            requires
+                - SUBNET_TYPE implements the SUBNET interface
+                - layer<TAG>(sub).get_output() returns a tensor with shape (N, E, 1, 1)
+                  where N is batch size and E is the number of experts
+            ensures
+                - Initializes the MoE layer based on gate network output:
+                    * Creates E expert network instances (E = gate output dimension k)
+                    * #num_experts() == E
+                    * If top_e == 0: #num_active_experts() == max(1, floor(E * 0.2))
+                    * If top_e > 0: #num_active_experts() == min(top_e, E)
+                - Initializes expert_usage vector with zeros
+                - Called automatically by Dlib during first forward pass
+        !*/
+
+        template <typename SUBNET_TYPE>
+        void forward(const SUBNET_TYPE& sub, resizable_tensor& output);
+        /*!
+            requires
+                - setup(sub) has been called at least once
+                - sub.get_output() is a valid tensor that experts can process
+                - layer<TAG>(sub).get_output() has shape (batch_size, num_experts(), 1, 1)
+                  containing raw logits (unnormalized scores)
+            ensures
+                - Performs per-sample expert routing and computation:
+                    * For each sample in the batch:
+                      - Extracts that sample's gate logits
+                      - Adds Gaussian exploration noise if MODE == training_mode_tag
+                        with noise ~ N(0, noise_scale^2)
+                      - Applies numerically stable softmax to obtain probabilities
+                      - Selects top-k experts with highest probabilities
+                      - Renormalizes selected expert weights to sum to 1
+                      - Routes sample through selected experts
+                      - Combines expert outputs: output = sum(w_i * expert_i(input))
+                - #output has same dimensions as sub.get_output()
+                - If MODE == training_mode_tag:
+                    * Caches expert indices and weights for backward consistency
+                    * Updates expert usage statistics using EMA
+                    * Computes auxiliary load balancing loss
+                - Only num_active_experts() experts activated per sample (sparse)
+        !*/
+
+        template <typename SUBNET_TYPE>
+        void backward(
+            const tensor& gradient_input,
+            SUBNET_TYPE& sub,
+            tensor& params_grad
+        );
+        /*!
+            requires
+                - setup(sub) has been called
+                - forward(sub, output) was previously called with the same sub
+                - gradient_input has same dimensions as the forward() output
+            ensures
+                - Backpropagates gradients through the MoE layer:
+                    * For each sample:
+                      - Uses cached expert indices and weights from forward pass
+                      - Scales incoming gradient by expert weight
+                      - Backpropagates through activated experts only
+                      - Accumulates weighted expert gradients to sub.get_gradient_input()
+                - If MODE == training_mode_tag and load_balance_weight > 0:
+                    * Computes auxiliary load balancing loss gradient
+                    * Uses complete softmax gradient formula:
+                      dL/dz_j = P_j * (w_j - sum_e(w_e * P_e))
+                      where w_e = (routing_fraction[e] + gate_prob_avg[e])
+                    * Adds gradient to layer<TAG>(sub).get_gradient_input()
+                    * This gradient flows back to gate network via autodiff
+                - Only backpropagates through num_active_experts() per sample
+        !*/
+
+        void clean();
+        /*!
+            ensures
+                - Calls clean() on each expert network if they implement this method
+                - Prepares the network for inference or serialization
+                - Typically called after training completes
+        !*/
+
+        EXPERT_NET& get_expert(size_t idx);
+        const EXPERT_NET& get_expert(size_t idx) const;
+        /*!
+            requires
+                - idx < num_experts()
+            ensures
+                - Returns reference to the expert network at index idx
+        !*/
+
+        long num_experts() const;
+        /*!
+            ensures
+                - Returns the total number of expert networks in this MoE layer
+        !*/
+
+        long num_active_experts() const;
+        /*!
+            ensures
+                - Returns the number of experts activated per sample (top-k value)
+                - If top_e == 0: returns max(1, floor(num_experts() * 0.2))
+                - If top_e > 0: returns min(top_e, num_experts())
+        !*/
+
+        bool is_training_mode() const;
+        /*!
+            ensures
+                - Returns true if MODE == training_mode_tag
+                - Returns false if MODE == inference_mode_tag
+        !*/
+
+        const std::vector<float>& get_expert_usage() const;
+        /*!
+            ensures
+                - Returns exponential moving average of expert usage statistics
+                - Vector size == num_experts()
+                - Values represent average expert utilization across recent batches
+                - Range: [0.0, 1.0+] where:
+                    * 0.0 = expert never used
+                    * 1.0 / num_experts() = perfectly balanced usage
+                    * Values >> 1.0 / num_experts() = expert overused
+                - Updated only in training mode when usage_update_rate > 0
+        !*/
+
+        float get_load_balance_loss() const;
+        /*!
+            ensures
+                - Returns the auxiliary load balancing loss from the last forward pass
+                - Only meaningful in training mode
+                - Loss = load_balance_weight * num_experts * sum_e(f_e * P_e)
+                - Used for monitoring expert balance quality
+                - Returns 0.0 if not in training mode or load_balance_weight == 0
+        !*/
+
+        friend void serialize(const moe_& item, std::ostream& out);
+        friend void deserialize(moe_& item, std::istream& in);
+        /*!
+            ensures
+                - Provides serialization support for the MoE layer
+                - Saves/loads: n_experts, top_k, noise_scale, usage_update_rate,
+                  load_balance_weight, expert networks, expert_usage
+        !*/
+
+        friend std::ostream& operator<<(std::ostream& out, const moe_& item);
+        friend void to_xml(const moe_& item, std::ostream& out);
+        /*!
+            ensures
+                - Writes human-readable summary to output stream
+                - Format: "moe (experts=N, top_k=K, mode=train/infer, noise=X, lb=Y)"
+        !*/
+    };
+
+    template<
+        typename EXPERT_NET,
+        long top_e,
+        typename MODE,
+        template<typename> class TAG,
+        typename SUBNET
+    >
+    using moe = add_layer<moe_<EXPERT_NET, top_e, MODE, TAG, SUBNET>, SUBNET>;
+
+    template<
+        typename EXPERT_NET,
+        long num_experts,
+        long top_e,
+        typename MODE,
+        template <typename> class DO,
+        typename SUBNET
+    >
+    using moe_ffn = some_template_expression;
+    /*!
+        WHAT THIS OBJECT REPRESENTS
+            A complete Mixture-of-Experts feed-forward layer that serves as a drop-in
+            replacement for standard transformer feed-forward blocks. Combines gate network,
+            expert routing, RMS normalization, and skip connection in a single template.
+    !*/
+}
+
+#endif // DLIB_DNN_TRANSFORMER_H_
\ No newline at end of file
diff --git a/dlib/dnn/visitors.h b/dlib/dnn/visitors.h
index d9f7401974..f9dc4f2d58 100644
--- a/dlib/dnn/visitors.h
+++ b/dlib/dnn/visitors.h
@@ -1095,6 +1095,23 @@ namespace dlib
                 end_node();
                 update(i);
             }
+
+            template <long max_steps, typename U, typename E>
+            void operator()(size_t i, const add_layer<adaptive_computation_time_<max_steps>, U, E>&)
+            {
+                start_node(i, "adaptive_computation_time");
+                out << " | {max_steps|{" << max_steps << "}}";
+                end_node();
+                update(i);
+            }
+
+            template <typename U, typename E>
+            void operator()(size_t i, const add_layer<rotary_positional_embedding_, U, E>&)
+            {
+                start_node(i, "rotary_positional_embedding");
+                end_node();
+                update(i);
+            }
             
             template <typename T, typename U, typename E>
             void operator()(size_t i, const add_layer<T, U, E>&)
diff --git a/dlib/geometry/rectangle.h b/dlib/geometry/rectangle.h
index 1f760e8dc7..16017115ac 100644
--- a/dlib/geometry/rectangle.h
+++ b/dlib/geometry/rectangle.h
@@ -148,6 +148,11 @@ namespace dlib
         const point br_corner (
         ) const { return point(right(), bottom()); }
        
+#if defined(_MSC_VER)
+#pragma warning(push)
+#pragma warning(disable: 4723)  // potential divide by 0
+#endif
+
         unsigned long width (
         ) const 
         { 
@@ -172,6 +177,10 @@ namespace dlib
             return width()*height();
         }
 
+#if defined(_MSC_VER)
+#pragma warning(pop)
+#endif
+
         bool is_empty (
         ) const { return (t > b || l > r); }
 
@@ -748,35 +757,26 @@ namespace dlib
 
 // ----------------------------------------------------------------------------------------
 
-    // Circumvent what appears to be a bug in Visual Studio 2019's optimizer
-    // (see: https://forum.juce.com/t/warning-in-the-lastest-vs2019/38267)
-#if defined (_MSC_VER)
-#pragma warning ( push )
-#pragma warning ( disable: 4723 )
-#endif
     inline rectangle set_rect_area (
         const rectangle& rect,
         unsigned long area
     )
     {
         DLIB_ASSERT(area > 0);
+        const unsigned long rect_area = rect.area();
 
-        if (rect.area() == 0)
+        if (rect_area == 0)
         {
-            // In this case we will make the output rectangle a square with the requested
-            // area.
             unsigned long scale = std::round(std::sqrt(area));
             return centered_rect(rect, scale, scale);
         }
         else
-        {
-            const double scale = std::sqrt(area/static_cast<double>(rect.area()));
-            return centered_rect(rect, std::lround(rect.width()*scale), std::lround(rect.height()*scale));
+        {            
+            const double scale = std::sqrt(area / static_cast<double>(rect_area));
+            return centered_rect(rect, std::lround(rect.width() * scale),
+                std::lround(rect.height() * scale));
         }
     }
-#if defined (_MSC_VER)
-#pragma warning ( pop )
-#endif
 
 // ----------------------------------------------------------------------------------------
 
diff --git a/dlib/misc_api/misc_api_kernel_1.cpp b/dlib/misc_api/misc_api_kernel_1.cpp
index a40d83e020..d66e2b600e 100644
--- a/dlib/misc_api/misc_api_kernel_1.cpp
+++ b/dlib/misc_api/misc_api_kernel_1.cpp
@@ -139,6 +139,23 @@ namespace dlib
         }
     }
 
+// ----------------------------------------------------------------------------------------
+    
+    BOOL WINAPI console_ctrl_handler(DWORD ctrl_type)
+    {
+        if (ctrl_type == CTRL_C_EVENT)
+        {
+            signal_handler::trigger_interrupt();
+            return TRUE;
+        }
+        return FALSE;
+    }
+
+    void signal_handler::setup()
+    {
+        SetConsoleCtrlHandler(console_ctrl_handler, TRUE);
+    }
+
 // ----------------------------------------------------------------------------------------
     
 }
diff --git a/dlib/misc_api/misc_api_kernel_1.h b/dlib/misc_api/misc_api_kernel_1.h
index 636d306966..02da006b8a 100644
--- a/dlib/misc_api/misc_api_kernel_1.h
+++ b/dlib/misc_api/misc_api_kernel_1.h
@@ -11,6 +11,7 @@
 #include "misc_api_kernel_abstract.h"
 #include "../algs.h"
 #include <string>
+#include <atomic>
 #include "../uintn.h"
 
 namespace dlib
@@ -98,6 +99,55 @@ namespace dlib
         const std::string& dir
     );
 
+// ----------------------------------------------------------------------------------------
+
+    struct signal_handler
+    {
+        /*!
+            ensures
+                - registers a signal handler for SIGINT (Linux/macOS) or CTRL_C_EVENT (Windows)
+                - when triggered, #is_triggered() will return true
+        !*/
+        static void setup();
+
+        /*!
+            ensures
+                - returns true if the user has pressed Ctrl+C since setup() was called or since
+                  the last reset()
+        !*/
+        static bool is_triggered()
+        {
+            return get_flag().load();
+        }
+
+        /*!
+            ensures
+                - resets the internal triggered flag to false
+        !*/
+        static void reset()
+        {
+            get_flag().store(false);
+        }
+
+        /*!
+            ensures
+                - sets the internal triggered flag to true.
+                - this function is typically called by the underlying OS-specific signal handler
+        !*/
+        static void trigger_interrupt()
+        {
+            get_flag().store(true);
+        }
+
+    private:
+        // Helper to access the singleton atomic flag safely
+        static std::atomic<bool>& get_flag()
+        {
+            static std::atomic<bool> flag(false);
+            return flag;
+        }
+    };
+
 // ----------------------------------------------------------------------------------------
 
 }
diff --git a/dlib/misc_api/misc_api_kernel_2.cpp b/dlib/misc_api/misc_api_kernel_2.cpp
index 1812fd1757..809d6d303a 100644
--- a/dlib/misc_api/misc_api_kernel_2.cpp
+++ b/dlib/misc_api/misc_api_kernel_2.cpp
@@ -11,6 +11,7 @@
 #include <sys/time.h>
 #include <sys/stat.h>
 #include <sys/types.h>
+#include <csignal>
 #include <errno.h>
 
 namespace dlib
@@ -115,6 +116,22 @@ namespace dlib
     }
 
 // ----------------------------------------------------------------------------------------
+    
+    void posix_signal_handler(int signal)
+    {
+        if (signal == SIGINT)
+        {
+            signal_handler::trigger_interrupt();
+        }
+    }
+
+    void signal_handler::setup()
+    {
+        std::signal(SIGINT, posix_signal_handler);
+    }
+
+// ----------------------------------------------------------------------------------------
+
 }
 
 #endif // DLIB_POSIX
diff --git a/dlib/misc_api/misc_api_kernel_2.h b/dlib/misc_api/misc_api_kernel_2.h
index 86e8a7f5bc..8320456859 100644
--- a/dlib/misc_api/misc_api_kernel_2.h
+++ b/dlib/misc_api/misc_api_kernel_2.h
@@ -11,6 +11,7 @@
 #include "misc_api_kernel_abstract.h"
 #include "../algs.h"
 #include <string>
+#include <atomic>
 #include "../uintn.h"
 
 namespace dlib
@@ -69,6 +70,55 @@ namespace dlib
         const std::string& dir
     );
 
+// ----------------------------------------------------------------------------------------
+
+    struct signal_handler
+    {
+        /*!
+            ensures
+                - registers a signal handler for SIGINT (Linux/macOS) or CTRL_C_EVENT (Windows)
+                - when triggered, #is_triggered() will return true
+        !*/
+        static void setup();
+
+        /*!
+            ensures
+                - returns true if the user has pressed Ctrl+C since setup() was called or since
+                  the last reset()
+        !*/
+        static bool is_triggered()
+        {
+            return get_flag().load();
+        }
+
+        /*!
+            ensures
+                - resets the internal triggered flag to false
+        !*/
+        static void reset()
+        {
+            get_flag().store(false);
+        }
+
+        /*!
+            ensures
+                - sets the internal triggered flag to true
+                - this function is typically called by the underlying OS-specific signal handler
+        !*/
+        static void trigger_interrupt()
+        {
+            get_flag().store(true);
+        }
+
+    private:
+        // Helper to access the singleton atomic flag safely
+        static std::atomic<bool>& get_flag()
+        {
+            static std::atomic<bool> flag(false);
+            return flag;
+        }
+    };
+
 // ----------------------------------------------------------------------------------------
 
 }
diff --git a/dlib/test/dnn.cpp b/dlib/test/dnn.cpp
index c61ffc70f9..da8af97a17 100644
--- a/dlib/test/dnn.cpp
+++ b/dlib/test/dnn.cpp
@@ -991,6 +991,69 @@ namespace
         dlog << LINFO << "ACT network tests completed successfully";
     }
 
+// ----------------------------------------------------------------------------------------
+
+    void test_rope_layer()
+    {
+        print_spinner();
+
+        const long num_samples = 2;
+        const long num_heads = 3;
+        const long seq_len = 8;
+        const long d_head = 16;
+
+        resizable_tensor input(num_samples, num_heads, seq_len, d_head);
+        resizable_tensor cos_cache(1, 1, seq_len, d_head / 2);
+        resizable_tensor sin_cache(1, 1, seq_len, d_head / 2);
+
+        tt::tensor_rand rnd(1234);
+        rnd.fill_uniform(input);
+
+        // Initialize cos/sin cache
+        float* cos_ptr = cos_cache.host();
+        float* sin_ptr = sin_cache.host();
+        for (long pos = 0; pos < seq_len; ++pos)
+        {
+            for (long i = 0; i < d_head / 2; ++i)
+            {
+                const float angle = pos * 0.1f * (i + 1);
+                const long idx = pos * (d_head / 2) + i;
+                cos_ptr[idx] = std::cos(angle);
+                sin_ptr[idx] = std::sin(angle);
+            }
+        }
+
+        resizable_tensor output_cpu_a(input);
+        cpu::apply_rotary_positional_embedding(false, output_cpu_a, cos_cache, sin_cache);  // forward
+        output_cpu_a *= 2;
+        cpu::apply_rotary_positional_embedding(true, output_cpu_a, cos_cache, sin_cache);   // backward
+        DLIB_TEST(max(abs(mat(output_cpu_a) - mat(input) * 2)) < 1e-5);
+
+        resizable_tensor output_cpu_b(input);
+        cpu::apply_rotary_positional_embedding(false, output_cpu_b, cos_cache, sin_cache);  // forward
+        cpu::apply_rotary_positional_embedding(true, output_cpu_b, cos_cache, sin_cache);   // backward
+        DLIB_TEST(max(abs(mat(output_cpu_b) - mat(input))) < 1e-5);
+
+        // Check that the CPU and the CUDA implementation are equivalent
+#ifdef DLIB_USE_CUDA
+        resizable_tensor input_cuda(input);
+        resizable_tensor output_cuda_a(input_cuda);
+        resizable_tensor output_cuda_b(input_cuda);
+
+        cuda::apply_rotary_positional_embedding(false, output_cuda_a, cos_cache, sin_cache);
+        output_cuda_a *= 2;
+        cuda::apply_rotary_positional_embedding(true, output_cuda_a, cos_cache, sin_cache);
+
+        cuda::apply_rotary_positional_embedding(false, output_cuda_b, cos_cache, sin_cache);
+        cuda::apply_rotary_positional_embedding(true, output_cuda_b, cos_cache, sin_cache);
+
+        DLIB_TEST(max(abs(mat(output_cpu_a) - mat(output_cuda_a))) < 1e-5);
+        DLIB_TEST(max(abs(mat(output_cpu_b) - mat(output_cuda_b))) < 1e-5);
+#endif
+
+        dlog << LINFO << "RoPE tests completed successfully";
+    }
+
 // ----------------------------------------------------------------------------------------
 
     void test_basic_tensor_ops()
@@ -2607,6 +2670,13 @@ namespace
             auto res = test_layer(l);
             DLIB_TEST_MSG(res, res);
         }
+        {
+            print_spinner();
+            rotary_positional_embedding_ l;
+            auto res = test_layer(l);
+            DLIB_TEST_MSG(res, res);
+        }
+
     }
 
 // ----------------------------------------------------------------------------------------
@@ -5305,6 +5375,7 @@ void test_multm_prev()
             test_embeddings();
             test_tril();
             test_adaptive_computation_time_network();
+            test_rope_layer();
             test_basic_tensor_ops();
             test_resize_to();
             test_layers();
diff --git a/examples/CMakeLists.txt b/examples/CMakeLists.txt
index 1232d58b09..2bbffd1219 100644
--- a/examples/CMakeLists.txt
+++ b/examples/CMakeLists.txt
@@ -148,6 +148,9 @@ add_gui_example(dnn_yolo_train_ex)
 add_gui_example(dnn_self_supervised_learning_ex)
 add_example(slm_basic_train_ex)
 add_example(slm_advanced_train_ex)
+add_example(slm_mixture_of_experts_ex)
+add_example(slm_chatbot_ex)
+add_example(slm_vision_transformer_hybrid_ex)
 add_gui_example(3d_point_cloud_ex)
 add_example(bayes_net_ex)
 add_example(bayes_net_from_disk_ex)
diff --git a/examples/slm_advanced_train_ex.cpp b/examples/slm_advanced_train_ex.cpp
index 4ed6ffec22..9f29a5bf5a 100644
--- a/examples/slm_advanced_train_ex.cpp
+++ b/examples/slm_advanced_train_ex.cpp
@@ -1,40 +1,31 @@
 ﻿/*!
     @file slm_advanced_train_ex.cpp
-    @brief Transformer-based text training/generation
-
-    This program implements a complete training and generation pipeline for a
-    Transformer-based text compression system.
-    The model features:
-
-    1. Rotary Positional Embeddings (RoPE) for enhanced positional encoding
-    2. Multi-head self-attention with efficient memory handling
-    3. Mixture-of-Experts architecture for specialized processing
-    4. BPE tokenization with custom vocabulary
-    5. Full training/generation/verification workflow
-
-    Key capabilities demonstrated:
-    - Perfect memorization and reproduction of training text
-    - Efficient autoregressive generation
-    - Byte-level verification of reconstructed text
-
-    References:
-    [1] Vaswani et al., "Attention Is All You Need" (Transformer architecture)
-        arXiv:1706.03762
-    [2] Su et al., "RoFormer: Enhanced Transformer with Rotary Position Embedding"
-        arXiv:2104.09864
-    [3] Shazeer et al., "Outrageously Large Neural Networks: The Sparsely-Gated
-        Mixture-of-Experts Layer" (MoE architecture) arXiv:1701.06538
+    @brief Modern transformer language model with optimized training pipeline
+
+    This program demonstrates a production-ready transformer-based language model
+    implementation using contemporary architectural patterns and training techniques.
+    The example showcases efficient text tokenization, specialized loss computation
+    for autoregressive generation, and streamlined transformer construction using
+    Dlib's high-level building blocks.
+
+    Key features:
+    - BPE tokenization for efficient vocabulary management and text encoding
+    - Specialized loss function (loss_cross_entropy_per_logit) optimized for
+      next-token prediction without requiring sequence flattening
+    - Modern transformer architecture using transformer_stack for compact definition
+    - Token-level input/output for direct sequence modeling
+    - Complete training, generation, and verification pipeline
 
     Usage modes:
-    --train         Train model on enwiki dataset
-    --generate      Generate text from trained model
-    --verify        Compare generated output with original
-    --tokenize-only Only perform tokenization step
+    --train      Train model on internal dataset with BPE tokenization
+    --generate   Generate text autoregressively from trained model
+    --verify     Validate generated output byte-for-byte against original
 
     Configuration:
-    - Adjust template parameters in transformer_config for model architecture
-    - Modify training parameters in main() for optimization
-    - Set sequence length and memory limits according to available hardware
+    - Adjust transformer_config template parameters for model size
+    - Modify learning rate, batch size, and training epochs via command-line
+    - Control dataset size with --max-bytes or --percent options
+    - Set sequence length based on available GPU memory
 !*/
 #include <iostream>
 #include <string>
@@ -44,311 +35,48 @@
 #include <random>
 #include <fstream>
 #include <chrono>
-#include <algorithm>
 #include <csignal>
+
+#include <dlib/dnn.h>
 #include <dlib/data_io.h>
 #include <dlib/cmd_line_parser.h>
-#include <dlib/misc_api.h>
 #include <dlib/tokenizer/bpe_tokenizer.h>
-#include <dlib/serialize.h>
-#include <dlib/dnn.h>
+#include <dlib/misc_api.h>
+
+// Include internal dataset
+#include "slm_data.h"
 
 using namespace std;
 using namespace dlib;
 
 namespace dlib
 {
-    /*!
-        @class rotary_positional_embedding_
-        @brief Implements Rotary Positional Embeddings (RoPE) for transformers
-
-        This layer applies rotary positional embeddings to queries and keys in
-        self-attention layers, providing relative positional information without
-        absolute position embeddings.
-
-        The implementation follows the RoPE formulation from [2], where positions
-        are encoded through rotation matrices applied to pairs of dimensions.
-    !*/
-    class rotary_positional_embedding_ {
-    public:
-        explicit rotary_positional_embedding_() = default;
-
-        template <typename SUBNET>
-        void setup(const SUBNET& sub) {
-            // Precompute the rotation angles and their trigonometric values
-            seq_len = sub.get_output().nr();
-            d_head = sub.get_output().nc();
-            compute_rotation_angles();
-            precompute_trigonometric_values();
-        }
-
-        template <typename SUBNET>
-        void forward(const SUBNET& sub, resizable_tensor& output) {
-            const tensor& input = sub.get_output();
-            output.copy_size(input);
-            tt::copy_tensor(false, output, 0, input, 0, input.k());
-
-            // Apply rotary embedding to the output
-            apply_rotary_embedding(output);
-        }
-
-        template <typename SUBNET>
-        void backward(
-            const tensor& gradient_input,
-            SUBNET& sub,
-            tensor& params_grad
-        ) {
-            tensor& prev = sub.get_gradient_input();
-            resizable_tensor grad_output;
-            grad_output.copy_size(gradient_input);
-            tt::copy_tensor(false, grad_output, 0, gradient_input, 0, gradient_input.k());
-
-            // Apply the inverse rotation to the gradient (transpose of the rotation matrix)
-            apply_rotary_embedding(grad_output, true);
-            tt::copy_tensor(true, prev, 0, grad_output, 0, grad_output.k());
-        }
-
-        const tensor& get_layer_params() const { return params; }
-        tensor& get_layer_params() { return params; }
-
-        friend void serialize(const rotary_positional_embedding_& item, std::ostream& out) {
-            std::string version = "rotary_positional_embedding_";
-            dlib::serialize(version, out);
-            dlib::serialize(item.seq_len, out);
-            dlib::serialize(item.d_head, out);
-            dlib::serialize(item.angles, out);
-            dlib::serialize(item.cos_values, out);
-            dlib::serialize(item.sin_values, out);
-        }
-
-        friend void deserialize(rotary_positional_embedding_& item, std::istream& in) {
-            std::string version;
-            dlib::deserialize(version, in);
-            if (version != "rotary_positional_embedding_")
-                throw serialization_error("Unexpected version found while deserializing rotary_positional_embedding_.");
-            dlib::deserialize(item.seq_len, in);
-            dlib::deserialize(item.d_head, in);
-            dlib::deserialize(item.angles, in);
-            dlib::deserialize(item.cos_values, in);
-            dlib::deserialize(item.sin_values, in);
-        }
-
-        friend std::ostream& operator<<(std::ostream& out, const rotary_positional_embedding_& item) {
-            out << "rotary_positional_embedding";
-            out << " (d_head=" << item.d_head << ", seq_len=" << item.seq_len << ")";
-            return out;
-        }
-
-        friend void to_xml(const rotary_positional_embedding_& item, std::ostream& out)
-        {
-            out << "<rotary_positional_embedding"
-                << " d_head='" << item.d_head << "'"
-                << " seq_len='" << item.seq_len << "'"
-                << "/>\n";
-        }
-
-    protected:
-        void compute_rotation_angles() {
-            // Following the original RoPE paper formulation
-            const float base = 10000.0f;
-            const long half_dim = d_head / 2;
-            angles.set_size(seq_len, half_dim);
-
-            for (long pos = 0; pos < seq_len; ++pos) {
-                for (long i = 0; i < half_dim; ++i) {
-                    float inv_freq = std::pow(base, -2.0f * (i + 0.5f) / d_head);
-                    angles(pos, i) = pos * inv_freq;
-                }
-            }
-        }
-
-        void precompute_trigonometric_values() {
-            // Precompute cos and sin for all angles
-            cos_values.set_size(angles.nr(), angles.nc());
-            sin_values.set_size(angles.nr(), angles.nc());
-
-            for (long i = 0; i < angles.size(); ++i) {
-                cos_values(i) = std::cos(angles(i));
-                sin_values(i) = std::sin(angles(i));
-            }
-        }
-
-        template <typename tensor_type>
-        void apply_rotary_embedding(
-            tensor_type& x,
-            bool is_backward = false
-        ) const {
-            DLIB_CASSERT(x.nc() == d_head, "Input dimension must match d_head param");
-            DLIB_CASSERT(x.nr() == seq_len, "Sequence length must match seq_len param");
-
-            const long batch_size = x.num_samples();
-            const long num_heads = x.k();
-            const bool is_odd = (d_head % 2 != 0);
-            const long rot_dim = is_odd ? d_head - 1 : d_head;
-            
-            auto* ptr = x.host();
-            const long stride = seq_len * d_head;
-
-            for (long n = 0; n < batch_size; ++n) {
-                for (long h = 0; h < num_heads; ++h) {
-                    auto* x_ptr = ptr + (n * num_heads + h) * stride;
-
-                    for (long pos = 0; pos < seq_len; ++pos) {
-                        const float* cos = &cos_values(pos, 0);
-                        const float* sin = &sin_values(pos, 0);
-
-                        for (long i = 0; i < rot_dim; i += 2) {
-                            const float x0 = x_ptr[pos * d_head + i];
-                            const float x1 = x_ptr[pos * d_head + i + 1];
-
-                            if (!is_backward) {
-                                x_ptr[pos * d_head + i] = x0 * cos[i / 2] - x1 * sin[i / 2];
-                                x_ptr[pos * d_head + i + 1] = x0 * sin[i / 2] + x1 * cos[i / 2];
-                            }
-                            else {
-                                x_ptr[pos * d_head + i] = x0 * cos[i / 2] + x1 * sin[i / 2];
-                                x_ptr[pos * d_head + i + 1] = -x0 * sin[i / 2] + x1 * cos[i / 2];
-                            }
-                        }
-                    }
-                }
-            }
-        }
-
-    private:
-        long seq_len, d_head;       // Sequence length and dimension of each head
-        matrix<float> angles;       // Precomputed rotation angles (seq_len x d_head/2)
-        matrix<float> cos_values;   // Precomputed cosine values
-        matrix<float> sin_values;   // Precomputed sine values
-        resizable_tensor params;    // Empty tensor (no learnable parameters)
-    };
-
-    // Helper to easily add RoPE to a network
-    template <typename SUBNET>
-    using rope = add_layer<rotary_positional_embedding_, SUBNET>;
-
-    template <long d_k_>
-    class scale_weights_ : public multiply_ {
-    public:
-        explicit scale_weights_() : multiply_(1.0f / std::sqrt(static_cast<float>(d_k_))) {}
-    };
-
-    template <long d_k, typename SUBNET>
-    using scale_weights = add_layer<scale_weights_<d_k>, SUBNET>;
-
-    // Attention mechanism component extractors
-    template <long seq_len, long d_model, long num_heads, typename SUBNET>
-    using query = reshape_to<num_heads, seq_len, d_model / num_heads, linear_no_bias<d_model, SUBNET>>;
-
-    template <long seq_len, long d_model, long num_heads, typename SUBNET>
-    using key = reshape_to<num_heads, seq_len, d_model / num_heads, linear_no_bias<d_model, SUBNET>>;
-
-    template <long seq_len, long d_model, long num_heads, typename SUBNET>
-    using value = reshape_to<num_heads, seq_len, d_model / num_heads, linear_no_bias<d_model, SUBNET>>;
-
-    /*!
-        This layer implements multi-head self-attention.
-
-        Template parameters:
-            - ACT: Activation function type
-            - DO: Dropout layer type for regularization
-            - d_model: Model dimension (must be divisible by num_heads)
-            - num_heads: Number of attention heads
-    !*/
-    template <template <typename> class ACT, template <typename> class DO,
-        long seq_len, long d_model, long num_heads, typename SUBNET>
-    using multihead_attention =
-        rms_norm<add_prev1<
-        DO<linear_no_bias<d_model, reshape_to<1, seq_len, d_model,
-        multm_prev2<softmaxm<tril_mask<
-        scale_weights<d_model / num_heads,
-        multm_prev3<
-        // Apply RoPE to queries & keys
-        rope<query<seq_len, d_model, num_heads, skip1<
-        tag3<transpose<
-        rope<key<seq_len, d_model, num_heads, skip1<
-        tag2<value<seq_len, d_model, num_heads,
-        tag1<SUBNET>>>>>>>>>>>>>>>>>>>>>;
-
-    template <template <typename> class DO, long num_experts, typename SUBNET>
-    using moe_router = softmax<fc<num_experts, avg_pool_everything<
-        DO<leaky_relu<fc<16, DO<leaky_relu<fc<32,
-        DO<fc<16, SUBNET>>>>>>>>>>>;
-
-    // Single expert network
-    template <template <typename> class ACT, template <typename> class DO,
-        long d_model, typename SUBNET>
-    using expert = DO<linear<d_model, DO<ACT<linear<d_model * 4, SUBNET>>>>>;
-
-    // Combines expert outputs using router probabilities
-    // Performs weighted sum of experts with residual connection
-    template <template <typename> class ACT, template <typename> class DO,
-        long d_model, typename SUBNET>
-    using weighted_sum_of_experts = add_prev<itag3,
-        mult_prev<itag1, extract<0, 1, 1, 1, skip6<         // Expert 1
-        itag1<expert<ACT, DO, d_model, iskip<
-        itag3<mult_prev<itag2, extract<1, 1, 1, 1, skip6<   // Expert 2
-        itag2<expert<ACT, DO, d_model,
-        itag0<SUBNET>>>>>>>>>>>>>>;
-
-    // Complete MoE feed-forward layer
-    template <template <typename> class ACT, template <typename> class DO,
-        long d_model, typename SUBNET>
-    using moe_feed_forward =
-        rms_norm<add_prev5<
-        weighted_sum_of_experts<ACT, DO, d_model, skip5<
-        tag6<moe_router<DO, 2,
-        tag5<SUBNET>>>>>>>;
-
-    /*!
-        This defines a standard transformer encoder block with self-attention
-        followed by a feed-forward network, each with residual connections.
-
-        Template parameters:
-            - ACT: Activation function type
-            - DO: Dropout layer type for regularization
-            - seq_len: Sequence length (number of tokens/patches)
-            - d_model: Model dimension
-            - num_heads: Number of attention heads
-    !*/
-    template <template <typename> class ACT, template <typename> class DO,
-        long seq_len, long d_model, long num_heads, typename SUBNET>
-    using transformer_block =
-        moe_feed_forward<ACT, DO, d_model,
-        multihead_attention<ACT, DO, seq_len, d_model, num_heads, SUBNET>>;
-
-    // Positional Embeddings
-    template <template <typename> class DO, long num_embeddings, long embedding_length, typename SUBNET>
-    using positional_embeddings = rms_norm<DO<positional_encodings<
-        embeddings<num_embeddings, embedding_length, SUBNET>>>>;
-
-    // Classification Head   
-    template <long num_logits, typename SUBNET>
-    using classification_head = loss_multiclass_log<fc<num_logits, SUBNET>>;
+    // Classification head for next-token prediction
+    template <long num_logits, long embedding_dim, typename SUBNET>
+    using classification_head = loss_multiclass_log<fc<num_logits,
+        fc<embedding_dim / 4, rms_norm<SUBNET>>>>;
 
     /**
-     * @brief Transformer Model Configuration Template
+     * @brief Transformer model configuration template
      *
-     * Provides a flexible and type-safe configuration mechanism for Transformer models
+     * Provides a flexible and type-safe configuration mechanism for transformer models
      * with compile-time parameter validation and network generation.
      *
      * Template parameters:
      * @param vocab_size Vocabulary size for token embedding
-     * @param num_layers Number of Transformer layers
+     * @param num_layers Number of transformer layers
      * @param num_heads Number of attention heads
      * @param embedding_dim Dimension of token embeddings
-     * @param max_seq_len Maximum sequence length
      * @param activation_func Activation function type
      * @param dropout_policy Dropout regularization policy
      */
     template <
-        long vocab_size = 15000,                                // Default vocabulary size
-        long num_layers = 6,                                    // Default number of layers
-        long num_heads = 8,                                     // Default number of attention heads
-        long embedding_dim = 512,                               // Default embedding dimension
-        long max_seq_len = 300,                                 // Default maximum sequence length
-        template <typename> class activation_func = gelu,       // Default activation function
-        template <typename> class dropout_policy = dropout_10   // Default dropout policy
+        long vocab_size = 15000,
+        long num_layers = 6,
+        long num_heads = 8,
+        long embedding_dim = 512,
+        template <typename> class activation_func = gelu,
+        template <typename> class dropout_policy = dropout_10
     >
     struct transformer_config {
         // Core model parameters
@@ -356,37 +84,23 @@ namespace dlib
         static constexpr long NUM_LAYERS = num_layers;
         static constexpr long NUM_HEADS = num_heads;
         static constexpr long EMBEDDING_DIM = embedding_dim;
-        static constexpr long MAX_SEQ_LEN = max_seq_len;
 
-        /**
-         * @brief Compile-time validation of model configuration
-         *
-         * Performs static assertions to ensure valid model parameters
-         */
+        // Compile-time validation of model configuration
         struct validation {
             static_assert(VOCAB_SIZE > 0, "Vocabulary size must be positive");
             static_assert(NUM_LAYERS > 0, "Number of layers must be positive");
             static_assert(NUM_HEADS > 0, "Number of attention heads must be positive");
-            static_assert(EMBEDDING_DIM% NUM_HEADS == 0, "Embedding dimension must be divisible by number of heads");
+            static_assert(EMBEDDING_DIM % NUM_HEADS == 0, "Embedding dimension must be divisible by number of heads");
         };
 
-        // Network component definitions
-        template <typename SUBNET>
-        using t_transformer_block =
-            transformer_block<activation_func, dropout_policy, MAX_SEQ_LEN, EMBEDDING_DIM, NUM_HEADS, SUBNET>;
-
-        template <typename SUBNET>
-        using i_transformer_block =
-            transformer_block<activation_func, multiply, MAX_SEQ_LEN, EMBEDDING_DIM, NUM_HEADS, SUBNET>;
-
         template<bool is_training>
         using network_type = std::conditional_t<is_training,
-            classification_head<VOCAB_SIZE,
-            repeat<NUM_LAYERS, t_transformer_block,
-            positional_embeddings<dropout_policy, VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>,
-            classification_head<VOCAB_SIZE,
-            repeat<NUM_LAYERS, i_transformer_block,
-            positional_embeddings<multiply, VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>>;
+            classification_head<VOCAB_SIZE, EMBEDDING_DIM,
+            transformer_stack<NUM_LAYERS, activation_func, dropout_policy, EMBEDDING_DIM, NUM_HEADS,
+            embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>,
+            classification_head<VOCAB_SIZE, EMBEDDING_DIM,
+            transformer_stack<NUM_LAYERS, activation_func, multiply, EMBEDDING_DIM, NUM_HEADS,
+            embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>>;
 
         struct model_info {
             static std::string describe() {
@@ -395,271 +109,103 @@ namespace dlib
                     << "- vocabulary size: " << VOCAB_SIZE << "\n"
                     << "- layers: " << NUM_LAYERS << "\n"
                     << "- attention heads: " << NUM_HEADS << "\n"
-                    << "- embedding dimension: " << EMBEDDING_DIM << "\n"
-                    << "- sequence length: " << MAX_SEQ_LEN;
+                    << "- embedding dimension: " << EMBEDDING_DIM;
                 return ss.str();
             }
         };
     };
 }
 
-// Define a cross-platform signal handling system
-namespace {
-    std::atomic<bool> g_terminate_flag(false);
-
-#ifdef _WIN32
-    // Windows-specific handler
-    BOOL WINAPI console_ctrl_handler(DWORD ctrl_type) {
-        if (ctrl_type == CTRL_C_EVENT) {
-            g_terminate_flag.store(true);
-            cout << "\nCtrl+C detected, cleaning up and closing the program..." << endl;
-            return TRUE;
-        }
-        return FALSE;
-    }
-#else
-    // Unix/Linux/macOS handler
-    void signal_handler(int signal) {
-        if (signal == SIGINT) {
-            g_terminate_flag.store(true);
-            cout << "\nCtrl+C detected, cleaning up and closing the program..." << endl;
-        }
-    }
-#endif
-
-    // Setup the interrupt handler based on platform
-    void setup_interrupt_handler() {
-#ifdef _WIN32
-        if (!SetConsoleCtrlHandler(console_ctrl_handler, TRUE)) {
-            cerr << "ERROR: Could not set control handler" << endl;
-        }
-#else
-        struct sigaction sa {};
-        sigemptyset(&sa.sa_mask);
-        sa.sa_handler = signal_handler;
-        sigaction(SIGINT, &sa, NULL);
-#endif
+// Utility functions
+std::string generate_tokens_filename(size_t max_bytes)
+{
+    if (max_bytes > 0) {
+        return "dlib_dataset_" + std::to_string(max_bytes) + "_tokens.bin";
     }
+    return "dlib_dataset_tokens.bin";
 }
 
-// Utility function to get file size
-size_t get_file_size(const std::string& filepath) {
-    std::ifstream file(filepath, std::ios::binary);
-    if (!file) return 0;
-    file.seekg(0, std::ios::end);
-    size_t file_size = file.tellg();
-    file.close();
-    return file_size;
-}
-
-// Function to generate tokens filename based on input file and size
-std::string generate_tokens_filename(const std::string& input_file, size_t max_bytes) {
-    // Extract base name from input file
-    std::string base_name = input_file;
-    size_t pos = base_name.find_last_of("/\\");
-    if (pos != std::string::npos) base_name = base_name.substr(pos + 1);
-
-    // Create filename with size information
-    std::string size_info = (max_bytes > 0) ? "partial" : "full";
-    return base_name + "." + size_info + ".tokens.bin";
-}
-
-// Function to save tokens to binary file
-bool save_tokens_to_file(const std::vector<int>& tokens, const std::string& filename) {
+bool save_tokens_to_file(const std::vector<int>& tokens, const std::string& filename)
+{
     std::ofstream file(filename, std::ios::binary);
-    if (!file) {
-        std::cerr << "Failed to open file for writing: " << filename << std::endl;
-        return false;
-    }
+    if (!file) return false;
 
-    // Write number of tokens
     uint64_t num_tokens = tokens.size();
     file.write(reinterpret_cast<const char*>(&num_tokens), sizeof(num_tokens));
 
-    // Write tokens
     for (int token : tokens) {
         uint32_t t = static_cast<uint32_t>(token);
         file.write(reinterpret_cast<const char*>(&t), sizeof(t));
     }
-    file.flush();
-    file.close();
 
-    return true;
+    return file.good();
 }
 
-// Function to load tokens from binary file
-bool load_tokens_from_file(std::vector<int>& tokens, const std::string& filename) {
+bool load_tokens_from_file(std::vector<int>& tokens, const std::string& filename)
+{
     std::ifstream file(filename, std::ios::binary);
-    if (!file) {
-        std::cerr << "Failed to open file for reading: " << filename << std::endl;
-        return false;
-    }
+    if (!file) return false;
 
-    // Read number of tokens
     uint64_t num_tokens;
     file.read(reinterpret_cast<char*>(&num_tokens), sizeof(num_tokens));
+    if (!file.good()) return false;
+
+    tokens.clear();
+    tokens.reserve(num_tokens);
 
-    // Read tokens
-    tokens.resize(num_tokens);
     for (uint64_t i = 0; i < num_tokens; ++i) {
         uint32_t t;
         file.read(reinterpret_cast<char*>(&t), sizeof(t));
-        tokens[i] = static_cast<int>(t);
+        if (!file.good()) return false;
+        tokens.push_back(static_cast<int>(t));
     }
-    file.close();
 
     return true;
 }
 
-// Function to read the "enwiki" file (entire or portion)
-std::string read_enwiki(const std::string& filepath, size_t max_bytes = 0) {
-    std::ifstream file(filepath, std::ios::binary);
+std::string read_file_content(const std::string& filename, size_t max_bytes = 0)
+{
+    std::ifstream file(filename, std::ios::binary);
     if (!file) {
-        throw std::runtime_error("Cannot open enwiki file: " + filepath);
+        throw std::runtime_error("Cannot open file: " + filename);
     }
-    size_t file_size = get_file_size(filepath);
-
-    // If max_bytes is specified and valid, limit the reading
-    size_t bytes_to_read = (max_bytes > 0 && max_bytes < file_size) ? max_bytes : file_size;
 
-    std::string content(bytes_to_read, ' ');
-    file.read(&content[0], bytes_to_read);
+    std::string content;
+    if (max_bytes > 0) {
+        content.resize(max_bytes);
+        file.read(&content[0], max_bytes);
+        content.resize(file.gcount());
+    }
+    else {
+        content.assign(std::istreambuf_iterator<char>(file), std::istreambuf_iterator<char>());
+    }
 
     return content;
 }
 
-// Function to verify byte-for-byte matching with detailed error reporting
-bool verify_match(const std::string& original, const std::string& generated) {
+bool verify_match(const std::string& original, const std::string& generated)
+{
     if (original.size() != generated.size()) {
         cout << "Size mismatch: original=" << original.size()
-            << " bytes, generated=" << generated.size() << " bytes\n";
+            << ", generated=" << generated.size() << "\n";
         return false;
     }
 
-    // Helper function to determine if a character is printable
-    auto is_printable = [](unsigned char c) { return c >= 32 && c < 127; };
-
-    // Helper function to format a byte as string (either character or hex)
-    auto format_byte = [&is_printable](unsigned char c) -> std::string {
-        if (is_printable(c)) {
-            return std::string(1, c);
-        }
-        else {
-            std::stringstream ss;
-            ss << "\\x" << std::hex << std::setw(2) << std::setfill('0') << static_cast<int>(c);
-            return ss.str();
-        }
-    };
-
-    // Helper function to display context around a position
-    auto show_context = [&](size_t pos, size_t context_size) {
-        size_t start = (pos >= context_size) ? pos - context_size : 0;
-        size_t end = std::min(original.size(), pos + context_size + 1);
-
-        std::string orig_context, gen_context;
-        std::string orig_highlight, gen_highlight;
-
-        for (size_t i = start; i < end; ++i) {
-            unsigned char orig_c = static_cast<unsigned char>(original[i]);
-            unsigned char gen_c = static_cast<unsigned char>(generated[i]);
-
-            orig_context += format_byte(orig_c);
-            gen_context += format_byte(gen_c);
-
-            if (i == pos) {
-                orig_highlight = format_byte(orig_c);
-                gen_highlight = format_byte(gen_c);
-            }
-        }
-
-        cout << "Context at position " << pos << ":\n";
-        cout << "Original (" << (int)original[pos] << " = '" << orig_highlight
-            << "'): " << orig_context << "\n";
-        cout << "Generated (" << (int)generated[pos] << " = '" << gen_highlight
-            << "'): " << gen_context << "\n";
-    };
-
     size_t mismatch_count = 0;
-    const size_t max_detailed_mismatches = 10;  // Maximum number of detailed errors to display
-    const size_t context_size = 10;             // Number of characters to show before/after error
-
-    // Track error patterns
-    std::map<std::pair<char, char>, int> error_patterns;
-
-    // Analyze consecutive error regions
-    size_t current_region_start = 0;
-    size_t current_region_length = 0;
-    std::vector<std::pair<size_t, size_t>> error_regions; // (start, length)
-
     for (size_t i = 0; i < original.size(); ++i) {
         if (original[i] != generated[i]) {
-            // Track error pattern
-            error_patterns[{original[i], generated[i]}]++;
-
-            // Increment mismatch count
-            mismatch_count++;
-
-            // Handle error regions
-            if (current_region_length == 0) {
-                current_region_start = i;
-                current_region_length = 1;
-            }
-            else if (i == current_region_start + current_region_length) {
-                current_region_length++;
-            }
-            else {
-                // Save previous region and start new one
-                error_regions.push_back({ current_region_start, current_region_length });
-                current_region_start = i;
-                current_region_length = 1;
-            }
-
-            // Show detailed information for first few mismatches
-            if (mismatch_count <= max_detailed_mismatches) {
-                cout << "\n----- Mismatch #" << mismatch_count << " -----\n";
-                show_context(i, context_size);
+            if (mismatch_count < 10) {
+                cout << "Mismatch at byte " << i << ": expected='" << original[i]
+                    << "' (0x" << std::hex << (int)(unsigned char)original[i] << std::dec
+                    << "), got='" << generated[i]
+                    << "' (0x" << std::hex << (int)(unsigned char)generated[i] << std::dec << ")\n";
             }
+            mismatch_count++;
         }
     }
 
-    // Add the last region if exists
-    if (current_region_length > 0) {
-        error_regions.push_back({ current_region_start, current_region_length });
-    }
-
     if (mismatch_count > 0) {
-        cout << "\n===== Error Summary =====\n";
-        cout << "Total mismatches: " << mismatch_count << " bytes ("
-            << (mismatch_count * 100.0 / original.size()) << "%)\n";
-
-        // Report on error regions
-        cout << "\nFound " << error_regions.size() << " error regions:\n";
-        for (size_t i = 0; i < error_regions.size() && i < 20; ++i) {
-            cout << "  Region #" << (i + 1) << ": Position " << error_regions[i].first
-                << ", Length " << error_regions[i].second << "\n";
-        }
-        if (error_regions.size() > 20)
-            cout << "  ... and " << (error_regions.size() - 20) << " more regions\n";
-
-        // Report on most common error patterns
-        cout << "\nMost common error patterns (original -> generated):\n";
-        std::vector<std::pair<std::pair<char, char>, int>> patterns(
-            error_patterns.begin(), error_patterns.end());
-        std::sort(patterns.begin(), patterns.end(),
-            [](const auto& a, const auto& b) { return a.second > b.second; });
-
-        for (size_t i = 0; i < patterns.size() && i < 10; ++i) {
-            char orig = patterns[i].first.first;
-            char gen = patterns[i].first.second;
-            int count = patterns[i].second;
-
-            cout << "  '" << format_byte(static_cast<unsigned char>(orig)) << "' ("
-                << static_cast<int>(static_cast<unsigned char>(orig)) << ") -> '"
-                << format_byte(static_cast<unsigned char>(gen)) << "' ("
-                << static_cast<int>(static_cast<unsigned char>(gen)) << "): "
-                << count << " occurrences\n";
-        }
-
+        cout << "Total mismatches: " << mismatch_count << "\n";
         return false;
     }
 
@@ -668,258 +214,132 @@ bool verify_match(const std::string& original, const std::string& generated) {
 }
 
 // ----------------------------------------------------------------------------------------
-class context_manager {
-public:
-    context_manager(size_t max_context_tokens = 1024, size_t min_prompt_tokens = 100,
-        int padding_token = -1) : max_context_size_(max_context_tokens),
-        min_prompt_size_(min_prompt_tokens), padding_token_(padding_token) {
-
-        if (min_prompt_tokens >= max_context_tokens)
-            throw std::invalid_argument("Minimum prompt size must be smaller than maximum context size");
-
-        if (min_prompt_tokens < 10)
-            throw std::invalid_argument("Minimum prompt size must be at least 10");
-    }
-
-    // Add a single token to the context
-    void add_token(int token) {
-        if (current_context_.size() >= max_context_size_) current_context_.pop_front();
-        current_context_.push_back(token);
-    }
-
-    // Add multiple tokens to the context
-    void add_tokens(const std::vector<int>& tokens) {
-        for (const auto& token : tokens) add_token(token);
-    }
-
-    // Get the next input sequence for the model
-    matrix<int, 0, 1> get_input_sequence(size_t desired_length) const {
-        if (desired_length < min_prompt_size_)
-            throw std::invalid_argument("Requested length is smaller than minimum prompt size");
-        matrix<int, 0, 1> input_sequence(desired_length, 1);
-
-        // Determine how many tokens we'll copy from context
-        size_t tokens_to_copy = std::min(current_context_.size(), desired_length);
-        size_t start_pos = current_context_.size() > desired_length ?
-            current_context_.size() - desired_length : 0;
-
-        // Fill the matrix with tokens from context
-        for (size_t i = 0; i < tokens_to_copy; ++i)
-            input_sequence(i, 0) = current_context_[start_pos + i];
-
-        // Fill remaining positions with padding token if needed
-        for (size_t i = tokens_to_copy; i < desired_length; ++i)
-            input_sequence(i, 0) = padding_token_;
-
-        return input_sequence;
-    }
-
-    // Calculate maximum output tokens that can be generated
-    size_t get_max_output_tokens() const {
-        if (current_context_.size() < min_prompt_size_)
-            return 0;  // Not enough context for even minimal prompt
-        return max_context_size_ - current_context_.size();
-    }
-
-    // Get current context size
-    size_t get_current_context_size() const { return current_context_.size(); }
-    // Get maximum context size
-    size_t get_max_context_size() const { return max_context_size_; }
-    // Get prompt size
-    size_t get_prompt_size() const { return min_prompt_size_; }
-    // Get padding token
-    int get_padding_token() const { return padding_token_; }
-    // Clear the current context
-    void clear_context() { current_context_.clear(); }
-
-private:
-    const size_t max_context_size_;    // Maximum total tokens in context
-    const size_t min_prompt_size_;     // Minimum tokens required for prompt
-    const int padding_token_;          // Token used for padding
-
-    // Using deque for efficient insertion/removal at both ends
-    std::deque<int> current_context_;  // Current context
-};
 
 int main(int argc, char** argv)
 {
     try
     {
         // Setup interrupt handling for clean termination
-        setup_interrupt_handler();
+        signal_handler::setup();
 
         command_line_parser parser;
-        parser.add_option("train", "Train a transformer model on enwiki");
-        parser.add_option("generate", "Generate enwiki from a previously trained model");
-        parser.add_option("verify", "Verify generated output against original data");
-        parser.add_option("tokenize-only", "Only tokenize the input file and save tokens");
-        parser.add_option("enwiki", "Path to the enwiki file (default: enwiki.txt)", 1);
-        parser.add_option("max-tokens", "Maximum number of tokens to load in memory", 1);
-        parser.add_option("max-bytes", "Maximum number of bytes to process from enwiki", 1);
-        parser.add_option("percent", "Percentage of enwiki to process (0-100)", 1);
-        parser.add_option("learning-rate", "Set the learning rate (default: 3e-4)", 1);
+        parser.add_option("train", "Train a transformer model on internal dataset");
+        parser.add_option("generate", "Generate text from a previously trained model");
+        parser.add_option("verify", "Verify generated output against original dataset");
+        parser.add_option("learning-rate", "Set the learning rate (default: 2e-4)", 1);
         parser.add_option("batch-size", "Set the mini-batch size (default: 64)", 1);
-        parser.add_option("patience", "Iterations without progress before early stopping (default: 15000)", 1);
-        parser.add_option("max-epochs", "Maximum number of training epochs (default: 10)", 1);
+        parser.add_option("patience", "Iterations without progress before early stopping (default: 8000)", 1);
+        parser.add_option("max-epochs", "Maximum number of training epochs (default: 150)", 1);
         parser.add_option("alpha", "Set the weight decay for Adam (default: 0.004)", 1);
         parser.add_option("beta1", "Set Adam's first moment coefficient (default: 0.9)", 1);
         parser.add_option("beta2", "Set Adam's second moment coefficient (default: 0.999)", 1);
-        parser.add_option("model-file", "Path for model (default: dlib_slm_enwiki_model.dat)", 1);
-        parser.add_option("output-file", "Path for output (default: enwiki_generated.txt)", 1);
-        parser.add_option("tokenizer", "Path to pre-trained tokenizer (default: enwiki_tokenizer.vocab)", 1);
-        parser.add_option("tokens-file", "Path to pre-tokenized tokens file (optional)", 1);
-        parser.add_option("force-tokenize", "Force tokenization even if tokens file exists");
+        parser.add_option("model-file", "Path for model (default: dlib_lm_tokens_model.dat)", 1);
+        parser.add_option("tokenizer-file", "Path for tokenizer (default: dlib_lm_tokenizer.vocab)", 1);
+        parser.add_option("output-file", "Path for generated output (default: generated_text.txt)", 1);
+        parser.add_option("max-tokens", "Maximum number of tokens to process (default: all)", 1);
+        parser.add_option("max-bytes", "Maximum number of bytes to process (default: all)", 1);
+        parser.add_option("percent", "Percentage of bytes to process (0-100 - default: all)", 1);
         parser.parse(argc, argv);
 
         if (parser.number_of_arguments() == 0 &&
             !parser.option("train") && !parser.option("generate") &&
-            !parser.option("verify") && !parser.option("tokenize-only"))
+            !parser.option("verify"))
         {
             parser.print_options();
             return 0;
         }
 
         // Default values
-        const double learning_rate = get_option(parser, "learning-rate", 3e-4);
+        const double learning_rate = get_option(parser, "learning-rate", 2e-4);
         const size_t batch_size = get_option(parser, "batch-size", 64);
-        const long patience = get_option(parser, "patience", 15000);
-        const size_t max_epochs = get_option(parser, "max-epochs", 10);
+        const long patience = get_option(parser, "patience", 8000);
+        const size_t max_epochs = get_option(parser, "max-epochs", 150);
         const double alpha = get_option(parser, "alpha", 0.004);
         const double beta1 = get_option(parser, "beta1", 0.9);
         const double beta2 = get_option(parser, "beta2", 0.999);
-        const std::string model_file = get_option(parser, "model-file", "dlib_slm_enwiki_model.dat");
-        const std::string output_file = get_option(parser, "output-file", "enwiki_generated.txt");
-        const std::string enwiki_path = get_option(parser, "enwiki", "enwiki.txt");
-        const long max_seq_len = 30;
+        const std::string model_file = get_option(parser, "model-file", "dlib_lm_tokens_model.dat");
+        const std::string tokenizer_file = get_option(parser, "tokenizer-file", "dlib_lm_tokenizer.vocab");
+        const std::string output_file = get_option(parser, "output-file", "generated_text.txt");
+        
+        // Model architecture parameters
+        const long num_tokens = 2000;
         const long num_layers = 4;
-        const long num_heads = 6;
+        const long num_heads = 6;        
         const long embedding_dim = 228;
-        const std::string tokenizer_path = get_option(parser, "tokenizer", "enwiki_tokenizer.vocab");
-        // Default number of prompt tokens = input sequence length
-        const bool force_tokenize = parser.option("force-tokenize");
-        const long num_tokens = 8000;
+        const long max_seq_len = 100;
+
+        // Define transformer configuration
+        using my_transformer = transformer_config<
+            num_tokens,     // vocab_size
+            num_layers,     // number of layers
+            num_heads,      // number of attention heads
+            embedding_dim   // embedding dimension
+        >;
+
+        // Load internal dataset
+        cout << "Loading internal training dataset...\n";
+        std::string training_text = get_dataset_as_text(dataset_id::BLACK_HOLE_ARTICLE);
+        size_t original_size = training_text.size();
+        cout << "Loaded " << original_size << " bytes from internal dataset\n";
 
         // Calculate max bytes to process
-        size_t max_bytes = 0, max_tokens = 0;
+        size_t max_bytes = 0, max_tokens_limit = 0;
         if (parser.option("max-tokens"))
-            max_tokens = std::stoul(parser.option("max-tokens").argument());        
+            max_tokens_limit = std::stoul(parser.option("max-tokens").argument());
         if (parser.option("max-bytes")) {
             max_bytes = std::stoul(parser.option("max-bytes").argument());
         }
         else if (parser.option("percent")) {
             double percent = std::stod(parser.option("percent").argument());
-            size_t file_size = get_file_size(enwiki_path);
-            if (file_size > 0) {
-                max_bytes = static_cast<size_t>(file_size * percent / 100.0);
-                cout << "Processing " << percent << "% of enwiki = " << max_bytes << " bytes\n";
-            }
-            else {
-                cerr << "Warning: Cannot determine file size for percentage calculation\n";
-            }
+            max_bytes = static_cast<size_t>(original_size * percent / 100.0);
+            cout << "Processing " << percent << "% of dataset = " << max_bytes << " bytes\n";
         }
 
+        // Apply size limits to dataset
+        if (max_bytes > 0 && max_bytes < training_text.size()) {
+            training_text.resize(max_bytes);
+            cout << "Limited to " << training_text.size() << " bytes\n";
+        }
+
+        // Determine tokens filename
+        const std::string tokens_file = generate_tokens_filename(max_bytes);
+
         // Tokenizer BPE
         bpe_tokenizer tokenizer;
 
-        // Load pre-trained tokenizer
-        if (file_exists(tokenizer_path)) {
-            cout << "Loading pre-trained tokenizer from: " << tokenizer_path << endl;
-            deserialize(tokenizer_path) >> tokenizer;
+        // Load pre-trained tokenizer if it exists
+        if (file_exists(tokenizer_file)) {
+            cout << "Loading pre-trained tokenizer from: " << tokenizer_file << endl;
+            deserialize(tokenizer_file) >> tokenizer;
             cout << "Tokenizer loaded successfully with vocabulary size: " << tokenizer.get_vocab_size() << endl;
         }
         else {
-            cout << "Pre-trained tokenizer not found at: " << tokenizer_path << endl;
-            cout << "Will train a new tokenizer if in training mode." << endl;
+            cout << "Pre-trained tokenizer not found at: " << tokenizer_file << endl;
+            cout << "Will train a new tokenizer if needed." << endl;
         }
 
-        // Determine tokens filename
-        std::string tokens_file = parser.option("tokens-file") ?
-            parser.option("tokens-file").argument() :
-            generate_tokens_filename(enwiki_path, max_bytes);
-
-        using enwiki_transformer = transformer_config<
-            num_tokens,     // vocab_size
-            num_layers,     // number of layers
-            num_heads,      // number of attention heads
-            embedding_dim,  // embedding dimension
-            max_seq_len     // maximum sequence length
-        >;
-
         // For GPU usage (if available)
         std::vector<int> gpus{ 0 };
 
-        // Variables to store tokens (used in multiple modes)
+        // Variables to store tokens
         std::vector<int> full_tokens;
-        bool tokens_loaded = false;
-
-        // ----------------------------------------------------------------------------------------
-        // Tokenize-only mode
-        // ----------------------------------------------------------------------------------------
-        if (parser.option("tokenize-only")) {
-            cout << "=== TOKENIZE-ONLY MODE ===\n";
-
-            // Read the enwiki file (or portion)
-            cout << "Reading enwiki file from: " << enwiki_path;
-            if (max_bytes > 0) cout << " (limited to " << max_bytes << " bytes)";
-            cout << endl;
-
-            std::string enwiki_text = read_enwiki(enwiki_path, max_bytes);
-            cout << "Read " << enwiki_text.size() << " bytes\n";
-
-            // Train a new tokenizer if needed
-            if (!file_exists(tokenizer_path)) {
-                cout << "Training new BPE tokenizer with vocabulary size " << num_tokens << "...\n";
-                tokenizer.train(enwiki_text, num_tokens, 1e6, true);
-                serialize(tokenizer_path) << tokenizer;
-                cout << "Tokenizer saved to " << tokenizer_path << endl;
-            }
 
-            // Tokenize the full text
-            cout << "Tokenizing input text...\n";
-            auto start_time = std::chrono::high_resolution_clock::now();
-            int text_start_id = tokenizer.get_special_token_id("<text>"),
-                text_end_id = tokenizer.get_special_token_id("</text>");
-            if (text_start_id < 0 || text_end_id < 0)
-                cout << "Warning: Special tokens not found in tokenizer vocabulary.\n";
-            full_tokens.clear();
-            full_tokens.push_back(text_start_id);
-            auto encoded_tokens = tokenizer.encode(enwiki_text);
-            full_tokens.insert(full_tokens.end(), encoded_tokens.begin(), encoded_tokens.end());
-            full_tokens.push_back(text_end_id);
-            auto end_time = std::chrono::high_resolution_clock::now();
-            auto tokenize_time = std::chrono::duration_cast<std::chrono::seconds>(end_time - start_time).count();
-
-            cout << "Tokenization completed in " << tokenize_time << " seconds.\n";
-            cout << "Number of tokens: " << full_tokens.size() << endl;
-
-            // Save tokens
-            cout << "Saving tokens to file: " << tokens_file << endl;
-            if (save_tokens_to_file(full_tokens, tokens_file)) {
-                cout << "Tokens successfully saved.\n";
-            }
-            else {
-                cerr << "Failed to save tokens.\n";
-            }
-
-            return 0;
-        }
-
-        // ----------------------------------------------------------------------------------------
         // Training mode
-        // ----------------------------------------------------------------------------------------
         if (parser.option("train"))
         {
             cout << "=== TRAINING MODE ===\n";
 
+            bool tokens_loaded = false;
+
             // Check if we should load pre-tokenized tokens
-            if (!force_tokenize && file_exists(tokens_file)) {
+            if (file_exists(tokens_file)) {
                 cout << "Found pre-tokenized tokens file: " << tokens_file << endl;
                 cout << "Loading tokens from file...\n";
                 if (load_tokens_from_file(full_tokens, tokens_file)) {
                     cout << "Loaded " << full_tokens.size() << " tokens from file.\n";
-                    if (max_tokens > 0 && max_tokens < full_tokens.size()) {
-                        full_tokens.resize(max_tokens);
-                        cout << "But limited to " << full_tokens.size() << " tokens for training.\n";
+                    if (max_tokens_limit > 0 && max_tokens_limit < full_tokens.size()) {
+                        full_tokens.resize(max_tokens_limit);
+                        cout << "Limited to " << full_tokens.size() << " tokens for training.\n";
                     }
                     tokens_loaded = true;
                 }
@@ -929,20 +349,30 @@ int main(int argc, char** argv)
             }
 
             if (!tokens_loaded) {
-                // 1) Read the enwiki file (or portion)
-                cout << "Reading enwiki file from: " << enwiki_path;
-                if (max_bytes > 0) cout << " (limited to " << max_bytes << " bytes)";
-                cout << endl;
-
-                std::string enwiki_text = read_enwiki(enwiki_path, max_bytes);
-                cout << "Read " << enwiki_text.size() << " bytes\n";
-
                 // Train a new tokenizer if needed
-                if (!file_exists(tokenizer_path)) {
+                if (!file_exists(tokenizer_file)) {
                     cout << "Training new BPE tokenizer with vocabulary size " << num_tokens << "...\n";
-                    tokenizer.train(enwiki_text, num_tokens, 1e6, true);
-                    serialize(tokenizer_path) << tokenizer;
-                    cout << "Tokenizer saved to " << tokenizer_path << endl;
+
+                    // Compose training corpus from multiple datasets
+                    std::string delimiter = "@@";
+                    std::string tokenizer_corpus =
+                        get_dataset_as_text(dataset_id::BLACK_HOLE_ARTICLE) + delimiter
+                        + get_dataset_as_text(dataset_id::PHYSICS_PARAGRAPHS) + delimiter
+                        + get_dataset_as_text(dataset_id::BLACK_HOLE_QA_PARTA) + delimiter
+                        + get_dataset_as_text(dataset_id::BLACK_HOLE_QA_PARTB) + delimiter
+                        + get_dataset_as_text(dataset_id::BLACK_HOLE_QA_PARTC) + delimiter
+                        + get_dataset_as_text(dataset_id::GENERAL_KNOWLEDGE);
+
+                    // Replace all "@@" delimiters with spaces                    
+                    size_t pos = 0;
+                    while ((pos = tokenizer_corpus.find(delimiter, pos)) != std::string::npos) {
+                        tokenizer_corpus.replace(pos, delimiter.length(), " ");
+                        pos += 1; // Move past the replacement space
+                    }
+
+                    tokenizer.train(tokenizer_corpus, num_tokens, 1e6, true);
+                    serialize(tokenizer_file) << tokenizer;
+                    cout << "Tokenizer saved to " << tokenizer_file << endl;
                 }
 
                 // Tokenize the full text
@@ -954,7 +384,7 @@ int main(int argc, char** argv)
                 auto start_time = std::chrono::high_resolution_clock::now();
                 full_tokens.clear();
                 full_tokens.push_back(text_start_id);
-                auto encoded_tokens = tokenizer.encode(enwiki_text);
+                auto encoded_tokens = tokenizer.encode(training_text);
                 full_tokens.insert(full_tokens.end(), encoded_tokens.begin(), encoded_tokens.end());
                 full_tokens.push_back(text_end_id);
                 auto end_time = std::chrono::high_resolution_clock::now();
@@ -978,141 +408,99 @@ int main(int argc, char** argv)
             std::vector<matrix<int, 0, 1>> samples;
             std::vector<unsigned long> labels;
 
-            // Calculate the maximum number of sequences we can create
-            size_t num_sequences = full_tokens.size() - max_seq_len;
-            if (num_sequences <= 0) {
-                cerr << "Error: Not enough tokens to create training sequences. Need at least "
-                    << (max_seq_len + 1) << " tokens.\n";
-                return 1;
-            }
-
-            cout << "Creating training samples...\n";
-
-            // For very large datasets, using a stride can reduce training time 
-            // without significantly affecting model quality
-            size_t stride = 1;  // Default: use every possible sequence
-            const size_t max_samples = 10e6;  // Optional: limit total samples to prevent memory issues
-
-            // If dataset is very large, use adaptive stride
-            if (num_sequences > max_samples && max_samples > 0) {
-                stride = num_sequences / max_samples + 1;
-                cout << "Dataset is large. Using stride of " << stride
-                    << " to limit samples to approximately " << max_samples << "\n";
-            }
-
-            // Reserve memory for better performance
-            samples.reserve(num_sequences / stride + 1);
-            labels.reserve(num_sequences / stride + 1);
-
-            // Create training samples with stride
-            for (size_t start = 0; start < num_sequences; start += stride) {
-                matrix<int, 0, 1> seq(max_seq_len, 1);
-                for (long t = 0; t < max_seq_len; ++t) {
-                    seq(t, 0) = full_tokens[start + t];
-                }
-                samples.push_back(seq);
-                labels.push_back(full_tokens[start + max_seq_len]);
-
-                if (samples.size() % 10000 == 0) {
-                    cout << "Created " << samples.size() << " training samples ("
-                        << (start * 100 / num_sequences) << "%)...\r";
-                }
-            }
+            build_single_token_prediction_dataset({ full_tokens }, max_seq_len,
+                tokenizer.get_special_token_id("<pad>"), false,
+                samples, labels);
             full_tokens.clear();
-            cout << "Created " << samples.size() << " training samples (100%)...\n";
+            cout << "Created " << samples.size() << " training samples\n";
 
             // Build and train the network
-            using net_type = enwiki_transformer::network_type<true>;
+            using net_type = my_transformer::network_type<true>;
             net_type net;
-            cout << "Model architecture:\n" << enwiki_transformer::model_info::describe() << endl;
-            if (file_exists(model_file)) deserialize(model_file) >> net;
+            const int pad_token = tokenizer.get_special_token_id("<pad>");
+            cout << my_transformer::model_info::describe() << endl;
+
+            // Tokenizer stored with model for simplified inference
+            if (file_exists(model_file) &&
+                !file_exists("chkpt-" + model_file)) deserialize(model_file) >> net >> tokenizer;
 
             // Create trainer
             dnn_trainer<net_type, adam> trainer(net, adam(alpha, beta1, beta2), gpus);
             trainer.set_learning_rate(learning_rate);
             trainer.set_min_learning_rate(1e-6);
             trainer.set_mini_batch_size(batch_size);
-            // For perfect memorization, we allow more epochs without improvement
             trainer.set_iterations_without_progress_threshold(patience);
-            trainer.set_max_num_epochs(max_epochs); // More epochs for perfect memorization
-            trainer.set_synchronization_file("enwiki_trainer.sync", std::chrono::minutes(10));
+            trainer.set_synchronization_file("chkpt-" + model_file, std::chrono::minutes(15));
             trainer.be_quiet();
 
-            // Custom training loop - trainer.train(samples, labels)
-            cout << "Starting training...\n";            
-            size_t epoch = 0, samples_seen = 0, batches_seen = 0;
-            double total_loss = 0;
-            auto start_time = std::chrono::steady_clock::now();
+            cout << "Number of model parameters: " << count_parameters(net) << endl;
+            cout << "Starting training...\n";
 
-            // Shuffle indices for epoch
-            std::vector<size_t> indices(samples.size());
-            std::iota(indices.begin(), indices.end(), 0);
+            size_t epoch = 0, steps = 0;
+            size_t batches_count = 0, batches_seen = 0, samples_seen = 0;
+            double total_loss = 0.0;
+            auto epoch_start = std::chrono::high_resolution_clock::now();
 
-            while (epoch < max_epochs && trainer.get_learning_rate() >= trainer.get_min_learning_rate()
-                && !g_terminate_flag.load())
+            // Training loop
+            while (trainer.get_learning_rate() >= 1e-6 && epoch < max_epochs
+                && !signal_handler::is_triggered())
             {
-                // Shuffle for new epoch
-                std::shuffle(indices.begin(), indices.end(), std::default_random_engine{});
+                total_loss = 0.0;
+                batches_seen = samples_seen = 0;
+                epoch_start = std::chrono::high_resolution_clock::now();
 
-                // Process mini-batches
-                for (size_t i = 0; i < samples.size() && !g_terminate_flag.load(); i += batch_size)
-                {
-                    // Get current mini-batch
-                    std::vector<matrix<int, 0, 1>> batch_samples;
-                    std::vector<unsigned long> batch_labels;
+                // Shuffle the dataset
+                shuffle_training_dataset(samples, labels);
 
-                    batch_samples.reserve(batch_size);
-                    batch_labels.reserve(batch_size);
+                for (size_t i = 0; i < samples.size() && !signal_handler::is_triggered(); i += batch_size)
+                {
+                    size_t batch_end = std::min(i + batch_size, samples.size());
+                    std::vector<matrix<int, 0, 1>> batch_samples(
+                        samples.begin() + i, samples.begin() + batch_end);
+                    std::vector<unsigned long> batch_labels(
+                        labels.begin() + i, labels.begin() + batch_end);
 
-                    for (size_t j = 0; j < batch_size; ++j) {
-                        size_t pos = (i + j) >= indices.size() ? j : (i + j);
-                        batch_samples.push_back(samples[indices[pos]]);
-                        batch_labels.push_back(labels[indices[pos]]);
-                    }
+                    std::vector<long> pad_lengths(batch_samples.size());
+                    for (size_t j = 0; j < batch_samples.size(); ++j)
+                        pad_lengths[j] = count_leading_padding(batch_samples[j], pad_token);
+                    tril_padding_context::set_from_lengths(pad_lengths);
 
-                    // Train on this batch
                     trainer.train_one_step(batch_samples, batch_labels);
-                    double loss = trainer.get_average_loss();
-
-                    // Update stats
-                    total_loss += loss;
-                    samples_seen += batch_size;
+                    total_loss += trainer.get_average_loss();
                     batches_seen++;
+                    samples_seen += batch_samples.size();
+					steps += batch_samples.size();
 
                     // Progress reporting
-                    if (batches_seen % 100 == 0) {
-                        auto now = std::chrono::steady_clock::now();
-                        auto elapsed = std::chrono::duration_cast<std::chrono::seconds>(now - start_time).count();
+                    if (batches_count++ % 50 == 0) {
                         double avg_loss = total_loss / batches_seen;
+                        auto elapsed = std::chrono::duration_cast<std::chrono::seconds>(
+                            std::chrono::high_resolution_clock::now() - epoch_start).count();
                         double samples_per_sec = samples_seen / (elapsed > 0 ? elapsed : 1);
 
                         cout << "epoch#: " << (epoch + 1) << "/" << max_epochs
-                            << " \t batch: " << batches_seen
-                            << " \t samples: " << samples_seen
+							<< " (ksteps: " << (steps / 1000) << ")"
                             << " \t loss: " << avg_loss
+                            << " \t patience: " << trainer.get_steps_without_progress()
                             << " \t speed: " << samples_per_sec << " samples/sec\n";
                         cout.flush();
                     }
                 }
                 epoch++;
-
-                // Evaluate progress at end of epoch
-                cout << ">>> completed epoch " << epoch << " - average loss: " << (total_loss / batches_seen) << endl;
             }
+            tril_padding_context::clear();
 
             // Save model
             net.clean();
             serialize(model_file) << net << tokenizer;
             cout << "Model saved to " << model_file << "\n";
-            std::remove("enwiki_trainer.sync");
-            std::remove("enwiki_trainer.sync_");
 
             // Evaluate on training set
             {
-                if (!g_terminate_flag.load()) {
+                if (!signal_handler::is_triggered()) {
                     cout << "Evaluating model accuracy...\n";
-                    using net_infer = enwiki_transformer::network_type<false>;
-                    net_infer g_infer = net;
+                    my_transformer::network_type<false> g_infer;
+                    deserialize(model_file) >> g_infer >> tokenizer;
                     auto predicted = g_infer(samples);
                     size_t correct = 0;
                     for (size_t i = 0; i < labels.size(); ++i)
@@ -1120,25 +508,22 @@ int main(int argc, char** argv)
                     double accuracy = (double)correct / labels.size();
                     cout << "Training accuracy: " << (accuracy * 100.0) << "%\n";
 
-                    // We need perfect accuracy to reconstruct enwiki
+                    // We need perfect accuracy to reconstruct the internal dataset
                     if (accuracy < 0.999) {
                         cout << "WARNING: Model accuracy is less than 99.90%. The model may not "
                             << "perfectly reconstruct the input text.\n";
                     }
                 }
-            }            
+            }
         }
 
-        // ----------------------------------------------------------------------------------------
         // Generation mode
-        // ----------------------------------------------------------------------------------------
         if (parser.option("generate"))
         {
             cout << "=== GENERATION MODE ===\n";
 
             // Load the model
-            using net_infer = enwiki_transformer::network_type<false>;
-            net_infer net;
+            my_transformer::network_type<false> net;
             if (file_exists(model_file)) {
                 deserialize(model_file) >> net >> tokenizer;
                 cout << "Loaded model from " << model_file << "\n";
@@ -1155,7 +540,7 @@ int main(int argc, char** argv)
                 return 0;
             }
 
-            // Read beginning of enwiki file for prompt
+            // Read beginning of the dataset for prompt
             std::vector<int> prompt_tokens;
 
             // Check if we have pre-tokenized tokens
@@ -1163,19 +548,18 @@ int main(int argc, char** argv)
                 cout << "Found pre-tokenized tokens file: " << tokens_file << endl;
                 cout << "Loading tokens for prompt...\n";
 
-                // We only need max_seq_len tokens, so we can load
-                // just the necessary part of the file
                 std::ifstream file(tokens_file, std::ios::binary);
                 if (!file) {
                     cerr << "Failed to open tokens file: " << tokens_file << endl;
                 }
                 else {
                     // Read total number of tokens
-                    uint64_t num_tokens;
-                    file.read(reinterpret_cast<char*>(&num_tokens), sizeof(num_tokens));
+                    uint64_t num_tokens_in_file;
+                    file.read(reinterpret_cast<char*>(&num_tokens_in_file), sizeof(num_tokens_in_file));
 
                     // Read only the first max_seq_len tokens
-                    size_t tokens_to_read = std::min(static_cast<size_t>(max_seq_len), static_cast<size_t>(num_tokens));
+                    size_t tokens_to_read = std::min(static_cast<size_t>(max_seq_len),
+                        static_cast<size_t>(num_tokens_in_file));
                     prompt_tokens.resize(tokens_to_read);
 
                     for (size_t i = 0; i < tokens_to_read; ++i) {
@@ -1190,50 +574,38 @@ int main(int argc, char** argv)
 
             // If we couldn't load tokens, tokenize the prompt text
             if (prompt_tokens.empty()) {
-                cout << "Reading initial prompt from enwiki...\n";
-                std::string enwiki_prompt;
-
-                if (file_exists(enwiki_path)) {
-                    // Read a portion large enough to cover the first tokens
-                    std::ifstream file(enwiki_path, std::ios::binary);
-                    // Buffer intentionally large to ensure we have enough text for tokens
-                    char buffer[max_seq_len * 10];
-                    file.read(buffer, sizeof(buffer));
-                    size_t bytes_read = file.gcount();
-                    enwiki_prompt = std::string(buffer, bytes_read);
-                }
-                else {
-                    cerr << "Error: Cannot find original enwiki file for initial prompt.\n";
-                    return 0;
-                }
+                cout << "Tokenizing initial prompt from internal dataset...\n";
+
+                // Use beginning of internal dataset for prompt
+                std::string prompt_text = training_text.substr(0, std::min(training_text.size(),
+                    static_cast<size_t>(max_seq_len * 10)));
 
-                // Tokenize the prompt
-                cout << "Tokenizing prompt...\n";
                 int text_start_id = tokenizer.get_special_token_id("<text>");
-                prompt_tokens.clear();                
+                prompt_tokens.clear();
                 prompt_tokens.push_back(text_start_id);
-                auto encoded_tokens = tokenizer.encode(enwiki_prompt);
+                auto encoded_tokens = tokenizer.encode(prompt_text);
                 prompt_tokens.insert(prompt_tokens.end(), encoded_tokens.begin(), encoded_tokens.end());
             }
 
-            // Limit to requested number of tokens (exact, no padding)
+            // Limit to requested number of tokens
             if (prompt_tokens.size() > (size_t)max_seq_len) {
                 prompt_tokens.resize(max_seq_len);
             }
             else if (prompt_tokens.size() < (size_t)max_seq_len) {
                 cerr << "Warning: Not enough tokens in prompt. Got " << prompt_tokens.size()
-                    << ", needed " << max_seq_len << ". Consider using a larger input file.\n";
+                    << ", needed " << max_seq_len << ".\n";
                 return 0;
             }
             cout << "Using " << prompt_tokens.size() << " tokens for initial prompt\n";
 
             // Put prompt in input sequence
-            context_manager llm_context(max_seq_len * 4, max_seq_len, tokenizer.get_special_token_id("<pad>"));
+            const int pad_token = tokenizer.get_special_token_id("<pad>");
+            inference_context llm_context(max_seq_len, 4, pad_token);
             llm_context.add_tokens(prompt_tokens);
-            auto input_seq = llm_context.get_input_sequence(max_seq_len);            
+            auto input_seq = llm_context.get_input_window();
 
             // Determine text size to generate
-            size_t target_size = (max_bytes > 0) ? max_bytes : get_file_size(enwiki_path);
+            size_t target_size = (max_bytes > 0) ? max_bytes : training_text.size();
             cout << "Will generate approximately " << target_size << " bytes\n";
 
             // Open output file
@@ -1260,20 +632,19 @@ int main(int argc, char** argv)
             size_t token_count = prompt_tokens.size();
 
             // Generate until target size is reached
-            int start_of_text = tokenizer.get_special_token_id("<text>"),
-                end_of_text = tokenizer.get_special_token_id("</text>"), next_token = 0;
-            while (total_bytes < target_size && next_token != start_of_text && next_token != end_of_text
-                && !g_terminate_flag.load()) {
+            int end_of_text = tokenizer.get_special_token_id("</text>"), next_token = 0;
+            while (total_bytes < target_size && next_token != end_of_text
+                && !signal_handler::is_triggered()) {
                 // Predict next token
-                std::vector<matrix<int, 0, 1>> in_tokens = { input_seq, input_seq };
-                auto out_token = net(in_tokens);
-                next_token = static_cast<int>(out_token[0]);
+                long pad_len = count_leading_padding(input_seq, pad_token);
+                tril_padding_context::set_uniform(pad_len, 1);
+                next_token = net(input_seq);
                 token_buffer.push_back(next_token);
                 token_count++;
 
                 // Shift the input window
                 llm_context.add_token(next_token);
-                input_seq = llm_context.get_input_sequence(max_seq_len);                
+                input_seq = llm_context.get_input_window();
 
                 // If buffer is full, write to file
                 if (token_buffer.size() >= buffer_size) {
@@ -1283,9 +654,8 @@ int main(int argc, char** argv)
                     token_buffer.clear();
 
                     // Display progress
-                    auto current_time = std::chrono::high_resolution_clock::now();
                     auto elapsed = std::chrono::duration_cast<std::chrono::seconds>(
-                        current_time - start_time).count();
+                        std::chrono::high_resolution_clock::now() - start_time).count();
                     double tokens_per_second = (token_count - input_seq.size()) / (elapsed > 0 ? elapsed : 1);
 
                     cout << "Generated " << (token_count - input_seq.size()) << " tokens, "
@@ -1296,8 +666,9 @@ int main(int argc, char** argv)
                         << (int)((target_size - total_bytes) / (tokens_per_second * (chunk.size() / (double)buffer_size)))
                         << " seconds\r";
                 }
-                if (max_tokens > 0 && token_count >= max_tokens) break;
+                if (max_tokens_limit > 0 && token_count >= max_tokens_limit) break;
             }
+            tril_padding_context::clear();
 
             // Flush remaining buffer
             if (!token_buffer.empty()) {
@@ -1312,24 +683,17 @@ int main(int argc, char** argv)
             auto total_time = std::chrono::duration_cast<std::chrono::seconds>(
                 end_time - start_time).count();
 
-            cout << "Generation complete in " << total_time << " seconds!\n";
+            cout << "\nGeneration complete in " << total_time << " seconds! (100%)\n";
             cout << "Generated " << (token_count - input_seq.size()) << " tokens after prompt, "
                 << total_bytes << " bytes total\n";
             cout << "Output saved to " << output_file << "\n";
         }
 
-        // ----------------------------------------------------------------------------------------
         // Verification mode - Compare original and generated file
-        // ----------------------------------------------------------------------------------------
         if (parser.option("verify"))
         {
             cout << "=== VERIFICATION MODE ===\n";
 
-            if (!file_exists(enwiki_path)) {
-                cerr << "Error: Original enwiki file not found at " << enwiki_path << "\n";
-                return 0;
-            }
-
             if (!file_exists(output_file)) {
                 cerr << "Error: Generated file not found at " << output_file << "\n";
                 return 0;
@@ -1337,16 +701,16 @@ int main(int argc, char** argv)
 
             // Read generated file
             cout << "Reading generated file...\n";
-            std::string generated = read_enwiki(output_file);
+            std::string generated = read_file_content(output_file);
 
-            // Read the same portion of original file
-            cout << "Reading original file (same size as generated)...\n";
-            std::string original = read_enwiki(enwiki_path, generated.size());
+            // Read the same portion of original dataset
+            cout << "Reading original dataset (set to same size as generated)...\n";
+            std::string original = training_text.substr(0, std::min(training_text.size(), generated.size()));
 
             cout << "Verifying byte-for-byte match...\n";
-            bool match = verify_match(original, generated);
+            bool verify = verify_match(original, generated);
 
-            if (match)
+            if (verify)
                 cout << "SUCCESS: The generated file matches the original text perfectly!\n";
             else
                 cout << "FAILED: The generated file does not match the original text.\n";
@@ -1359,4 +723,22 @@ int main(int argc, char** argv)
         cerr << "Exception thrown: " << e.what() << endl;
         return 1;
     }
-}
\ No newline at end of file
+}
+
+/*
+ * This program demonstrates advanced tokenization and training of a language model
+ * on an internal dataset using a BPE-style tokenizer with 2000 vocabulary entries.
+ * The training process produces a model file of approximately 17MB on disk.
+ *
+ * - Transformer model configuration:
+ *    + vocabulary size: 2000
+ *    + layers: 4
+ *    + attention heads: 6
+ *    + embedding dimension: 228 
+ *    + max sequence length: 100
+ * - Number of parameters: 3,915,458
+ *
+ * After a 1-step full training, the model achieves perfect memorization of the dataset.
+ * The generation option produces text that matches the original dataset byte-for-byte
+ * with 100% accuracy.
+ */
\ No newline at end of file
diff --git a/examples/slm_basic_train_ex.cpp b/examples/slm_basic_train_ex.cpp
index 35368f54a7..12415e47e2 100644
--- a/examples/slm_basic_train_ex.cpp
+++ b/examples/slm_basic_train_ex.cpp
@@ -1,20 +1,16 @@
 /*
+    @file slm_basic_train_ex.cpp
+    @brief Minimal character-level Transformer language model for training and text generation
+
     This program demonstrates a minimal example of a Very Small Language Model (VSLM)
     using dlib's deep learning tools. It includes two modes:
 
     1) --train  : Train a small Transformer-based language model on a character-based
-                  corpus extracted from "slm_data.h" (named shakespeare_text).
+                  corpus extracted from "slm_data.h".
 
     2) --generate: Generate new text from a trained model, given an initial prompt
                    extracted from "slm_data.h" (named shakespeare_prompt).
 
-    The "slm_dels.h" header is expected to provide a comprehensive Transformer
-    definition with the following key elements:
-      - A configurable transformer_config
-      - The use of classification_head to output a single token
-      - The network_type<true> or network_type<false> for training vs inference
-      - The typical dlib constructs (input<matrix<int>>, etc.)
-
     Character-level tokenization is used here. Each character is directly transformed
     into an integer token. The model attempts to learn the sequence of characters in
     shakespeare_text. Then you can ask the model to generate new text from a short
@@ -25,8 +21,7 @@
     patterns or concepts. However, it effectively illustrates the principle of
     attention and the ability to perfectly memorize and reproduce sequences from
     the training data. This makes it a useful educational tool for understanding
-    the mechanics of Transformer models, even if it lacks the capacity for
-    sophisticated language understanding.
+    the mechanics of Transformer models.
 */
 
 #include <iostream>
@@ -35,41 +30,41 @@
 #include <algorithm>
 #include <cmath>
 #include <random>
+
+#include <dlib/dnn.h>
 #include <dlib/data_io.h>
 #include <dlib/cmd_line_parser.h>
 #include <dlib/misc_api.h>
 
-// Include Transformer definitions
-#include "slm_defs.h"
-
-// This header "slm_data.h" is assumed to contain:
-//   const std::string shakespeare_text;
-//   const std::string shakespeare_prompt;
+// Include internal dataset
 #include "slm_data.h"
 
-// ----------------------------------------------------------------------------------------
-
 using namespace std;
 using namespace dlib;
 
-// We treat each character as a token ID in [0..255].
+// We treat each character as a token ID in [0..255]
 const int MAX_TOKEN_ID = 255;
-const int PAD_TOKEN = 256; // an extra "pad" token if needed
+const int PAD_TOKEN = 256; // Extra "pad" token if needed
 
-// For simplicity, we assume each line from shakespeare_text is appended, ignoring them.
+const std::string shakespeare_text = get_dataset_as_text(dataset_id::SHAKESPEARE_EXTRACT);
+const std::string prompt_text = get_dataset_as_text(dataset_id::SHAKESPEARE_PROMPT);
+
+// For simplicity, we assume each line from shakespeare_text is appended, ignoring them
 std::vector<int> char_based_tokenize(const std::string& text)
 {
     std::vector<int> tokens;
     tokens.reserve(text.size());
     for (const int c : text)
-    {
         tokens.push_back(std::min(c, MAX_TOKEN_ID));
-    }
+
     return tokens;
 }
 
 // Function to shuffle samples and labels in sync
-void shuffle_samples_and_labels(std::vector<matrix<int, 0, 1>>& samples, std::vector<unsigned long>& labels) {
+void shuffle_samples_and_labels(
+    std::vector<matrix<int, 0, 1>>& samples,
+    std::vector<unsigned long>& labels)
+{
     std::vector<size_t> indices(samples.size());
     std::iota(indices.begin(), indices.end(), 0); // Fill with 0, 1, 2, ..., N-1
     std::shuffle(indices.begin(), indices.end(), std::default_random_engine{});
@@ -101,7 +96,7 @@ int main(int argc, char** argv)
         parser.add_option("generate", "Generate text from a previously trained model (needs shakespeare_prompt)");
         parser.add_option("learning-rate", "Set the learning rate for training (default: 1e-4)", 1);
         parser.add_option("batch-size", "Set the mini-batch size for training (default: 64)", 1);
-        parser.add_option("generation-length", "Set the length of generated text (default: 400)", 1);
+        parser.add_option("generation-length", "Set the length of generated text (default: 550)", 1);
         parser.add_option("alpha", "Set the weight decay for Adam optimizer (default: 0.004)", 1);
         parser.add_option("beta1", "Set the first moment coefficient (default: 0.9)", 1);
         parser.add_option("beta2", "Set the second moment coefficient (default: 0.999)", 1);
@@ -118,65 +113,56 @@ int main(int argc, char** argv)
         // Default values
         const double learning_rate = get_option(parser, "learning-rate", 1e-4);
         const long batch_size = get_option(parser, "batch-size", 64);
-        const int generation_length = get_option(parser, "generation-length", 400);
-        const double alpha = get_option(parser, "alpha", 0.004);       // Initial learning rate for Adam
-        const double beta1 = get_option(parser, "beta1", 0.9);         // Decay rate for the first moment estimate
-        const double beta2 = get_option(parser, "beta2", 0.999);       // Decay rate for the second moment estimate
-        const size_t max_samples = get_option(parser, "max-samples",50000); // Default maximum number of training samples
+        const int generation_length = get_option(parser, "generation-length", 550);
+        const double alpha = get_option(parser, "alpha", 0.004);             // Initial learning rate for Adam
+        const double beta1 = get_option(parser, "beta1", 0.9);               // Decay rate for the first moment estimate
+        const double beta2 = get_option(parser, "beta2", 0.999);             // Decay rate for the second moment estimate
+        const size_t max_samples = get_option(parser, "max-samples", 50000); // Default maximum number of training samples
 
         // We define a minimal config for demonstration
-        const long vocab_size = MAX_TOKEN_ID + 1 + 1;   // 256 for chars + 1 pad token
+        const long vocab_size = (MAX_TOKEN_ID + 1) + 1; // 256 for chars + 1 pad token
         const long num_layers = 3;
         const long num_heads = 4;
         const long embedding_dim = 64;
-        const long max_seq_len = 80;   // a small sequence length for the example
-        const bool use_squeezing = false;
-
-        using my_transformer_cfg = transformer::transformer_config<
-            vocab_size,
-            num_layers,
-            num_heads,
-            embedding_dim,
-            max_seq_len,
-            use_squeezing,
-            gelu,
-            dropout_10
-        >;
+        const long max_seq_len = 50; // Small sequence length for the example
+
+        using train_fused_transformer =
+            loss_multiclass_log<fc<vocab_size, rms_norm<
+            fused_transformer::transformer_stack<num_layers, gelu, dropout_10, embedding_dim, num_heads,
+            positional_embeddings<vocab_size, embedding_dim, input<matrix<int, 0, 1>>>>>>>;
+
+        using infer_fused_transformer =
+            loss_multiclass_log<fc<vocab_size, rms_norm<
+            fused_transformer::transformer_stack<num_layers, gelu, multiply, embedding_dim, num_heads,
+            positional_embeddings<vocab_size, embedding_dim, input<matrix<int, 0, 1>>>>>>>;
 
         // For GPU usage (if any), set gpus = {0} for a single GPU, etc.
         std::vector<int> gpus{ 0 };
 
         // The model file to store or load
-        const std::string model_file = "shakespeare_lm_char_model.dat";
+        const std::string model_file = "dlib_lm_chars_model.dat";
 
-        // ----------------------------------------------------------------------------------------
-        // Train mode
-        // ----------------------------------------------------------------------------------------
+        // Training mode
         if (parser.option("train"))
         {
             cout << "=== TRAIN MODE ===\n";
 
-            // 1) Prepare training data (simple approach)
-            // We will store characters from shakespeare_text into a vector
-            // and then produce training samples of length (max_seq_len+1),
-            // where the last token is the label to predict from the preceding max_seq_len.
-            auto full_tokens = char_based_tokenize(shakespeare_text);
-            if (full_tokens.empty())
-            {
-                cerr << "ERROR: The Shakespeare text is empty. Please provide a valid training text.\n";
-                return 0;
-            }
-
-            // Calculate the maximum number of sequences
-            size_t max_sequences = (full_tokens.size() > (size_t)max_seq_len + 1)
-                ? (full_tokens.size() - ((size_t)max_seq_len + 1))
-                : 0;
+            // 1) Prepare training data using language_model_data utilities
+            std::vector<matrix<int, 0, 1>> samples;
+            std::vector<unsigned long> labels;
 
-            // Display the size of the training text and the number of sequences
-            cout << "Training text size: " << full_tokens.size() << " characters\n";
-            cout << "Maximum number of sequences: " << max_sequences << "\n";
+            build_single_token_prediction_dataset(
+                std::vector<std::vector<int>>{ char_based_tokenize(shakespeare_text) },
+                max_seq_len,
+                PAD_TOKEN,
+                false,  // use_left_padding = false (skip sequences shorter than window)
+                samples,
+                labels
+            );
 
             // Check if the text is too short
+            size_t max_sequences = samples.size();
+            cout << "Total number of sequences: " << max_sequences << "\n";
             if (max_sequences == 0)
             {
                 cerr << "ERROR: The Shakespeare text is too short for training. It must contain at least "
@@ -184,20 +170,12 @@ int main(int argc, char** argv)
                 return 0;
             }
 
-            std::vector<matrix<int, 0, 1>> samples;
-            std::vector<unsigned long> labels;
-
-            // Let's create a training set of about (N) samples from the text
-            // Each sample: [x0, x1, ..., x_(max_seq_len-1)] -> y
-            // We'll store them in "samples" and "labels".
-            const size_t N = (max_sequences < max_samples) ? max_sequences : max_samples;
-            for (size_t start = 0; start < N; ++start)
+            // Limit samples if requested
+            if (max_sequences > max_samples)
             {
-                matrix<int, 0, 1> seq(max_seq_len, 1);
-                for (long t = 0; t < max_seq_len; ++t)
-                    seq(t, 0) = full_tokens[start + t];
-                samples.push_back(seq);
-                labels.push_back(full_tokens[start + max_seq_len]);
+                cout << "Limiting to " << max_samples << " samples (from " << max_sequences << ")\n";
+                samples.resize(max_samples);
+                labels.resize(max_samples);
             }
 
             // Shuffle samples and labels if the --shuffle option is enabled
@@ -207,48 +185,47 @@ int main(int argc, char** argv)
                 shuffle_samples_and_labels(samples, labels);
             }
 
-            // 3) Construct the network in training mode
-            using net_type = my_transformer_cfg::network_type<true>;
-            net_type net;
+            // 2) Construct the network in training mode
+            train_fused_transformer net;
             if (file_exists(model_file))
+            {
+                cout << "Loading existing model from " << model_file << "\n";
                 deserialize(model_file) >> net;
+            }
 
-            // 4) Create dnn_trainer
-            dnn_trainer<net_type, adam> trainer(net, adam(alpha, beta1, beta2), gpus);
+            // 3) Create dnn_trainer
+            dnn_trainer<train_fused_transformer, adam> trainer(net, adam(alpha, beta1, beta2), gpus);
             trainer.set_learning_rate(learning_rate);
             trainer.set_min_learning_rate(1e-6);
             trainer.set_mini_batch_size(batch_size);
-            trainer.set_iterations_without_progress_threshold(15000);
-            trainer.set_max_num_epochs(400);
+            trainer.set_iterations_without_progress_threshold(5000);
+            trainer.set_max_num_epochs(150);
             trainer.be_verbose();
 
-            // 5) Train
+            // 4) Train
             trainer.train(samples, labels);
 
-            // 6) Evaluate quickly on the training set
+            // 5) Evaluate quickly on the training set
             auto predicted = net(samples);
             size_t correct = 0;
             for (size_t i = 0; i < labels.size(); ++i)
-                if (predicted[i] == labels[i])
-                    correct++;
+                if (predicted[i] == labels[i]) correct++;
             double accuracy = (double)correct / labels.size();
             cout << "Training accuracy (on this sample set): " << accuracy << "\n";
 
-            // 7) Save the model
+            // 6) Save the model
             net.clean();
             serialize(model_file) << net;
             cout << "Model saved to " << model_file << "\n";
         }
 
-        // ----------------------------------------------------------------------------------------
-        // Generate mode
-        // ----------------------------------------------------------------------------------------
+        // Generation mode
         if (parser.option("generate"))
         {
             cout << "=== GENERATE MODE ===\n";
+
             // 1) Load the trained model
-            using net_infer = my_transformer_cfg::network_type<false>;
-            net_infer net;
+            infer_fused_transformer net;
             if (file_exists(model_file))
             {
                 deserialize(model_file) >> net;
@@ -259,52 +236,41 @@ int main(int argc, char** argv)
                 cerr << "Error: model file not found. Please run --train first.\n";
                 return 0;
             }
-            cout << my_transformer_cfg::model_info::describe() << endl;
             cout << "Model parameters: " << count_parameters(net) << endl << endl;
 
             // 2) Get the prompt from the included slm_data.h
-            std::string prompt_text = shakespeare_prompt;
             if (prompt_text.empty())
             {
                 cerr << "No prompt found in slm_data.h.\n";
                 return 0;
             }
-            // If prompt is longer than max_seq_len, we keep only the first window
-            if (prompt_text.size() > (size_t)max_seq_len)
-                prompt_text.erase(prompt_text.begin() + max_seq_len, prompt_text.end());
 
-            // Convert prompt to a token sequence
-            const auto prompt_tokens = char_based_tokenize(prompt_text);
+            // 3) Initialize inference context
+            inference_context ctx(max_seq_len, 1, PAD_TOKEN);
 
-            // Put into a dlib matrix
-            matrix<int, 0, 1> input_seq(max_seq_len, 1);
-            // Fill with pad if prompt is shorter than max_seq_len
-            for (long i = 0; i < max_seq_len; ++i)
-            {
-                if ((size_t)i < prompt_tokens.size())
-                    input_seq(i, 0) = prompt_tokens[i];
-                else
-                    input_seq(i, 0) = PAD_TOKEN;
-            }
+            // Add prompt tokens to context
+            ctx.add_tokens(char_based_tokenize(prompt_text));
 
-            cout << "\nInitial prompt:\n" << prompt_text << " (...)\n\n\nGenerated text:\n" << prompt_text;
+            cout << "\nInitial prompt:\n" << prompt_text << "\n\n";
+            cout << "Generated text:\n" << prompt_text;
 
-            // 3) Generate new text
-            // We'll predict one character at a time, then shift the window
+            // 4) Generate new text using inference_context
             for (int i = 0; i < generation_length; ++i)
             {
-                const int next_char = net(input_seq); // single inference
+                // Get input window from context
+                auto input_seq = ctx.get_input_window();
+
+                // Predict next token
+                const unsigned long next_token = net(input_seq);
 
                 // Print the generated character
-                cout << static_cast<char>(std::min(next_char, MAX_TOKEN_ID)) << flush;
+                cout << static_cast<char>(std::min(static_cast<int>(next_token), MAX_TOKEN_ID)) << flush;
 
-                // Shift left by 1
-                for (long i = 0; i < max_seq_len - 1; ++i)
-                    input_seq(i, 0) = input_seq(i + 1, 0);
-                input_seq(max_seq_len - 1, 0) = std::min(next_char, MAX_TOKEN_ID);
+                // Add predicted token to context (automatic sliding window)
+                ctx.add_token(next_token);
             }
 
-            cout << "\n\n(end of generation)\n";
+            cout << "...\n\n(end of generation)\n";
         }
 
         return 0;
@@ -317,39 +283,40 @@ int main(int argc, char** argv)
 }
 
 /*
- * This program demonstrates the training of a language model on about 15k sequences.
- * The training process produces a data file of approximately 32MB on disk.
+ * This program demonstrates the training of a language model on about 14.6k sequences.
+ * The training process produces a data file of approximately 20MB on disk.
  *
  * - Transformer model configuration:
  *    + vocabulary size: 257
  *    + layers: 3
  *    + attention heads: 4
  *    + embedding dimension: 64
- *    + max sequence length: 80
- * - Number of parameters: 8,247,496
+ *    + max sequence length: 50
+ * - Number of parameters: 5,185,864
  *
- * The training cab be done using the following command line:
- * >./slm_basic_train_ex --train --shuffle
+ * The training can be performed using the following command line:
+ * > ./slm_basic_train_ex --train --shuffle
  *
- * After this phase, the model achieves perfect prediction accuracy (i.e acc=1).
- * The generation option produces text that is very close to the original training data,
- * as illustrated by the example below:
+ * After this phase, the model achieves perfect prediction accuracy (i.e acc~99.99%).
+ * The generation option produces text that is very similar or identical to the original
+ * training data, as illustrated by the example below:
+ * 
  * > Generated text:
- * > QUEEN ELIZABETH:
- * > But thou didst kill my children.
- * >
  * > KING RICHARD III:
- * > But in your daughter's womb I bury them:
- * > Where in that nest of spicery they shall breed
- * > Selves of themselves, to your recomforture.
- * >
- * > QUEEN ELIZABETH:
- * > Shall I go win my daughter to thy will?
+ * > Bear her my true love's kiss; and so, farewell.
+ * > Relenting fool, and shallow, changing woman!
+ * > How now! what news?
  * >
+ * > RATCLIFF:
+ * > My gracious sovereign, on the western coast
+ * > Rideth a puissant navy; to the shore
+ * > Throng many doubtful hollow-hearted friends,
+ * > Unarm'd, and unresolved to beat them back:
+ * > 'Tis thought that Richmond is their admiral;
+ * > And there they hull, expecting but the aid
+ * > Of Buckingham to welcome them ashore.
+ * 
  * > KING RICHARD III:
- * > And be a happy mother by the deed.
- * >
- * > QUEEN ELIZABETH:
- * > I go. Write to me very shortly.
- * > And you shall understand from me her mind.
- */
+ * > Some light-foot friend post to the Duke of Norfolk:
+ * > Ratcliff, thyself, or Cate...
+ */
\ No newline at end of file
diff --git a/examples/slm_chatbot_ex.cpp b/examples/slm_chatbot_ex.cpp
new file mode 100644
index 0000000000..2d917d8173
--- /dev/null
+++ b/examples/slm_chatbot_ex.cpp
@@ -0,0 +1,730 @@
+﻿/*!
+    @file slm_chatbot_ex.cpp
+    @brief Transformer-based chatbot with staged fine-tuning
+
+    This program demonstrates how to build a specialized chatbot using transformer
+    architecture with Mixture-of-Experts layers. The fine-tuning process is used to
+    specialize the model for conversational Q&A tasks using formatted prompt-response
+    pairs with special tags.
+
+    Key features:
+    - Layer-wise learning rate multipliers for selective fine-tuning
+    - Learning rate scheduler with warmup and cosine decay
+    - Padding-aware causal attention via tril_padding_context
+    - Stochastic text generation with temperature, top-k, nucleus sampling
+    - Repetition penalty and min-p filtering for improved generation quality
+
+    The chatbot is designed to answer questions about black holes and
+    related astrophysics topics, demonstrating how proper data formatting and
+    tagging can specialize a language model for specific domains.
+
+    Usage modes:
+    --fine-tune          Fine-tune on Q&A pairs for chatbot specialization
+    --prompt             Interactive prompting mode
+
+    Data format for fine-tuning:
+    <question><text>What is a black hole?</text>
+    <answer><text>A black hole is a region of spacetime...</text>
+
+    The special tags help the model learn the conversational structure and
+    role-based response patterns.
+!*/
+#include <iostream>
+#include <string>
+#include <vector>
+#include <algorithm>
+#include <cmath>
+#include <random>
+#include <fstream>
+#include <chrono>
+#include <csignal>
+#include <sstream>
+
+#include <dlib/dnn.h>
+#include <dlib/data_io.h>
+#include <dlib/cmd_line_parser.h>
+#include <dlib/tokenizer/bpe_tokenizer.h>
+#include <dlib/misc_api.h>
+
+// Include internal dataset
+#include "slm_data.h"
+
+using namespace std;
+using namespace dlib;
+
+namespace dlib
+{
+    // Expert network architecture for MoE layer
+    template <template <typename> class DO, long d_model>
+    using expert_net_type = swiglu<DO, d_model, input_tensor>;
+
+    // Complete transformer block with MoE-based feed-forward layer
+    template <template <typename> class ACT, template <typename> class DO,
+        long d_model, long num_heads, typename MODE, typename SUBNET>
+    using trans_moe_block =
+        moe_ffn<expert_net_type<DO, d_model>, 4, 0, MODE, DO,
+        add_prev1<multihead_attention<ACT, DO, d_model, num_heads, rms_norm<tag1<SUBNET>>>>>;
+
+    // Classification head for next-token prediction in conversational context
+    template <long num_logits, typename SUBNET>
+    using classification_head = loss_cross_entropy_per_logit<linear<num_logits, rms_norm<SUBNET>>>;
+
+    // Chatbot model configuration
+    template<
+        long vocab_size = 2000,
+        long num_layers = 3,
+        long num_heads = 6,
+        long embedding_dim = 192,
+        template <typename> class activation_func = gelu,
+        template <typename> class dropout_policy = dropout_10
+    >
+    struct chatbot_config {
+        static constexpr long VOCAB_SIZE = vocab_size;
+        static constexpr long NUM_LAYERS = num_layers;
+        static constexpr long NUM_HEADS = num_heads;
+        static constexpr long EMBEDDING_DIM = embedding_dim;
+
+        struct validation {
+            static_assert(VOCAB_SIZE > 0, "Vocabulary size must be positive");
+            static_assert(NUM_LAYERS > 0, "Number of layers must be positive");
+            static_assert(NUM_HEADS > 0, "Number of attention heads must be positive");
+            static_assert(EMBEDDING_DIM% NUM_HEADS == 0, "Embedding dimension must be divisible by number of heads");
+        };
+
+        // Network component definitions for training (with dropout)
+        template <typename SUBNET>
+        using t_transformer_block =
+            trans_moe_block<activation_func, dropout_policy, EMBEDDING_DIM, NUM_HEADS,
+            training_mode_tag, SUBNET>;
+
+        // Network component definitions for inference (using multiply)
+        template <typename SUBNET>
+        using i_transformer_block =
+            trans_moe_block<activation_func, multiply, EMBEDDING_DIM, NUM_HEADS,
+            inference_mode_tag, SUBNET>;
+
+        // Complete network type selector based on training/inference mode
+        template<bool is_training>
+        using network_type = std::conditional_t<is_training,
+            classification_head<VOCAB_SIZE,
+            repeat<NUM_LAYERS, t_transformer_block,
+            embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>,
+            classification_head<VOCAB_SIZE,
+            repeat<NUM_LAYERS, i_transformer_block,
+            embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>>;
+
+        struct model_info {
+            static std::string describe() {
+                std::stringstream ss;
+                ss << "Chatbot configuration:\n"
+                    << "- vocabulary: " << VOCAB_SIZE << " tokens\n"
+                    << "- layers: " << NUM_LAYERS << " transformer layers with MoE\n"
+                    << "- attention heads: " << NUM_HEADS << "\n"
+                    << "- embedding dimension: " << EMBEDDING_DIM << "\n"
+                    << "- experts per layer: 4 (auto top-n selection)";
+                return ss.str();
+            }
+        };
+    };
+}
+
+// ----------------------------------------------------------------------------------------
+
+void display_random_qa_samples(size_t num_samples = 3)
+{
+    try {
+        // Load Q&A dataset
+        auto qa_pairs = get_dataset_as_pairs({ dataset_id::BLACK_HOLE_QA_PARTA });
+        if (qa_pairs.empty()) {
+            cout << "Warning: No Q&A pairs found in dataset\n";
+            return;
+        }
+
+        cout << "=== SAMPLE QUESTIONS FROM TRAINING DATA ===\n";
+        cout << "Total Q&A pairs in dataset <part.a>: " << qa_pairs.size() << "\n\n";
+
+        // Generate random indices
+        dlib::rand rng(std::time(0));
+        std::vector<size_t> indices;
+        for (size_t i = 0; i < qa_pairs.size(); ++i)
+            indices.push_back(i);
+
+        // Shuffle indices
+        for (size_t i = indices.size() - 1; i > 0; --i) {
+            size_t j = rng.get_random_32bit_number() % (i + 1);
+            std::swap(indices[i], indices[j]);
+        }
+
+        // Display random samples (questions only)
+        num_samples = std::min(num_samples, qa_pairs.size());
+        for (size_t i = 0; i < num_samples; ++i) {
+            size_t idx = indices[i];
+            cout << "Example " << (i + 1) << " - ";
+            cout << "Q: " << qa_pairs[idx].first << "\n";
+        }
+
+        cout << "=========================================\n\n";
+    }
+    catch (const std::exception& e) {
+        cerr << "Error loading Q&A samples: " << e.what() << "\n";
+    }
+}
+
+// Visitor for setting learning rate multiplier on computational layers
+struct lr_mult_visitor
+{
+    double mult;
+
+    lr_mult_visitor(double m) : mult(m) {}
+
+    template <typename layer_type>
+    void operator()(size_t, layer_type& l) const
+    {
+        set_learning_rate_multiplier_impl(l, mult);
+    }
+
+private:
+    template <typename T>
+    static auto set_learning_rate_multiplier_impl(T& layer, double m)
+        -> decltype(layer.layer_details().set_learning_rate_multiplier(m), void())
+    {
+        layer.layer_details().set_learning_rate_multiplier(m);
+    }
+
+    template <typename T>
+    static void set_learning_rate_multiplier_impl(T&, ...)
+    {
+        // No-op for layers without this method
+    }
+};
+
+int main(int argc, char** argv)
+{
+    try
+    {
+        // Setup interrupt handling for clean termination
+        signal_handler::setup();
+
+        command_line_parser parser;
+        parser.add_option("fine-tune", "Fine-tune model on Q&A pairs for chatbot specialization");
+        parser.add_option("prompt", "Enter interactive prompting mode");
+        parser.add_option("learning-rate", "Set the learning rate (default: 1e-5)", 1);
+        parser.add_option("batch-size", "Set mini-batch size (default: 32)", 1);
+        parser.add_option("max-epochs", "Set maximum training epochs (default: 150)", 1);
+        parser.add_option("weight-decay", "Set the weight decay for AdamW (default: 0.01)", 1);
+        parser.add_option("beta1", "Set AdamW's beta1 coefficient (default: 0.9)", 1);
+        parser.add_option("beta2", "Set AdamW's beta2 coefficient (default: 0.999)", 1);
+        parser.add_option("patience", "Set iterations without progress threshold (default: 15000)", 1);
+        parser.add_option("model-file", "Path for model (default: dlib_lm_moe_model.dat)", 1);
+        parser.add_option("tokenizer-file", "Path for tokenizer (default: dlib_lm_tokenizer.vocab)", 1);
+        parser.add_option("temperature", "Set sampling temperature, higher = more creative (default: 0.8)", 1);
+        parser.add_option("top-k", "Set top-k filtering, max tokens to consider (default: 50)", 1);
+        parser.add_option("top-p", "Set nucleus sampling threshold (default: 0.9)", 1);
+        parser.add_option("repeat-penalty", "Set repetition penalty (default: 1.2)", 1);
+        parser.add_option("min-p", "Set relative minimum probability threshold (default: 0.05)", 1);
+        parser.add_option("deterministic", "Force deterministic generation mode (Argmax)");
+        parser.parse(argc, argv);
+
+        if (!parser.option("fine-tune") && !parser.option("prompt")) {
+            cout << "Transformer-based chatbot with staged fine-tuning\n\n";
+            parser.print_options();
+            return 0;
+        }
+
+        // Training hyperparameters
+        const double learning_rate = get_option(parser, "learning-rate", 1e-5);
+        const size_t batch_size = get_option(parser, "batch-size", 32);
+        const size_t max_epochs = get_option(parser, "max-epochs", 150);
+        const long patience = get_option(parser, "patience", 15000);
+        const double weight_decay = get_option(parser, "weight-decay", 0.01);
+        const double beta1 = get_option(parser, "beta1", 0.9);
+        const double beta2 = get_option(parser, "beta2", 0.999);
+
+        // File paths
+        const std::string model_file = get_option(parser, "model-file", std::string("dlib_lm_moe_model.dat"));
+        const std::string tokenizer_file = get_option(parser, "tokenizer-file", std::string("dlib_lm_tokenizer.vocab"));
+
+        // Configuration parameters
+        const long vocab_size = 2000;
+        const long max_seq_len = 128;
+        using config = chatbot_config<vocab_size>;
+        using train_net = config::network_type<true>;
+        using infer_net = config::network_type<false>;
+        cout << config::model_info::describe() << "\n\n";
+
+        // GPU configuration
+        std::vector<int> gpus{ 0 };
+        if (parser.option("fine-tune"))
+        {
+            cout << "=== FINE-TUNING MODE ===\n";
+            cout << "Objective: specialize model for conversational Q&A with proper formatting\n\n";
+
+            // Setup trainer for fine-tuning
+            std::string finetuned_model = model_file.substr(0, model_file.find_last_of('.'))
+                + "_finetuned.dat";
+            train_net net;
+            dnn_trainer<train_net, adamw> trainer(net, adamw(weight_decay, beta1, beta2), gpus);
+            trainer.set_learning_rate(learning_rate);
+            trainer.set_min_learning_rate(1e-7);
+            trainer.set_mini_batch_size(batch_size);
+            trainer.set_max_num_epochs(max_epochs);
+            trainer.set_iterations_without_progress_threshold(patience);
+            trainer.set_synchronization_file("chkpt-" + finetuned_model, std::chrono::minutes(25));
+            trainer.be_quiet();
+
+            // Load tokenizer & model
+            bpe_tokenizer tokenizer;
+            if (file_exists(model_file) &&
+                !file_exists("chkpt-" + finetuned_model)) deserialize(model_file) >> net >> tokenizer;
+            else if (file_exists(finetuned_model) &&
+                !file_exists("chkpt-" + finetuned_model)) deserialize(finetuned_model) >> net >> tokenizer;
+            else if (file_exists(tokenizer_file))
+                deserialize(tokenizer_file) >> tokenizer;
+            else {
+                cout << "Pre-trained tokenizer not found at: " << tokenizer_file << endl;
+                return 1;
+            }
+            const long pad_token = tokenizer.get_special_token_id("<pad>");
+            layer<0>(net).loss_details().set_ignore_index(pad_token);
+
+            // Load Q&A datasets for fine-tuning
+            cout << "Loading Q&A training datasets...\n";
+            std::vector<dataset_id> qa_datasets = {
+                dataset_id::BLACK_HOLE_QA_PARTA,
+                dataset_id::BLACK_HOLE_QA_PARTB,
+                dataset_id::BLACK_HOLE_QA_PARTC
+            };
+            auto all_qa_pairs = get_dataset_as_pairs(qa_datasets);
+
+            cout << "Loaded " << all_qa_pairs.size() << " Q&A pairs\n";
+            cout << "Format: uses special tags for role-based learning\n\n";
+
+            // Tokenize Q&A segments with markers
+            cout << "Tokenizing Q&A segments...\n";
+            long text_start_id = tokenizer.get_special_token_id("<text>"),
+                text_end_id = tokenizer.get_special_token_id("</text>"),
+                question_id = tokenizer.get_special_token_id("<question>"),
+                answer_id = tokenizer.get_special_token_id("<answer>");
+
+            std::vector<std::vector<int>> qa_tokens;
+            size_t total_tokens = 0;
+            for (const auto& qa_pair : all_qa_pairs) {
+                std::vector<int> pair_tokens;
+
+                // Format: <question><text>question_text</text>
+                pair_tokens.push_back(question_id);
+                pair_tokens.push_back(text_start_id);
+                auto q_tokens = tokenizer.encode(qa_pair.first);
+                pair_tokens.insert(pair_tokens.end(), q_tokens.begin(), q_tokens.end());
+                pair_tokens.push_back(text_end_id);
+
+                // Format: <answer><text>answer_text</text>
+                pair_tokens.push_back(answer_id);
+                pair_tokens.push_back(text_start_id);
+                auto a_tokens = tokenizer.encode(qa_pair.second);
+                pair_tokens.insert(pair_tokens.end(), a_tokens.begin(), a_tokens.end());
+                pair_tokens.push_back(text_end_id);
+
+                total_tokens += pair_tokens.size();
+                qa_tokens.push_back(std::move(pair_tokens));
+            }
+            cout << "Tokenization complete: " << total_tokens << " total Q&A tokens\n\n";
+
+            // Prepare fine-tuning dataset
+            cout << "Building fine-tuning dataset...\n";
+            std::vector<matrix<int, 0, 1>> samples;
+            std::vector<unsigned long> labels;
+            build_single_token_prediction_dataset(
+                qa_tokens,
+                max_seq_len,
+                tokenizer.get_special_token_id("<pad>"),
+                true,
+                samples,
+                labels
+            );
+            cout << "Fine-tuning samples: " << samples.size() << "\n";
+            if (samples.empty()) {
+                cerr << "Error: No fine-tuning samples generated\n";
+                return 1;
+            }
+
+            // Release memory
+            qa_tokens.clear();
+
+            // Strategy: Freeze embeddings and lower transformer layers, fine-tune upper layers
+            // - Embeddings: frozen (preserve learned token representations)
+            // - Lower transformer blocks: frozen or very slow (preserve general language understanding)
+            // - Upper transformer blocks: slow learning (adapt to domain)
+            // - Classification head: normal learning (specialize for task)
+            cout << "Applying freezing strategy for fine-tuning\n";
+            // Step 1: freeze everything first (multiplier = 0)
+            set_all_learning_rate_multipliers(net, 0.0);
+            // Step 2: unfreeze classification head (layers 1-2: linear + rms_norm)
+            layer<1>(net).layer_details().set_learning_rate_multiplier(1.0);  // linear (classification)
+            layer<2>(net).layer_details().set_learning_rate_multiplier(1.0);  // rms_norm
+            // Step 3: partially unfreeze upper transformer layers with gradual unfreezing
+            // For a 3-layer transformer, unfreeze the last 1-2 blocks with reduced LR
+            // Layer indices depend on architecture - adjust based on `net` output
+            // Top transformer block: moderate learning
+            visit_layers_range<3, 40>(net, lr_mult_visitor(0.3));
+            // Middle transformer block: slower learning  
+            visit_layers_range<40, 75>(net, lr_mult_visitor(0.1));
+            cout << net << endl;
+
+            size_t epoch = 0;
+            size_t batches_count = 0, batches_seen = 0, samples_seen = 0;
+            double total_loss = 0.0;
+            auto epoch_start = std::chrono::high_resolution_clock::now();
+
+            // Setup learning rate scheduler with warmup
+            const size_t steps_per_epoch = (samples.size() + batch_size - 1) / batch_size;
+            const size_t total_steps = steps_per_epoch * max_epochs;
+            const size_t warmup_steps = std::min(size_t(500), total_steps / 10);  // 10% or 500 steps max
+
+            lr_scheduler scheduler(
+                learning_rate,          // peak_lr
+                warmup_steps,           // warmup_steps
+                total_steps,            // total_steps
+                1e-7,                   // min_lr
+                lr_decay_type::COSINE   // decay_type
+            );
+
+            // Restore scheduler state if exists
+            const std::string scheduler_state_file = "scheduler-" + finetuned_model;
+            if (file_exists(scheduler_state_file)) {
+                deserialize(scheduler_state_file) >> scheduler;
+                cout << "Scheduler resumed: step " << scheduler.get_current_step()
+                    << ", phase: " << scheduler.get_phase_name()
+                    << ", learning rate: " << scheduler.get_learning_rate() << "\n";
+            }
+
+            cout << "Learning rate schedule:\n"
+                << "  peak learning rate: " << scheduler.get_peak_lr() << "\n"
+                << "  min learning rate: " << scheduler.get_min_lr() << "\n"
+                << "  warmup steps: " << scheduler.get_warmup_steps() << "\n"
+                << "  total steps: " << scheduler.get_total_steps() << "\n"
+                << "  current step: " << scheduler.get_current_step() << "\n"
+                << "  current phase: " << scheduler.get_phase_name() << "\n"
+                << "  decay type: COSINE\n\n";
+
+            // Training loop
+            cout << "Starting fine-tuning...\n";
+            while (!scheduler.is_training_complete() && epoch < max_epochs
+                && !signal_handler::is_triggered())
+            {
+                total_loss = 0.0;
+                batches_seen = 0;
+                samples_seen = 0;
+                epoch_start = std::chrono::high_resolution_clock::now();
+
+                // Shuffle the dataset
+                shuffle_training_dataset(samples, labels);
+
+                for (size_t i = 0; i < samples.size() && !signal_handler::is_triggered(); i += batch_size)
+                {
+                    size_t batch_end = std::min(i + batch_size, samples.size());
+                    std::vector<matrix<int, 0, 1>> batch_samples(
+                        samples.begin() + i, samples.begin() + batch_end);
+                    std::vector<unsigned long> batch_labels(
+                        labels.begin() + i, labels.begin() + batch_end);
+
+                    // Update learning rate from scheduler
+                    double current_lr = scheduler.get_learning_rate();
+                    trainer.set_learning_rate(current_lr);
+
+                    std::vector<long> pad_lengths(batch_samples.size());
+                    for (size_t j = 0; j < batch_samples.size(); ++j)
+                        pad_lengths[j] = count_leading_padding(batch_samples[j], static_cast<int>(pad_token));
+                    tril_padding_context::set_from_lengths(pad_lengths);
+
+                    // Train
+                    trainer.train_one_step(batch_samples, batch_labels);
+
+                    // Advance scheduler
+                    scheduler.step();
+
+                    total_loss += trainer.get_average_loss();
+                    batches_seen++;
+                    samples_seen += batch_samples.size();
+
+                    // Progress reporting
+                    if (batches_count++ % 100 == 0) {
+                        double avg_loss = total_loss / batches_seen;
+                        auto elapsed = std::chrono::duration_cast<std::chrono::seconds>(
+                            std::chrono::high_resolution_clock::now() - epoch_start).count();
+                        double samples_per_sec = samples_seen / (elapsed > 0 ? elapsed : 1);
+
+                        std::ios_base::fmtflags old_flags = cout.flags();
+                        std::streamsize old_precision = cout.precision();
+
+                        cout << "epoch#: " << (epoch + 1) << "/" << max_epochs
+                            << " \t loss: " << std::fixed << std::setprecision(3) << avg_loss
+                            << " \t lr: " << std::scientific << std::setprecision(2) << current_lr
+                            << " \t phase: " << scheduler.get_phase_name()
+                            << " \t progress: " << std::fixed << std::setprecision(1)
+                            << (scheduler.get_total_progress() * 100) << "%"
+                            << " \t speed: " << samples_per_sec << " samples/sec\n";
+                        cout.flush();
+
+                        cout.flags(old_flags);
+                        cout.precision(old_precision);
+
+                        // Save scheduler checkpoint periodically
+                        serialize(scheduler_state_file) << scheduler;
+                    }
+
+                    // Check if scheduler indicates training is complete
+                    if (scheduler.is_training_complete()) break;
+                }
+                epoch++;
+            }
+            tril_padding_context::clear();
+
+            // Save fine-tuned model
+            set_all_learning_rate_multipliers(net, 1.0);  // Reset multipliers before saving
+            cout << "\nFine-tuning complete, saving specialized model...\n";
+            cout << "Final step: " << scheduler.get_current_step()
+                << ", final learning rate: " << scheduler.get_learning_rate() << "\n";
+            net.clean();
+
+            serialize(finetuned_model) << net << tokenizer;
+            cout << "Fine-tuned model saved to " << finetuned_model << "\n";
+
+            cout << "\nFine-tuning completed successfully\n";
+            cout << "The model is now specialized for chatbot Q&A interactions\n";
+            cout << "Next step: use --prompt to interact with the Chatbot\n";
+        }
+
+        // PROMPTING MODE
+        else if (parser.option("prompt"))
+        {
+            cout << "=== INTERACTIVE PROMPTING MODE ===\n";
+            cout << "Chat specialized in astrophysics and black holes\n\n";
+
+            // Display 3 random sample questions from training data
+            display_random_qa_samples(5);
+            cout << "Type 'quit' to exit\n\n";
+
+            // Sampling parameters for text generation
+            size_t top_k = get_option(parser, "top-k", 50);
+            float top_p = get_option(parser, "top-p", 0.9f);
+            float repeat_penalty = get_option(parser, "repeat-penalty", 1.2f);
+            float min_p = get_option(parser, "min-p", 0.05f);
+            bool deterministic_mode = parser.option("deterministic");
+            float temperature = deterministic_mode ? 1.0f : get_option(parser, "temperature", 0.8f);
+            dlib::rand rng(std::time(0));
+
+            // Load fine-tuned model
+            bpe_tokenizer tokenizer;
+            softmaxm<multiply<infer_net::subnet_type>> generator(multiply_(1.0 / temperature));
+            {
+                infer_net net;
+                std::string finetuned_model = model_file.substr(0, model_file.find_last_of('.'))
+                    + "_finetuned.dat";
+                if (!file_exists(finetuned_model)) {
+                    cerr << "Error: fine-tuned model not found: " << finetuned_model << "\n";
+                    cerr << "Please run --fine-tune first.\n";
+                    return 1;
+                }
+                deserialize(finetuned_model) >> net >> tokenizer;
+                cout << "Fine-tuned model loaded from " << finetuned_model << "\n\n";
+                generator.subnet().subnet() = net.subnet();
+            }            
+
+            // Get special token IDs
+            long text_start_id = tokenizer.get_special_token_id("<text>");
+            long text_end_id = tokenizer.get_special_token_id("</text>");
+            long question_id = tokenizer.get_special_token_id("<question>");
+            long answer_id = tokenizer.get_special_token_id("<answer>");
+
+            // Setup inference context
+            const long pad_token = tokenizer.get_special_token_id("<pad>");
+            inference_context ctx(max_seq_len, 3, pad_token);
+
+            // Interactive loop
+            while (!signal_handler::is_triggered())
+            {
+                // Get user input
+                cout << "You: ";
+                cout.flush();
+
+                std::string user_input;
+                if (!std::getline(std::cin, user_input)) break;
+
+                // Trim whitespace
+                user_input.erase(0, user_input.find_first_not_of(" \t\n\r"));
+                user_input.erase(user_input.find_last_not_of(" \t\n\r") + 1);
+                if (user_input.empty()) continue;
+
+                // Check for quit command
+                if (user_input == "quit" || user_input == "exit") {
+                    cout << "Goodbye!\n";
+                    break;
+                }
+
+                // Tokenize user input with proper formatting
+                // Format: <question><text>user_input</text>
+                std::vector<int> input_tokens;
+                input_tokens.push_back(question_id);
+                input_tokens.push_back(text_start_id);
+                auto q_tokens = tokenizer.encode(user_input);
+                input_tokens.insert(input_tokens.end(), q_tokens.begin(), q_tokens.end());
+                input_tokens.push_back(text_end_id);
+
+                // Add to context
+                ctx.add_tokens(input_tokens);
+
+                // Prepare for bot response
+                // Format: <answer><text>
+                ctx.add_token(answer_id);
+                ctx.add_token(text_start_id);
+
+                // Generate response token by token
+                cout << "CHATBOT: ";
+                cout.flush();
+
+                // Top-k/top-p (nucleus) sampling for non-deterministic text generation.
+                // This function applies temperature scaling, repetition penalty, min-p filtering, 
+                // top-k filtering, and nucleus sampling to select the next token.
+                auto top_k_p_sample = [&rng, &ctx, &text_end_id](
+                    const float* probs, size_t N, size_t k,
+                    float p, float repeat_penalty, float min_p) -> size_t
+                    {
+                        // Copy probabilities
+                        std::vector<float> p_copy(probs, probs + N);
+
+                        // Step 1: Apply repetition penalty ONCE
+                        if (repeat_penalty > 1.0f) {
+                            const auto& context_tokens = ctx.get_full_context();
+
+                            // Penalize only recent tokens (last 20%)
+                            size_t recent_size = std::max(size_t(1),
+                                static_cast<size_t>(context_tokens.size() * 0.2));
+                            size_t start_idx = (context_tokens.size() > recent_size)
+                                ? context_tokens.size() - recent_size : 0;
+
+                            for (size_t i = start_idx; i < context_tokens.size(); ++i) {
+                                int token_id = context_tokens[i];
+                                if (token_id >= 0 && static_cast<size_t>(token_id) < N) {
+                                    p_copy[token_id] /= repeat_penalty;
+                                }
+                            }
+                        }
+
+                        // Step 2: Renormalize after penalty
+                        float sum_after_penalty = 0.0f;
+                        for (size_t i = 0; i < N; ++i) {
+                            sum_after_penalty += p_copy[i];
+                        }
+                        if (sum_after_penalty > 1e-8f) {
+                            for (size_t i = 0; i < N; ++i) {
+                                p_copy[i] /= sum_after_penalty;
+                            }
+                        }
+
+                        // Step 3: Find max probability for min-p filtering
+                        float max_prob = *std::max_element(p_copy.begin(), p_copy.end());
+                        float min_p_threshold = max_prob * min_p;
+
+                        // Step 4: Build candidate list with min-p filter
+                        std::vector<std::pair<size_t, float>> candidates;
+                        candidates.reserve(N);
+
+                        for (size_t i = 0; i < N; ++i) {
+                            if (p_copy[i] >= min_p_threshold) {
+                                candidates.push_back({ i, p_copy[i] });
+                            }
+                        }
+
+                        if (candidates.empty()) {
+                            return text_end_id;  // Fallback
+                        }
+
+                        // Step 5: Sort and apply top-k
+                        k = std::min(k, candidates.size());
+                        std::partial_sort(candidates.begin(), candidates.begin() + k, candidates.end(),
+                            [](const auto& a, const auto& b) { return a.second > b.second; });
+
+                        // Step 6: Apply top-p (nucleus sampling)
+                        float cumsum = 0.0f;
+                        size_t cutoff = 0;
+                        for (size_t i = 0; i < k; ++i) {
+                            cumsum += candidates[i].second;
+                            cutoff = i;
+                            if (cumsum >= p) break;
+                        }
+
+                        // Step 7: Renormalize filtered distribution
+                        float final_sum = 0.0f;
+                        for (size_t i = 0; i <= cutoff; ++i) {
+                            final_sum += candidates[i].second;
+                        }
+
+                        if (final_sum < 1e-8f) {
+                            return candidates[0].first;  // Return most probable
+                        }
+
+                        // Step 8: Sample from normalized distribution
+                        float r = rng.get_random_float() * final_sum;
+                        float cs = 0.0f;
+                        for (size_t i = 0; i <= cutoff; ++i) {
+                            cs += candidates[i].second;
+                            if (r <= cs) {
+                                return candidates[i].first;
+                            }
+                        }
+
+                        return candidates[0].first;  // Fallback
+                    };
+
+                int next_token, max_response_tokens = 3 * max_seq_len;
+                for (int i = 0; i < max_response_tokens && !signal_handler::is_triggered(); ++i)
+                {
+                    // Get current context window and predict next token
+                    auto input_window = ctx.get_input_window();
+                    long pad_len = count_leading_padding(input_window, static_cast<int>(pad_token));
+                    tril_padding_context::set_uniform(pad_len, 1);
+                    auto& probs_tensor = generator(input_window);
+
+                    // Extract dimensions
+                    const long seq_len = probs_tensor.nr();
+                    const long vocab_size = probs_tensor.nc();
+                    const long last_pos = seq_len - 1;
+
+                    // Get pointer to probabilities at last position
+                    const long offset = tensor_index(probs_tensor, 0, 0, last_pos, 0);
+                    const float* probs = probs_tensor.host() + offset;
+
+                    if (deterministic_mode) {
+                        // Argmax: select most probable token
+                        const float* max_ptr = std::max_element(probs, probs + vocab_size);
+                        next_token = static_cast<int>(std::distance(probs, max_ptr));
+                    }
+                    else {
+                        // Stochastic sampling
+                        next_token = top_k_p_sample(probs, vocab_size, top_k, top_p, repeat_penalty, min_p);
+                    }
+
+                    ctx.add_token(next_token);
+
+                    // Decode and display token
+                    std::string token_text = tokenizer.decode(next_token, false);
+                    cout << token_text;
+                    cout.flush();
+
+                    // Stop if end token is found
+                    if (next_token == text_end_id) break;
+                }
+                cout << "\n\n";
+            }
+            tril_padding_context::clear();
+        }
+
+        return 0;
+    }
+    catch (exception& e)
+    {
+        cerr << "Exception thrown: " << e.what() << endl;
+        return 1;
+    }
+}
\ No newline at end of file
diff --git a/examples/slm_data.h b/examples/slm_data.h
index 37c08f29b8..af097ad181 100644
--- a/examples/slm_data.h
+++ b/examples/slm_data.h
@@ -1,593 +1,2298 @@
-#ifndef SlmData_H
-#define SlmData_H
+#ifndef SLM_DATA_H
+#define SLM_DATA_H
 
 #include <string>
 #include <vector>
+#include <utility>
 #include <algorithm>
+#include <sstream>
+#include <stdexcept>
+
+#include <dlib/compress_stream.h>
+#include <dlib/base64.h>
+
+// Dataset identification
+/*!
+    Dataset formats
+        Each dataset, when decompressed, contains text with specific structure:
+
+        - RAW_TEXT: Plain text without special separators
+          Example: "First paragraph.\nSecond paragraph.\nThird paragraph."
+
+        - DELIMITED_TEXT: Text segments separated by "@@" delimiter
+          Example: "Segment 1@@Segment 2@@Segment 3"
+
+        - PAIRED_TEXT: Alternating text segments separated by "@@", grouped into pairs
+          Example: "Question 1@@Answer 1@@Question 2@@Answer 2"
+!*/
+enum class dataset_id
+{
+    SHAKESPEARE_EXTRACT,            // Classic literature excerpt (RAW_TEXT format)
+    SHAKESPEARE_PROMPT,             // Shakespeare text formatted as training prompt (RAW_TEXT format)
+    BLACK_HOLE_ARTICLE,             // Black hole physics comprehensive article (RAW_TEXT format)
+    PHYSICS_PARAGRAPHS,             // Physics text segments (DELIMITED_TEXT format)
+    BLACK_HOLE_QA_PARTA,            // Question-answer pairs on black holes (PAIRED_TEXT format)
+    BLACK_HOLE_QA_PARTB,
+    BLACK_HOLE_QA_PARTC,
+    GENERAL_KNOWLEDGE               // General knowledge segments across varied topics (DELIMITED_TEXT format)
+};
 
-// Utility function to concatenate text parts
-inline std::string concatenateTexts(const std::vector<std::string>& texts) {
-    std::string result;
-    for (const auto& text : texts) {
-        result += text;
+// Code compression utility
+namespace detail
+{
+    // Decompresses base64-encoded and compressed data
+    // This is the low-level utility used by all dataset accessors
+    inline std::string decompress_data(const std::string& compressed_base64_data)
+    {
+        dlib::base64 base64_coder;
+        dlib::compress_stream::kernel_1ea compressor;
+        std::ostringstream sout;
+        std::istringstream sin;
+
+        sin.str(compressed_base64_data);
+        base64_coder.decode(sin, sout);
+
+        sin.clear();
+        sin.str(sout.str());
+        sout.str("");
+
+        compressor.decompress(sin, sout);
+        return sout.str();
+    }
+
+    // Splits a string by the "@@" delimiter into a vector of segments
+    // Used for DELIMITED_TEXT and PAIRED_TEXT formats
+    inline std::vector<std::string> split_by_delimiter(const std::string& text, std::string delimiter = "@@")
+    {
+        std::vector<std::string> result;
+        std::string::size_type start = 0;
+        std::string::size_type end;
+
+        while ((end = text.find(delimiter, start)) != std::string::npos)
+        {
+            result.push_back(text.substr(start, end - start));
+            start = end + delimiter.length();
+        }
+
+        // Add last segment if not empty
+        if (start < text.length())
+            result.push_back(text.substr(start));
+
+        return result;
+    }
+
+    // Converts a delimited string into pairs by grouping consecutive segments
+    // Expects even number of segments for proper pairing
+    inline std::vector<std::pair<std::string, std::string>> parse_pairs(const std::string& text)
+    {
+        auto segments = split_by_delimiter(text);
+
+        if (segments.size() % 2 != 0)
+            throw std::runtime_error("Paired dataset must have even number of segments");
+
+        std::vector<std::pair<std::string, std::string>> result;
+        result.reserve(segments.size() / 2);
+
+        for (size_t i = 0; i < segments.size(); i += 2)
+            result.emplace_back(segments[i], segments[i + 1]);
+
+        return result;
     }
-    return result;
 }
 
-// Text parts for training
-const std::vector<std::string> shakespeare_text_parts = {
-    R"(QUEEN ELIZABETH:
-Send to her, by the man that slew her brothers,
-A pair of bleeding-hearts; thereon engrave
-Edward and York; then haply she will weep:
-Therefore present to her--as sometime Margaret
-Did to thy father, steep'd in Rutland's blood,--
-A handkerchief; which, say to her, did drain
-The purple sap from her sweet brother's body
-And bid her dry her weeping eyes therewith.
-If this inducement force her not to love,
-Send her a story of thy noble acts;
-Tell her thou madest away her uncle Clarence,
-Her uncle Rivers; yea, and, for her sake,
-Madest quick conveyance with her good aunt Anne.
-
-KING RICHARD III:
-Come, come, you mock me; this is not the way
-To win our daughter.
-
-QUEEN ELIZABETH:
-There is no other way
-Unless thou couldst put on some other shape,
-And not be Richard that hath done all this.
-
-KING RICHARD III:
-Say that I did all this for love of her.
-
-QUEEN ELIZABETH:
-Nay, then indeed she cannot choose but hate thee,
-Having bought love with such a bloody spoil.
-
-KING RICHARD III:
-Look, what is done cannot be now amended:
-Men shall deal unadvisedly sometimes,
-Which after hours give leisure to repent.
-If I did take the kingdom from your sons,
-To make amends, Ill give it to your daughter.
-If I have kill'd the issue of your womb,
-To quicken your increase, I will beget
-Mine issue of your blood upon your daughter
-A grandam's name is little less in love
-Than is the doting title of a mother;
-They are as children but one step below,
-Even of your mettle, of your very blood;
-Of an one pain, save for a night of groans
-Endured of her, for whom you bid like sorrow.
-Your children were vexation to your youth,
-But mine shall be a comfort to your age.
-The loss you have is but a son being king,
-And by that loss your daughter is made queen.
-I cannot make you what amends I would,
-Therefore accept such kindness as I can.
-Dorset your son, that with a fearful soul
-Leads discontented steps in foreign soil,
-This fair alliance quickly shall call home
-To high promotions and great dignity:
-The king, that calls your beauteous daughter wife.
-Familiarly shall call thy Dorset brother;
-Again shall you be mother to a king,
-And all the ruins of distressful times
-Repair'd with double riches of content.
-What! we have many goodly days to see:
-The liquid drops of tears that you have shed
-Shall come again, transform'd to orient pearl,
-Advantaging their loan with interest
-Of ten times double gain of happiness.
-Go, then my mother, to thy daughter go
-Make bold her bashful years with your experience;
-Prepare her ears to hear a wooer's tale
-Put in her tender heart the aspiring flame
-Of golden sovereignty; acquaint the princess
-With the sweet silent hours of marriage joys
-And when this arm of mine hath chastised
-The petty rebel, dull-brain'd Buckingham,
-Bound with triumphant garlands will I come
-And lead thy daughter to a conqueror's bed;
-To whom I will retail my conquest won,
-And she shall be sole victress, Caesar's Caesar.
-
-QUEEN ELIZABETH:
-What were I best to say? her father's brother
-Would be her lord? or shall I say, her uncle?
-Or, he that slew her brothers and her uncles?
-Under what title shall I woo for thee,
-That God, the law, my honour and her love,
-Can make seem pleasing to her tender years?
-
-KING RICHARD III:
-Infer fair England's peace by this alliance.
-
-QUEEN ELIZABETH:
-Which she shall purchase with still lasting war.
-
-KING RICHARD III:
-Say that the king, which may command, entreats.
-
-QUEEN ELIZABETH:
-That at her hands which the king's King forbids.
-
-KING RICHARD III:
-Say, she shall be a high and mighty queen.
-
-QUEEN ELIZABETH:
-To wail the tide, as her mother doth.
-
-KING RICHARD III:
-Say, I will love her everlastingly.
-
-QUEEN ELIZABETH:
-But how long shall that title 'ever' last?
-
-KING RICHARD III:
-Sweetly in force unto her fair life's end.
-
-QUEEN ELIZABETH:
-But how long fairly shall her sweet lie last?
-
-KING RICHARD III:
-So long as heaven and nature lengthens it.
-
-QUEEN ELIZABETH:
-So long as hell and Richard likes of it.
-
-KING RICHARD III:
-Say, I, her sovereign, am her subject love.
-
-QUEEN ELIZABETH:
-But she, your subject, loathes such sovereignty.
-
-KING RICHARD III:
-Be eloquent in my behalf to her.
-
-QUEEN ELIZABETH:
-An honest tale speeds best being plainly told.
-
-KING RICHARD III:
-Then in plain terms tell her my loving tale.
-
-QUEEN ELIZABETH:
-Plain and not honest is too harsh a style.
-
-)",
-
-    R"(KING RICHARD III:
-Your reasons are too shallow and too quick.
-
-QUEEN ELIZABETH:
-O no, my reasons are too deep and dead;
-Too deep and dead, poor infants, in their grave.
-
-KING RICHARD III:
-Harp not on that string, madam; that is past.
-
-QUEEN ELIZABETH:
-Harp on it still shall I till heart-strings break.
-
-KING RICHARD III:
-Now, by my George, my garter, and my crown,--
-
-QUEEN ELIZABETH:
-Profaned, dishonour'd, and the third usurp'd.
-
-KING RICHARD III:
-I swear--
-
-QUEEN ELIZABETH:
-By nothing; for this is no oath:
-The George, profaned, hath lost his holy honour;
-The garter, blemish'd, pawn'd his knightly virtue;
-The crown, usurp'd, disgraced his kingly glory.
-if something thou wilt swear to be believed,
-Swear then by something that thou hast not wrong'd.
-
-KING RICHARD III:
-Now, by the world--
-
-QUEEN ELIZABETH:
-'Tis full of thy foul wrongs.
+// Compressed dataset storage
+namespace datasets
+{
+    // Returns compressed Shakespeare extract data
+    // Decompressed format : RAW_TEXT(plain continuous text)
+    inline std::string get_shakespeare_compressed()
+    {
+        std::ostringstream sout;
+        sout << "UU0b45RDWgwOJdW8F9arj/rWvyYXKU0ZCZOrQSPZnFRPBpS4tJ4b3jPEo37TnIKnJUijuYMKL5Xh";
+        sout << "voFfev7RxQRDb0u6xe1EtpbzTtSiLfocXEdb8ajZq6LneT8w0p4FxnOR1+ulQWVJAA/UbHnl9Y98";
+        sout << "Uk7Ds5sfmRdsCjDcAUSvnyBbJa54JtzPBVGBkK0i2/BUroFQOr4dq255RYLc3uVPl45dyfVhW7KR";
+        sout << "JxgKvj/Vg4bqBXk4YjRU9XCE/Jhh9uwUJEyZLse8UcoPvo1qp+yOc+sI+zlf3Iat1y+DyM59rxXT";
+        sout << "mLm1V7uLNHSq9c/z0DkiuXFM0L4catKL27o77AB3V75LhDazEafyuRbf/vXa9BEUqzDQXvAsfT/m";
+        sout << "AT2zBS/h3+K3WN1xI0JuClFAwK+epbnciH0Xown9qFKRktdbngnzggPCKDAs+PaCRiDL7V6XMvYk";
+        sout << "TcdJ2Ecce28uCcUSyg1IOuAFSfzYpfDxpkFbKSuDI6jh2/z51LUX2gt/cUNIwORr1v9uBiqlLs1O";
+        sout << "kWO3MQbrtTLbMXKevNrPrADcAm/U+TSziKu9if+OCY/g/rJc4KrS+d1oKZARs4xU3st/HKEcC+L2";
+        sout << "QdHtstPTtUZDzWSqQwVouDeueNEFQC/8oPCwlcNQMY4bRuf1D7rNZTuoJVJ3YuRRtIZW9uGYeP9j";
+        sout << "PbC9kTd6+4ROF84JZ6/1w914n+2hLJxuVy876ohwwJ6bcpOexdmaQe9+oy+MTNTfaPkr4DOa/wie";
+        sout << "W1u2VkssLkWS3NpND0UO5ZivEvOjFTEYzDrY6/PQrYA4QbTkMBQjykVEXIEV/8m3h022Yza2ugr0";
+        sout << "osnyggIknb5n7BDZ9JKDPa4EJXEkrDlmdM/cZ8Gc2oqFf0Iu7iBfLc3xKEngK8JHsDCTlZLBhqxy";
+        sout << "E1kKWxHr1UJu9lTWpGQ9R8McfInXXf9hQp42LFnFYimbMCzTE3zMBKs2PAfUr3euLfK3nSXQCU1F";
+        sout << "lBVSPHAUMZdpeD3arP5XDV7XeX44gvyOg/js+jj05Gna2tqTIYg0zIi14Ovw2Oe2EJMYfVq8/Mro";
+        sout << "KKCmgl/1KJD40fNwRFZTryoVVWqBjBuTFgwSsYjvSxf/Um7/ZXKe8cwyW+gP7C71tKlej6mmEktC";
+        sout << "UO0kt49nBsqGmW/jMz7I255DhkU8zqUDqpOmPMoi1g1CRyDGmoSEKtq0YN0UYE7rR8cBK9AD0XYH";
+        sout << "iltse5Hx2gSXcmVYQPemOmsjhjVEbeKQ1p9XspaTI0m3oM5/3KlyoM9bc5bIFbzdcL9wHATLEK+P";
+        sout << "LShITqooveRLPSQ73gwmAtzy2btiqm9I9xCT/TBYs7g7RJON5lfX+w2Uw7Xpfqys64+4r1QvNks6";
+        sout << "TWfJFpVjNpLDvq2u+FTR+dCjqi7x2nWl9YRhfiapBW0bG2aqa1sdVh9/4dp97zMueqsWCGBUJaW5";
+        sout << "IdnsZMFWE6sfII5+HnFQOtcgyFRlelAW0xPiRh/T30BoiqgcEKWgAZ+CpAq4I7nxkiq2ZiojTJPm";
+        sout << "skvRgdimillgrrUuhe5G6FNnDceclsf8VB9nKMiLklAVoNlyo/pwvjwisQpTlGtS3fCxUzEHlsk5";
+        sout << "FPaLx/OO34c//Py53TXw931JSipD7b/41hSkAFtAOsCuU/hYZUK2b/tfy4bzftc/YPHKTRzO6dsH";
+        sout << "U3S3j98I2PEnK8sUsuUKx0Xk2KECZ0KEOFlcGw+S9/qmHdObkN2HK8NyB6vvlsBxUwqKbn3xbszS";
+        sout << "ysuAE2LPBzve3JYw/NHhjUWYCzZYksJITGHTotV/Etv780b1pbQyMTm8kagG17o6Bk1CWVIpuVhy";
+        sout << "3be8RMYzlvDP3a4VmSGOJBapzH6KCyCzNszDB4Zb4teSekSHGPxXdpJK+FMJOmL066lZBOvaIoSN";
+        sout << "7RdfEfUh+EIzlF0gnHUolZpnaI+lX9VgfZ6X3TgtLY/EBSP6iGfXZqi/PfgGHSKRx0MtSeVWuUUM";
+        sout << "AkN4ARbo90ke74bsx32zZYG5waW/rkkHE8e3fQ75tTUgXhf47M5SZLWrxl/qDEbJL3b+H2dxkD+c";
+        sout << "+GbDbF8nzyn3eZPlyuxgo6vJpE3APjPRqrqv26HN4GepnRPK2kr6o+fhdrItBYAgakrL7NzWhH6P";
+        sout << "itdDrlx61WKhuv1YUc1KkGeaxfx+DuIsy/mpwwUn1D5xpGtkTeruXsfMJvhDzuNCYW60k0ryEHJS";
+        sout << "E8vUh9vwMaa9Mc38+4aHtHvJiahy1zHLUspDFcYIC5ubpmmT8fJVBbo0H3qy1j++p65v0ktL/Szm";
+        sout << "68w0+KejbIrLuL5HG/5VpCNId1DpavclTUJKsEgoUHZILtA+OM12SW2b5MgIofntxqWpqbfGErNh";
+        sout << "ICwgDSJfyLiPHvRtS9nKxveHWnT0yzEnUdEZY4xiHtDmW/Qt/LsBzIDplVqTh1vofdBkeGC/LMPP";
+        sout << "6F+Nq94rKkIXHZf26H+C53nRTPshYO+xMFcI421jyRLr0AKBLZkcnf4C7jfU5xy41d/iXA9YsM5m";
+        sout << "A+IUUB/GIoCswjO1Sl4JxaxAW/fDqUNG2wGFHimeclb4Gqyiv/hPkujRR1QueVMtp1F7D/QP92gF";
+        sout << "dT+h8WRmZZWiPvS/ngxGF/drgPt4swYBHzTjdz/Qfc+AepV+gnhkZ5p0H6n0kRy4QgaERvQbm2tc";
+        sout << "J3v4epl+0eq7TMI7Xlw6EI1sap5iR2L+DyZfc7nn+YJQg8li0i9MbBxoxW0dG0GgBi6kCsGpPtnj";
+        sout << "XCxUCNaMb19ODctd+vZ6zvGb5q7P8yqqdCQ1epi2imesfhfd9HfqgdgOE9gNOzIaY31ZuiHQCybE";
+        sout << "cyRT8z3iNHW/GkvCuI7efitJ5Bc2/1saSbD/Vvskf70L3yB+yhruUdZGh5Vr2AO/olblT230W65m";
+        sout << "K52GOEb0y6lPq9zKndk5CJ6qvFepqtzyej4Q3t7Zw55w+Fr1LptWxN6aknOqtQbFcStb2TbX9zMg";
+        sout << "INPZoTR0UlkwRGBHZMYyVy4gOIRPaRFl5s3zLKuRFQwLp5nnZ5+blODezmwIbaaIRcY4FZGpBpmy";
+        sout << "rdkL7GcxrCp8RoRj1ztX7M522USXugFK7PmuaIh7yXt+LunMi+3J0895Mg5GOMSGr7Fb5EdeGEcb";
+        sout << "Na5lBbTzVqekYhHssz3O8q0EJcbqUvyjz+LsdLVastnD3zVh+4tHkSdZTZLK2DWxh4TgdoDYSDca";
+        sout << "LAR18ViJ956Wu8062hXVoJMG3k3+MMzvCh/oCBj461qqD/haPMU1UyZt4ksbkVCc2I5p3EqQ6Fr2";
+        sout << "lpArQWE9gBdfH+duCZ0dJLY9wuzxjfu44F5ip5BQ9qmqXRGejNOW+IkMfp1txBxcEVHNWW2CzoCG";
+        sout << "E5KEPTv9yNxB3zwn752gH2TB9h7//kSp0npOL/RjF+5iiAnFWKJXm3RI6ZIyQPWQKlj9j0Wq9cne";
+        sout << "NligkG7Go2/O6H07pAefCTARHMX054miZGKk3OnofVh3n+5kuvPrGmqDCoHyPqcBi6ah6p9mRiya";
+        sout << "/+wEi6HlJElZijyej7MZ/+ocR6kyZx/+SUYa1HFrkr3cwnfZ6acoxcv3uCfq/UcRdoxjJsvNH+3k";
+        sout << "xnK6zZZcl8LJ6+/+9gTM/+ogpUtVLkK9vZGEq+ip3FixZhbEeniHDbhQql895ksecx6dGCwOSyod";
+        sout << "UaUkxq4Agr7Mkxi6tq2UE46kO4zOoLg0xdymgviXfvd1+Wplg1fngAG3OEVKMLy2qmm37426mp8T";
+        sout << "cKGVZY2w2/k/7WiMbc7xGkZI1ToE2TCSSG4iB8U+2XIJdPUAahpJmkX7RzEmDn/2KF/qLWzUescp";
+        sout << "sQLJmuTTp8A0DBpw6PVIt93eUM31TiUT9Kmwtkm4bc9id1y/AUSVtOQ+U0i+JoVFYPb6rsBOXfHp";
+        sout << "y74t71l3JPNTu4ZI0P7yyYW5iq+WRosS56hJUBmK8zav7z84pit0wHWh04HWG9ZT2wLef0ANDWSG";
+        sout << "z8oz7LpFHCmt3xdaCP4bsoZGaEMaEEJri1RjtKyXkun/EdrdSPVqJ1TWvN0UHk4ZFPL5ooHB7QyP";
+        sout << "HXM+ImNLzh70hwifqL0/oj78ZprB2KUWm5gS2Y0OEcUMdZi3caqx7QS/5W6QjjDw+EY1bzTG7HOH";
+        sout << "or+7qAWWuYWwwwijgs103rr/uwDhTtjzV0tnbR5ZROOsX+T7FyW283Tf2ZFq2aq1OWx9BNmfnZEt";
+        sout << "1Zpg5m95cRP26GIgQQleMNfxslm2qsJPiaoJAXa/gygUkT8eDP/uFCOwtiY3oV36ej5uEoZyIn8B";
+        sout << "g5vXtdLMihgc9AEoTfAvd23r02DXmkf1r/bnypKc1zNsLadROVjthB5GfzGrQOCVCXjQgUPAVR0a";
+        sout << "XzBOKtND+cTglNtMVDYfk7SFFsToBAL2YblVgoLpgRUSZxANRYf4O6hIVJqPue8j5+qLAjSWXiSg";
+        sout << "CzdR9AEq+Vas/vT6C/O1nNgMy+JKstKxN4BesKChvMNeIVTralP1TY0QWq5eyA/91JuK9/8PK11g";
+        sout << "rzLVjYsq2BRmQmkEsUZEg61/poB+ZH+E9bHrjb5vwCFDGpRCpXC5GbQLhO/DHFCOHZXOCix+oP21";
+        sout << "dkt1eHlgn2IS3FViXt/aWyrkhkmOc6jkJwzeC6wROT+2l7uWr4yeo1Ps2+naogR8fSHhYlvmCrPV";
+        sout << "aSbUStBzmn5pQi3gGib9PVbCQ+Kft7VBUcJFmVH1Lle03By4Qd5wT51f4sNS1UL43nda0XLyWQ8H";
+        sout << "kJY2n3pOk3C0dZjQdAx3rYyV26RMzwBpOC3uHnZa25kt+CWWGrbsapu5GBqkmfghPHREhYFB0zcy";
+        sout << "9bZd6dVCbYeI7LwkhlGW/VvqnhaOnLzVmNkq0vvnBT8wt+EBIlvCLZDHcG3LAqZZoH56ZILuRs1f";
+        sout << "RL3NwcPYI2rvbRyLc2ARJtfRjesxpfb0XDTddAWcjgsfytxlWxE3BjWVjHher9P2dLfrrkDgAdlW";
+        sout << "i9MtjPSkHykxz9TzcBRATOphvwT5mwHWz9h/12vLM5iJxgfvW5LbGtkHxaCN2bM4/PiABAeGdFGc";
+        sout << "SLkStFtFZVezYz2pWk8ThqfPQozNHN6ZNVAk5qIpZzPAe3E0Ocg//JB0tB5/mRDhpru7ioENXpPP";
+        sout << "VEh9NZ9+MQKwbEt9HSujQqFSI1MmFU/9d/KWDibLtVjRXMYoKeZzpRUoWYKXqtCU1UbRxBuRFlkA";
+        sout << "8Q2JNWk5GH7/VyERm55ZNcE9seH1XgCEA+7ABjpRfRzwRwl3O+kl237yDdfQuHthBoVYkzAovdAD";
+        sout << "R2Daq1qwY+e6oMH1jqvVl+mtbwELfmDIo3RfnJrKsh/WigkHxF3V1yGqfs6CWzgAZnmNRhzZF2CC";
+        sout << "HzKmNXBV26wxAiCcWGCnKyafqPRvtffKKJDD52J4bjE1tvzaETRp9bU74/PQjJh0LAt8zuoNfkMq";
+        sout << "LuN6EIGVc3BJMdIF2/htuVIJv9O93xqel8ZJRBar3oLfUizP+bFreHjrvq0VK/3a1CcEPMf9ZiwO";
+        sout << "qLh9eZnQaCOw18H+vq1W4aDJcEuuzKGF8p7pPXH8FQd833pSBkpHE03j+mZZBnLYZ88S1RPu1gEf";
+        sout << "3g56d+reUvvfI/45xzCLIUjJbFcChtzRtFRIYWmnf7MoZ5yPBSLpmusEN03+uBgPVxgZervsLHM8";
+        sout << "CPVi6RhVIUCoWTBo9z3qS5vEELTug4rof98q+VqHA2efhcqndTqq9Mi2FlpYX4N+XquJXP3CsC3Z";
+        sout << "/r6GMAApjV6v2zjYOgyua1wRzXs1WnANdN0BxXLyH33RS/m6N2DgvDXjDXLbGjpD9IFQD4NdDWbI";
+        sout << "G6pCuAAZIY/TEDapKWAqUrkw7VEq0IG8fEC7sgssRHJT8eHmZTTFJ9CSML9H2RyotIefv5FGtUIj";
+        sout << "AL5h/zX9YmZKFyqQUvz9YQ170MX9dR3yRZtYCimjhD+RU4QmyQLV6xLhM6OeHXmd80ZHSEJLtvuw";
+        sout << "Fpq5A8vrXGov6iWItu5O0P7Q9VydpF+laJpSSHTRU1mHDzHhOgxCcowt6NWPmWXdN3bP+435pNq+";
+        sout << "2E/Ts8J4gmprIMPrR48IyHyFCLoL3UBFY9HfJGWqyxTwox2rlsc6UODbqrA0TnD/BEZIkyUquOl+";
+        sout << "Xqgaj7Y/QbUBP8cgZUmUqDmT6x1DF8jgD2auk0K3PT7/9nD7exNet8pEzINrGmf+vYa5x7bFYSUW";
+        sout << "5xNuJGxBJHSX1c/UlxK0xvGVOQ3apGg8ZeZbcQkhWcDVKH7Wklr6eiW4WffphGacPvfzGVJgVUQ4";
+        sout << "gif5XaTDki28nWKWA2062fLJ/pihJVHkdePBmoljcncaHEjeAIdc7+1SREaB1qwdw70GHgvbD/MI";
+        sout << "7FruUTJDzRZCFTSBlqERaTDeZpxltHdM57gybCngXe3UuL54Ivnih6i1/3R8pa+5VCU/ZqmTZAR3";
+        sout << "2o9AEpe+64PhP4kuZ5dXqUhhVbscLv9aVETxQMfEgUA+cU1mB8xhegOAIzuqrydthsP5ACl0xLyR";
+        sout << "c33KhEjOzx/heC74ONrGCN1rwlF/EVQI56a016SkzrxaCVNqfRDGtyfftzvCZZSGOdPofCJtRFOB";
+        sout << "QucYUQPMnLxvqTg9wsnBbLiojgdPIAnr2BTM3mjpjsCqggP24fw1RA==";
+        return sout.str();
+    }
 
-KING RICHARD III:
-My father's death--
+    // Returns Shakespeare text formatted as a training prompt
+    // Decompressed format: RAW_TEXT (formatted prompt with instructions)
+    inline std::string get_shakespeare_prompt_compressed()
+    {
+        std::ostringstream sout;
+        sout << "UU0b45RDWgwOJdW8F9arj/rV/UunTsYPc3jLQgATdaUB7qV8JQZbL78+bE36Veg5q0eSr2VzMzC4";
+        sout << "vLc+mieg70a6gDRmf4IEOy5CWtJTibaIkSjTstGLVRrc9m5JQx5T5NT0Yi+9SRtafpdxARBDNGTx";
+        sout << "M4ZtgcV+ej+ivG66FxbTovjYg8/J3kf+ckkTz0/D4vOt/dmT8W0tRoMe8hYowz7j1mQjYHs7Kv1j";
+        sout << "w4AxjOOjakqehRORqujydd3A62MQjbLUUs/6HUkNxMPzO/nub+uvxqtG3uXTTOQ1MFR4AsqAbF+2";
+        sout << "lcZVspM8CKwwNeHEtQA=";
+        return sout.str();
+    }
 
-QUEEN ELIZABETH:
-Thy life hath that dishonour'd.
+    // Returns compressed black hole article dataset
+    // Decompressed format : RAW_TEXT(plain continuous text)
+    inline std::string get_blackhole_article_compressed()
+    {
+        std::ostringstream sout;
+        sout << "QmkhNakiJokjz9X67ik9R4tiXRfyJ0qpPsCCjNk0/lrwHo0niflnAjdaCwx6qr64oSP5WprkZ4kC";
+        sout << "dk6cQByAmEFRaNo10ooYrItD7gm4q/BOs+VZD4Xzyf0T7id+I7S3I9C+Gq7JbNxMbuM1zykhGfi9";
+        sout << "FTz/3V0AVDWBDCfWKTPSk7vivWxXfgiTfjqRx5fTqtvXzMmtogP7mpwJlQfvtFOmfbknNZoaqJMU";
+        sout << "CgzcOh0wedgkGsqiSJ0VSouGKRbz7mgWXQRVBOfb3tvNjCVJfQcfWUaoHIWcRIhHmuVURQVktMUJ";
+        sout << "C89TvnQEci5s58OZCHiRhqsNQjOZjTmlEzDAoEB8PglVG+7AelLSjJF0qXXFzD5SbAT49Ndoib+n";
+        sout << "Gx7fjQqHpNRLjYHcOvsL4W4LOd1XXU06vYb0MqoqAau1Sd+IBNun/LO103p6sfdL9Ja2BF35oxbC";
+        sout << "0VdV6Ih/W1JTLmZWiPG3UZAP/4OZuOaC/D6t/pDFQodwwuOthUm+nd/XCMfsCfkbl59YEBWa5/Z+";
+        sout << "xSQCJjzXVvO5YQ+rQw9RnqSe/OsX1AJj44ZHBEG45uOlRAHr321WmauuZ1+acvHniWzrI81n5Edo";
+        sout << "EhrYts0paNEFTaIzDVXTYJl9yYFNGJlEMEo0ZRMiu4mHIAOFYLXwtFpFbaP0/fjaTaRaA+ScHZj5";
+        sout << "aGoS7I1ILnLxB3R7jsDuUjQeRDtW0FCVGnU4ukt25pyA4oLHgy/WHb2/OqgUWCfXt9D94piwaSmW";
+        sout << "dMw1rP0BKNy1bWOrID5Lm9fVj4vnBgmz+dut2KJy9apt8KJPNTl3/raCyLplmfBSyt18jAIIyFGl";
+        sout << "H2QCj+ImODsyjLZRTnY93P8Cz9Cho6p6hdN5Pue8P6Y/FY2kzDzuhE+CghW1SzYgSYK+LkI/62uj";
+        sout << "DyxZ2/J8+HUtW74GC8+qTPtJAGIJm1HpGMvJ3fa015WbjIwWHpiEc9LfW7rJmkUsETmZtQ2vU1y0";
+        sout << "P47NXESGsjjgVX13lSOLIXyanbW83ylQ4whQK/FzvbV61Fy8zJWs++xH/jhsjnr6QaM2RNb8alPc";
+        sout << "orveCjAMrr9LADF1I6G+HsvrRqvRiLn/bYiN9sFuxDn/IacjKdJBtGCQr6B0I7AQ8a3tabUu2p+u";
+        sout << "InEJVPhfFDnKR7wOJW03PCa/MXjNEw89GjBo67YZ6MqoDugP/h9tYJ12iZVB52M7MEz55Pug0Vjm";
+        sout << "qVxxlX4POHxG+CVIZfK12E0jxmyVZ6c2OZEFaStspe1Mm7zhddX8iGTrzEdMyUCOb+mwLzFBt11s";
+        sout << "v9Fmm/BAQORw+KP9SVDKMQT0Ell+9ZqQ5img26X5ZmC3AS5JCTTKkF+BWSV1H/dKpqA9XuEjNl4u";
+        sout << "AQqZ3W76ErtYr5ToO/FnbbunqykX4VUOdylOMwYRIkOZNx+4qMO2xRvFABx4mRecSY26Xq/YXo7w";
+        sout << "G2rGIWilIo5WCj3miiV1ghHoMoWidStCHJ7TnNB1F7C17rjHHHP73gGiDa3GllAGQFgun/cBxkWu";
+        sout << "dijdNYcpnljMz6+XCnVolwMiBqaskpFvxVt5j2sRr53LmGuOWNeFJNo4QsGm7WniCG8/CT5QncLn";
+        sout << "BVBKeRT1hr4MiAqUarwG4P1G/jPvmYazB+ou+//UbIxXUyuF/fBlv+kYNK0ceYMwqJPNM7kVnU6+";
+        sout << "H1vgMvNKyUB/FXAT/w57KjsCE16dCQZaUkvJ1Po4NPm7uWGQFEJ8mEcJ87iNj7gHpSuvW57wxirS";
+        sout << "jfWjKEniJUL1gzaYb1cIkSjGaxbbAG8ILq1ZQbdFoYY7L4L5Gd3iAW9fRS3r7wqWzOSDo7hUmKYz";
+        sout << "fPyCTXJzdfDQZQYdD59HaUpwotz9LlYOgJGzujSEk/AosdkBnh08nW4dEdaKC+qlJqSBl0H8RoZG";
+        sout << "rMxP7kGxGxi2rt0EAMcMWkR+B+HvYT9ytlja1hdjdpR+XLH6QDclyISxW9fm1U/NfoYnKyJt5u2d";
+        sout << "rSo7GZyvkFQwM+8B+flLxEEiCC6gxHefSq5nF4oy8dAJu/vfmqrH+MT0DFWnD3AzBrgnZZhzcPbn";
+        sout << "JxpfFlYc7y9d6K0T3eMmr71iAiE6OFqDhyiMKZgwCDUox0igElaskKiDbHOjTCpnQjnqrtTMIYDo";
+        sout << "VhBxkDnlnAyOCbRhwkIJbUwKJ+bOuNZh1AgebMcLXWOyr5VYVUenIed74ww070j44cmusipkUNGl";
+        sout << "0REXQmoVQjq7CanEMTkdlxwMasvFk48vNzAAANdwJo9ADdLtvvtez8OcFWC4e1bYsqgkok3gwJK1";
+        sout << "EkYc0Hi8YN5MyE72CdEfgbOP+u06yT+o2sbbc7iQ0bLSzT4RSNYoBxvHL9IwJ1piH8zuEcLOdqUE";
+        sout << "DcfRmLaE13W+sonUYDhXwsAW6u+ayg0kE+NmSHgtze1/4L7MlPDpd381tX6n3LepxM1b7WChTVqy";
+        sout << "rLuehGgINT0AWvBXUSSm+g2x3LbStC7JFlHc1EzVwaBqvL4cpKBkHBnCNcLMzzsyp+VoiTVL9Gwr";
+        sout << "NRdtMDPsec7isy2ZBRQL1ithW2fIM/qy7uYyjhgVeBV+Smr78QCP5rR+iiZsOc2JgSfIYMCJsefi";
+        sout << "5DMo+ydcXz8NN/eMmU5xoQtRgkzCtqMzpu+8L3bvqKhx0sGwvluwMucg21bsaY+7XZMD+NFPNCLc";
+        sout << "2k6VxxsD7zcT2PGKPgOZnpBNU99Bkl6vRLcjx3P5czVBR+Su0FmjbMLkx0T1u9TEe82Gk2/273r7";
+        sout << "0SZ1p2o1cSByQrRb5vqaD/mmbZWvqvLEeyvFfzVxdPZJOzeAcU8HlPvg2ijRhStMtD+IBj6SfwqT";
+        sout << "FlSsMi2J8tFK5gN3AmvPwey/Mg0YoCZ4jqefLLN8S5AElccx1VNwqi4Buy0WlE9dv4FGXZvH8GOl";
+        sout << "GR/o8f6O0/WCCr1U5ZvHvtwojtqk0LTRdq3IoxnMCw12oupSZy6TMeJzhxFBOArLwlQn1qgt5ZFQ";
+        sout << "ZiG6D3MlDWNk9KsbPyJkXG68m2yzDowsoH0W2nkwklLtvVOwv1ib+bMK5b0RveYEYSHzfH7p+AJ6";
+        sout << "+qt3hpIIaPhV9m3kOJKtyo2wFwipEaRZP3w0WU/ZYlJSO74LY3NrpuRZ2iEWRS8s8O5OKvUYG+9v";
+        sout << "+zOdmikpQDpCQsONdy0xW7A3cbr/NLVRp03YDnilRYdcAu8BYsr1mePIbR0Js/ubSiLo2jHoN3rY";
+        sout << "iolFkGTMAeZSaFRj8BdLBeCN7d+UR1dLPq609n84Q74gj0GkTOSuOAhyQqMTSIKgg5Y/Uq+2LrIR";
+        sout << "Jf0rIyILtO4MPsGtshuTvTcA/nGDWQ0Y4OnY2/S9pc7g3Wz8CpLfrKvGIdHQk2HbCbo4w+JmaHXF";
+        sout << "vmSFAs45PEz37Cwk/MOELueRNchqBZTv3SBjLXAXjbj48jiglR8v93PZ/kBo76hpuNFhwHwjmWU5";
+        sout << "Ukt+kq2dMt+JoPpFO0x7WlEgUlwJukBUESdkl8A2FR8b6DhLvx28kFbL6ffQExhONFbyQ1P7MUtt";
+        sout << "1a21Jif+DVsY2iT59oGm+050+plGMXAi6egUqpLAvsm/JpMCCsOQTwSJAKxI/s5FlpIagFdFJ1pF";
+        sout << "N4ADdruTEeGiCU5NjZcOa/6mcbNLG1OF73SV/j+8Q1vJdKk6v28YVMV9OsX5iMKtI0JlaiHYLKHl";
+        sout << "xfN4ce+WnVWVxgA=";
+        return sout.str();
+    }
 
-KING RICHARD III:
-Then, by myself--
-
-QUEEN ELIZABETH:
-Thyself thyself misusest.
-
-KING RICHARD III:
-Why then, by God--
-
-QUEEN ELIZABETH:
-God's wrong is most of all.
-If thou hadst fear'd to break an oath by Him,
-The unity the king thy brother made
-Had not been broken, nor my brother slain:
-If thou hadst fear'd to break an oath by Him,
-The imperial metal, circling now thy brow,
-Had graced the tender temples of my child,
-And both the princes had been breathing here,
-Which now, two tender playfellows to dust,
-Thy broken faith hath made a prey for worms.
-What canst thou swear by now?
-
-KING RICHARD III:
-The time to come.
-
-QUEEN ELIZABETH:
-That thou hast wronged in the time o'erpast;
-For I myself have many tears to wash
-Hereafter time, for time past wrong'd by thee.
-The children live, whose parents thou hast
-slaughter'd,
-Ungovern'd youth, to wail it in their age;
-The parents live, whose children thou hast butcher'd,
-Old wither'd plants, to wail it with their age.
-Swear not by time to come; for that thou hast
-Misused ere used, by time misused o'erpast.
-
-KING RICHARD III:
-As I intend to prosper and repent,
-So thrive I in my dangerous attempt
-Of hostile arms! myself myself confound!
-Heaven and fortune bar me happy hours!
-Day, yield me not thy light; nor, night, thy rest!
-Be opposite all planets of good luck
-To my proceedings, if, with pure heart's love,
-Immaculate devotion, holy thoughts,
-I tender not thy beauteous princely daughter!
-In her consists my happiness and thine;
-Without her, follows to this land and me,
-To thee, herself, and many a Christian soul,
-Death, desolation, ruin and decay:
-It cannot be avoided but by this;
-It will not be avoided but by this.
-Therefore, good mother,--I must can you so--
-Be the attorney of my love to her:
-Plead what I will be, not what I have been;
-Not my deserts, but what I will deserve:
-Urge the necessity and state of times,
-And be not peevish-fond in great designs.
-
-QUEEN ELIZABETH:
-Shall I be tempted of the devil thus?
-
-KING RICHARD III:
-Ay, if the devil tempt thee to do good.
-
-QUEEN ELIZABETH:
-Shall I forget myself to be myself?
-
-KING RICHARD III:
-Ay, if yourself's remembrance wrong yourself.
-
-)",
-
-    R"(QUEEN ELIZABETH:
-But thou didst kill my children.
-
-KING RICHARD III:
-But in your daughter's womb I bury them:
-Where in that nest of spicery they shall breed
-Selves of themselves, to your recomforture.
-
-QUEEN ELIZABETH:
-Shall I go win my daughter to thy will?
-
-KING RICHARD III:
-And be a happy mother by the deed.
-
-QUEEN ELIZABETH:
-I go. Write to me very shortly.
-And you shall understand from me her mind.
-
-KING RICHARD III:
-Bear her my true love's kiss; and so, farewell.
-Relenting fool, and shallow, changing woman!
-How now! what news?
-
-RATCLIFF:
-My gracious sovereign, on the western coast
-Rideth a puissant navy; to the shore
-Throng many doubtful hollow-hearted friends,
-Unarm'd, and unresolved to beat them back:
-'Tis thought that Richmond is their admiral;
-And there they hull, expecting but the aid
-Of Buckingham to welcome them ashore.
-
-KING RICHARD III:
-Some light-foot friend post to the Duke of Norfolk:
-Ratcliff, thyself, or Catesby; where is he?
-
-CATESBY:
-Here, my lord.
-
-KING RICHARD III:
-Fly to the duke:
-Post thou to Salisbury
-When thou comest thither--
-Dull, unmindful villain,
-Why stand'st thou still, and go'st not to the duke?
-
-CATESBY:
-First, mighty sovereign, let me know your mind,
-What from your grace I shall deliver to him.
-
-KING RICHARD III:
-O, true, good Catesby: bid him levy straight
-The greatest strength and power he can make,
-And meet me presently at Salisbury.
-
-CATESBY:
-I go.
-
-RATCLIFF:
-What is't your highness' pleasure I shall do at
-Salisbury?
-
-KING RICHARD III:
-Why, what wouldst thou do there before I go?
-
-RATCLIFF:
-Your highness told me I should post before.
-
-KING RICHARD III:
-My mind is changed, sir, my mind is changed.
-How now, what news with you?
-
-STANLEY:
-None good, my lord, to please you with the hearing;
-Nor none so bad, but it may well be told.
-
-KING RICHARD III:
-Hoyday, a riddle! neither good nor bad!
-Why dost thou run so many mile about,
-When thou mayst tell thy tale a nearer way?
-Once more, what news?
-
-STANLEY:
-Richmond is on the seas.
-
-KING RICHARD III:
-There let him sink, and be the seas on him!
-White-liver'd runagate, what doth he there?
-
-STANLEY:
-I know not, mighty sovereign, but by guess.
-
-KING RICHARD III:
-Well, sir, as you guess, as you guess?
-
-STANLEY:
-Stirr'd up by Dorset, Buckingham, and Ely,
-He makes for England, there to claim the crown.
-
-KING RICHARD III:
-Is the chair empty? is the sword unsway'd?
-Is the king dead? the empire unpossess'd?
-What heir of York is there alive but we?
-And who is England's king but great York's heir?
-Then, tell me, what doth he upon the sea?
-
-STANLEY:
-Unless for that, my liege, I cannot guess.
-
-KING RICHARD III:
-Unless for that he comes to be your liege,
-You cannot guess wherefore the Welshman comes.
-Thou wilt revolt, and fly to him, I fear.
-
-STANLEY:
-No, mighty liege; therefore mistrust me not.
-
-KING RICHARD III:
-Where is thy power, then, to beat him back?
-Where are thy tenants and thy followers?
-Are they not now upon the western shore.
-Safe-conducting the rebels from their ships!
-
-STANLEY:
-No, my good lord, my friends are in the north.
-
-KING RICHARD III:
-Cold friends to Richard: what do they in the north,
-When they should serve their sovereign in the west?
-
-)",
-
-    R"(STANLEY:
-They have not been commanded, mighty sovereign:
-Please it your majesty to give me leave,
-I'll muster up my friends, and meet your grace
-Where and what time your majesty shall please.
-
-KING RICHARD III:
-Ay, ay. thou wouldst be gone to join with Richmond:
-I will not trust you, sir.
-
-STANLEY:
-Most mighty sovereign,
-You have no cause to hold my friendship doubtful:
-I never was nor never will be false.
-
-KING RICHARD III:
-Well,
-Go muster men; but, hear you, leave behind
-Your son, George Stanley: look your faith be firm.
-Or else his head's assurance is but frail.
-
-STANLEY:
-So deal with him as I prove true to you.
-
-Messenger:
-My gracious sovereign, now in Devonshire,
-As I by friends am well advertised,
-Sir Edward Courtney, and the haughty prelate
-Bishop of Exeter, his brother there,
-With many more confederates, are in arms.
-
-Second Messenger:
-My liege, in Kent the Guildfords are in arms;
-And every hour more competitors
-Flock to their aid, and still their power increaseth.
-
-Third Messenger:
-My lord, the army of the Duke of Buckingham--
-
-KING RICHARD III:
-Out on you, owls! nothing but songs of death?
-Take that, until thou bring me better news.
-
-Third Messenger:
-The news I have to tell your majesty
-Is, that by sudden floods and fall of waters,
-Buckingham's army is dispersed and scatter'd;
-And he himself wander'd away alone,
-No man knows whither.
-
-KING RICHARD III:
-I cry thee mercy:
-There is my purse to cure that blow of thine.
-Hath any well-advised friend proclaim'd
-Reward to him that brings the traitor in?
-
-Third Messenger:
-Such proclamation hath been made, my liege.
-
-Fourth Messenger:
-Sir Thomas Lovel and Lord Marquis Dorset,
-'Tis said, my liege, in Yorkshire are in arms.
-Yet this good comfort bring I to your grace,
-The Breton navy is dispersed by tempest:
-Richmond, in Yorkshire, sent out a boat
-Unto the shore, to ask those on the banks
-If they were his assistants, yea or no;
-Who answer'd him, they came from Buckingham.
-Upon his party: he, mistrusting them,
-Hoisted sail and made away for Brittany.
-
-KING RICHARD III:
-March on, march on, since we are up in arms;
-If not to fight with foreign enemies,
-Yet to beat down these rebels here at home.
-
-CATESBY:
-My liege, the Duke of Buckingham is taken;
-That is the best news: that the Earl of Richmond
-Is with a mighty power landed at Milford,
-Is colder tidings, yet they must be told.
-
-KING RICHARD III:
-Away towards Salisbury! while we reason here,
-A royal battle might be won and lost
-Some one take order Buckingham be brought
-To Salisbury; the rest march on with me.
-
-DERBY:
-Sir Christopher, tell Richmond this from me:
-That in the sty of this most bloody boar
-My son George Stanley is frank'd up in hold:
-If I revolt, off goes young George's head;
-The fear of that withholds my present aid.
-But, tell me, where is princely Richmond now?
-
-CHRISTOPHER:
-At Pembroke, or at Harford-west, in Wales.
-
-DERBY:
-What men of name resort to him?
-
-CHRISTOPHER:
-Sir Walter Herbert, a renowned soldier;
-Sir Gilbert Talbot, Sir William Stanley;
-Oxford, redoubted Pembroke, Sir James Blunt,
-And Rice ap Thomas with a valiant crew;
-And many more of noble fame and worth:
-And towards London they do bend their course,
-If by the way they be not fought withal.
-
-DERBY:
-Return unto thy lord; commend me to him:
-Tell him the queen hath heartily consented
-He shall espouse Elizabeth her daughter.
-These letters will resolve him of my mind. Farewell.
-
-BUCKINGHAM:
-Will not King Richard let me speak with him?
-
-Sheriff:
-No, my good lord; therefore be patient.
-
-BUCKINGHAM:
-Hastings, and Edward's children, Rivers, Grey,
-Holy King Henry, and thy fair son Edward,
-Vaughan, and all that have miscarried
-By underhand corrupted foul injustice,
-If that your moody discontented souls
-Do through the clouds behold this present hour,
-Even for revenge mock my destruction!
-This is All-Souls' day, fellows, is it not?
-
-Sheriff:
-It is, my lord.
-
-BUCKINGHAM:
-Why, then All-Souls' day is my body's doomsday.
-This is the day that, in King Edward's time,
-I wish't might fall on me, when I was found
-False to his children or his wife's allies
-This is the day wherein I wish'd to fall
-By the false faith of him I trusted most;
-This, this All-Souls' day to my fearful soul
-Is the determined respite of my wrongs:
-That high All-Seer that I dallied with
-Hath turn'd my feigned prayer on my head
-And given in earnest what I begg'd in jest.
-Thus doth he force the swords of wicked men
-To turn their own points on their masters' bosoms:
-Now Margaret's curse is fallen upon my head;
-'When he,' quoth she, 'shall split thy heart with sorrow,
-Remember Margaret was a prophetess.'
-Come, sirs, convey me to the block of shame;
-Wrong hath but wrong, and blame the due of blame.
-
-)"
-};
+    // Returns compressed physics paragraphs dataset
+    // Decompressed format : DELIMITED_TEXT(segments separated by "@@")
+    // Structure : "Paragraph1@@Paragraph2@@Paragraph3@@..."
+    inline std::string get_physics_paragraphs_compressed()
+    {
+        std::ostringstream sout;
+        sout << "VFTv39I+uhO7B39E6TTrjoq7i7XEbd2mHKlQfE65rwT/qMOwRzcz1TtkmMvOmSEjYHdfRjkUTU1F";
+        sout << "I6oX9UwmpzY0RNYk4dorLrCEgD4MVApc9VXdhx7ISjWB0U/QuuEKr2LSzwf1xC8gjfkiVoCJ5Nc6";
+        sout << "5BKVUHeCKF73sc/ciwmm+coR6LgCOcJgRIfKbuF+N+JzvMjKFMiaZBMiLa14UJn5AU6BMXRJvXfs";
+        sout << "TomQaQ/YIYUXy4xXqSdc9voYdamkeAw4IyrnQk23+gYEpWBmCDCB2giVQfaOcTvrrL5L+uHzQHbW";
+        sout << "VzQ8CW5yD+LHUTMeLsWHuFPf8QTDxKMi1YnLL0k7yu3VwGvrzGvxWND7W5IQrOWcsVakz3h1i3m7";
+        sout << "WFh6Ln85R1KxmE7si1rh4vimPhGyVZfHpRVQBWSZSEC1P0F/kWavEehNZaq2OwH1/Ov3rUzsX/mw";
+        sout << "pAaW8/d4MgAJRF7uVDI4mAW9MZIwcoHtn66WI4TlJ4PY+qyvZp4T4Jw7juE2Lp4MUQKsEH4e7sqK";
+        sout << "Lc82beXbtOd9MDTdv8++RUO7JvsL2pGt+q9j6BLVxtub4ueyvVy57mtblJ8BjyjPO1r4aYuf7v+q";
+        sout << "x7gUlLgedrsQhBqXm9625EpYPoZ/KKpv8M70u8OrxZQ+l5w9pliisItqqFf1VcJ4H6+teY/ES8fE";
+        sout << "OR2+yJt0n30Fa+v8uGIVJGE9xZsQqZKE2nGKl16EbNAm5D48tPiqavcidTwRE6LFT3XuHgj3r/S6";
+        sout << "+weTMkoxXyCrYZw3Rtfc8qsAE70UzECFEjebW//Qg5o/IUnMMdu/5H2omp/gelvXr5hiNlHKADd3";
+        sout << "rTKta7r3OV4ku38TGDFXYZiwJoYcWokQINXF2c1yw8YZg6g614oWODLHCycgS9cYVq0snvuj+qIV";
+        sout << "Dp/aVzipe6AAfvrSWUy3QFpjdKEtFq/HjlHBV/lWi4ebzkEES+5QpPHyRjXbUOpXb9Q3VuKKqtxS";
+        sout << "XhOU3n8RIqy3fDA674wNnhl/ft6qBO5/oLV6T/+I3u1z9EzNgbSw68LSwDwKAH2pQ+qJabmQYowF";
+        sout << "GmH+ZdjTGxrNrVH9TJ3tIhfhCAZYMv5dSxnJDtfTDoDhERa7cdu4zV1YhGItXflpr1JxMKwudINL";
+        sout << "5GtwkiI84zQaUjElnYG7kGwmp3Q6AUyIWm9OkWj3HUZpz4Oc0469PfSOBIQ+1BMebgJIhOIuNBav";
+        sout << "AEi8sAqy7EO4txN+sdcwARXSWGAcKVGFMn6zMecVwNdayIN77a9ZpWGnErVY0nTtY+vbR9zkUvT9";
+        sout << "zkK6Xs+VIRSDkhASweF8yzJrw/0qOPsLK5lQ8h7/lZS4aYxbfB5TghLcZ8qrPGQs1AxToDjaEXQg";
+        sout << "mJvX0qUvISHMiQRloAlda0U/1Z7Xhlek/+NVn8bqh/yqG5hPTPp25DOwIoq0qFgcaVIhTMebDJVX";
+        sout << "sVrs2/SP29nknp2D9ZZcRH+3RcWNuqSy6lG46PR7Qs47Vr9lRiSciSDLySofWMXtllwigkpllimY";
+        sout << "CR2XPNbyPzUPtvlLyal2RuW0QBQ/l+h2KLDen8GUtl9S+Ivn9b9f07L3PqXVmf0RIkqXJyMeVDK5";
+        sout << "E25naL/xilCbyJX2eRqUYExNZzx7jOWi22RBXuKahZOSlsWLsBkZ5dNHjNe8ZVc2sXAjT9DESP8o";
+        sout << "ml+7/HUZpcCO+PAbwWc+hHAz0kylGGQ0ZWimIz+dTgZTAKhX96vASj5Y6K5kBHiMTD1gMIOU+gSD";
+        sout << "pQ3ytl4qxcx91Of/IjmqUsqu3qIWQJzy//YOxVHinqBQQ7XoSz3/xcXGUC3SoVLJIiVMYU9BwiBt";
+        sout << "kkCns+pXCSuLIWf/D0sYmBJNYz0JGHQs3+5xOWj90FzZ2eHJ/GzPyXPYhaZ5WLXjJTuqRLnQ4U/w";
+        sout << "j7TPaKDVZJigf+0BThuVtxnWc6u+GOblBe7Xh183kWmyTdg1JHq76bbKVXiEikvuW+in/vZ9RrFt";
+        sout << "NwojUdqNGlx4aSAgpAQuSch0v19QmQe9mHCeJgSy2y9+J15/aQC4EbOl0br1g5rgVI4dva5s+9Ik";
+        sout << "Xm9T0e34qAK6qzim3FfNH0rks9vED7b7ZdlyCG21Z4+O55iDEpZq7I0rrjiWBa8IsDnZ/qE0e+iW";
+        sout << "u9eo7lAeVnrMYRxgQ5AuwSf/1hP1xDDZeKSdBpdQ1WMtQFkY9qwArX6Xd8lxX+i73TZ5sYDCc00s";
+        sout << "qZgivAbUSSqFQ5m7k0BiK6HqDpJ5Efh7537wC89MLeB4XZLK2+DJhAOL0c8XLAG+lBnwKmy3pjFX";
+        sout << "PvgSodsb++g+ue6OTh4w2gBLS0tXiUvxNoAV5rbELIzlTffDup96xdHoWIsoKolJgAdANc4HdGXX";
+        sout << "171Sp1tiZrN0gNhC13F4o2VhrYkrSG2bgzQkwfOH5ugKOl+3sfWNFT9vh87HGXbvYf02VEQmk6RL";
+        sout << "QbpbHn47RnJ0PAycurYTETj5NGdj6HY/8OHSOJOf67JyS72GdEvseVuLZwp9TVUzCjsDC+IF7EcH";
+        sout << "DbGD9x3ygRnvAYO/nQT4G2MBsVASSbn5Kt7j6xaNNJ5iykACLjGNqip9h8qKSGVM2ouUw6vW3iaS";
+        sout << "kFY3vSj4Q3Ih+fHNsZkr5jXNGh63HVQbnujKAFbRcGpqds2Qt7GkrySECOUh26YZnhVwz3Fs1Km9";
+        sout << "pHd6v+Sa7TT9vv2qft5RgAfUZZWFZ9J8jhv5hooGkGSegUP+HI7X8aPaGYolYToOgn5dEOS+E57K";
+        sout << "HsL9XUjOj5w20IDUG4IWmMlxXXMh+QRW1favlqjd6WIEQoayqJ94ybKw1H6GYkSek7IkDQflWA6y";
+        sout << "7yMlSxTGhN+OBHmjXp2IkG3MEGH+0mPEeOaoV5jxa5OO0uLgcqPg91kFOOyU0BneTwof48l1IOQQ";
+        sout << "6f3LUP6swG5hWBX/6tSFSGCOuNV94eCvfAwtd8hwUzgMVhMMxOGoIJz7XvSI0bYk/Na0BcTvN+d4";
+        sout << "BGDAg8jFl9BFc/1zwl2PoMxx/IVmmRQTj7zUeqQfP8cJ74cWpxTwE1Gduq10d+ZVzYbUznvWpNhv";
+        sout << "TIiF9dFOp6K41p924ZUBO6klkVMSjiRt3pBY5jhwMuqTOTDDCLLwF9YGrOaipfhHZ9tqFhAx26LR";
+        sout << "YTJTyNyGZjoCXzgvdC9gqV19XdJqnlNWdQoOKAtVVgjDjNTmW8p56Hyjp4GSJaFZTitD3OU/ALFR";
+        sout << "5Tbtup4p5Wb2dqnudkapXTYculgXJfKreQMedilMSss8x9PxLd4yu1ala6354I9uMRvNNiD65r1Q";
+        sout << "21vDCLrwQSnWssQVe3i2MqUOtr/zxPlMWbCXrl1F9k1n782ZRGPuxsasvzq9JdiupGOnetPqA5sS";
+        sout << "pUpzQG7zmSJ6wR2sh9UgEeef98BfoxmZu8M8rFNxs935YKPCSmZYcK04vqjylKXjEk6iwg4BMvPT";
+        sout << "oPhZYULv9NMuRv+hA+yDNP1IIIbv95Co7mcuM9L4spuLTPNmtzivrRRjop+vE3Ha2hZHS9/KtE5b";
+        sout << "yCVIh9BvDySrrNWMSPcc//xghOQ/WGIIotRgYiI/CBU39M+r//N/XGhGM/fsKYdM0HMc+r2kTsq/";
+        sout << "F0wHrL8S8KA1asAtCxTVi/NLtWlqGG0bJ6mW+W3Pt+2M2apmotoLDEYYk9O3W5uevUQnAx1MoS4s";
+        sout << "3CdauX+/0wVAkyp3YFQ8M+rcUUMBBUVUHK+36zeYyKi0EkIsuOBRQfhhqJx1V3kIml5EkQrG/cNG";
+        sout << "KVzvEb8rTcMvOQ3oyds/5V9/tYL0bwVNp9LMhM296mDaa8hIHvp82ytZOGWXgcPn3kjS9xz+EgkJ";
+        sout << "aUp2rG62bVq+xMJbUXnlwmICquZA+hLQVvqw0N/L+dmUJhPzBmnm2r8NeSimtznTDvbl4KhaZn1y";
+        sout << "Ny6+yGB8KsASlcCGB/hHUH+jU4tfe6CpvQWOJC6jFEsEPwK2oWehPEkW5vJ3rp8Ym1nWSDwVoEBB";
+        sout << "p2992TeghzuNroWzSCQDOzi6y8qRbgZNEhXkLrUlp2G3zxdZS2twNo+n9hgysbxVATaF9XzOn3JR";
+        sout << "So61X3BAzb1uB66Ano2+CrIgFg15Vwi4+eyQiFJMneLxB2xGZqC54/vbWisD4CFhG4LeGWCYy+DB";
+        sout << "ZZGf7LlwGaWPGb0WpgSiPZ0cr7K/BG//0ExX4ab081t/W7pWTIe9P+mNpNegm/uOlPjF9C4ZIe4b";
+        sout << "AOaC+095A7jKb/oimDJGj9YcuvSsLW35u+7v7Gi/LHdJqCzYkuPKO31iN/PIpbxoadqwRCW4t1ZN";
+        sout << "OAUPkLzFax7YciPZdLHUxu7fVm8vCQjgpzUUCi2zhUE5N6fM5jo7AY1Oxmimd4ItB6AUFpaEBpsw";
+        sout << "DR6y8vCKmnGB2Hi+CvUJc1C6r7F5FV59uflO6kveyCeRg1Htriyb4PdT43AAGti1uCYR1DS9KlJL";
+        sout << "PpYezsDi7a8Ye6LrQ/dTnewxxwCx0TuwAM6P28Nyd/6ePLSANdYBittnCzZNCnoELv8zKmvM8cTt";
+        sout << "UJkAL5rcU0qc+qf8NZmjmouc/2/Ah1NiteMzNK+6aDL6uerChBGs3pDrHMzwUU+Lxbj7oBAIqq/w";
+        sout << "X9jqpRyz1dRvs9YvSv6nEhrPaJvOXAReMsy+4rwNj7xTPxrIWvGEULMoZSvJ8ArWOkW7w4QhJWHe";
+        sout << "A8u76KgvtRs2+NOrdWGIIk0I4hwjno+OsgQzBAnRKsJ4ZwP4V2QvlNSxlcPjrnpdOfASZ7hPdefr";
+        sout << "J159ugCN4pbkLbj5PFt0jL5RUq9Je2Es5f1FCsmLnZ7yAZOVr/kSZWjS2ma4PPBx7ITfBP0zaK58";
+        sout << "mwHXb3pJ65rjdzFxKXqsato0H2Fe1TER4gjUjoIr9ERtooR4uudf4FNRhySU8awXZVKIWv0LWTVh";
+        sout << "h+9JYMC9H07vEmPNkOYK9wvNfxsvnBrasJvnTMkmzCEQqQUl9sfIOPAJqG9B71dcP6dNv36fc+qA";
+        sout << "YC020TDK+1mA2WNQ37Z3Q/IXNnldxDL2zYNvoeX4tyakRIW3BOVD07K9U+3URuLWT+Il7CJIOerK";
+        sout << "Gkx77i48LITvzSAOxgvEI75WsJnPgRQO8S0y6wNM7EE8FNA+wig10iPffQg1GcS0Lk+SEHhV3QqB";
+        sout << "4ZfNcIZLN+iu5QYQrcniFGcDg6R3S32qloDP+62Z7Db6otZdXYB2+hFb6C1e8k48D6L/bZAfcISp";
+        sout << "tLT6Y7ICFmOgicsAdlVqEfBC6FB2J4pEAefZyiaONt1CdhlHrzpgoe2Tf1HSNdjE6SZ+eSfuFs9E";
+        sout << "QGtjhbHkMNnbss+sEO7HnNoHBWYG6e9Nz/ekHQ2CI7y4jSc2WVfFlueOAuITVeLCNL7sUDtQ0rrQ";
+        sout << "bihdoWVyzobIQXgh9ifzNYGdu2MuHGH50p6cH+o1Yn2KRP/1iha3s4SEu8XgVfkXuaN6qNMuw4gA";
+        sout << "W8DSPs1OjeisMTTxZ/AupjSIUq+bB7EhlTSTO9R7L6WEYhZ7KKWZqnamzzfl5/fBrmj2N7fAdMlF";
+        sout << "I+73GeqHepoBjWBSrxCATJ6Tnk6u7n1CXhNCJlMoiy5kTLXV2mJi80OSU4rreU1U3EYS74v4lpjQ";
+        sout << "M91W8v+egneVxVk5cizxV7BZi3ps10a5QPxbsvclczC8gaJmZKu3G0OtoJ/WDPkzCLEHuXRU+h0M";
+        sout << "Gxxz15NbSCR3NjURjjWslY6s8gp2gf4qQMfCwAq/m4idVhsswOXVTgoD9Hyx/825Ry3kdAzaANNJ";
+        sout << "LRi+jVTxhAW/3VAGOYNXNsSuXqWWgl+rJHySsZO1jyMFru8Hd61/H5sYJZucj0KiMaGd5nIEzNfO";
+        sout << "LMwOJdfFReEyiv/BcC0TLyCNSpfiflKSEhthxRe7XscPnzV2oTOx8eEFnFK5OU/E27lSna49n/r0";
+        sout << "hAv9TeYNCu6+Dq9oPPx6D/svHzmNBUuIxOL7aGUus97NHB5k/81rx90PImECdmZKwwCdV5IDxiHD";
+        sout << "T1OPyQETyDHZizXLJ+VCMiVIGWBBVulqzqKYwlicnxjJEAUTy44lzbKKFpD7AXghxzZSAO8265qB";
+        sout << "AudGqzOckHTt11bOXARXxNm3r5yZETQYWInSAugCy7kdqBTBYpU/pWGJzHR5KziWVAtMPMhoBHfC";
+        sout << "X4PnTim/UTqC2j8SimAIDkgGJnbDTLCRuRxAhfvFdfjpqlwUh38SjJuddLZben5oNhlsOOXYv4cl";
+        sout << "20r5662iwcDZkrELgwJv6hMQ+U2w4zlXS8QDkvlmMzKk0FQ1bEFOCZLFpC0si4muVotrpYujbo+T";
+        sout << "Myjw6ZeQZenN7gVFqVsvo6Biu1YyR65v7HTOSEd2BpNDpsFeIsLwdoEvAG35JWwXCvSM/yxV3pxm";
+        sout << "f+f5GX3JBzzlLbp5vVtw4E7ambWo+opyCt8EE/ZEyiJfxCEWrxqVSam10Dk0LdfFQvpksbhpGcXP";
+        sout << "2S+Cbhe70m44ZJ/w20vewNuGRf4+vrQqQ9anGiX+grsk9/IszVWqRot7UopquR0zT5KFFiqBZ+Ql";
+        sout << "7OMgCGD9O4j4LD+csrX8V4k78qNc2HMT2jaMvnIMu4r0PNIS4Q6k4YZ5W5lO0VdAM6vq3JaNj/Hk";
+        sout << "0RggcQZNCXPVdk9Vl6lRbWktP1P2GQaXZw2ZOQYm9guL9FeRn2grbo7gGZ8Yq86tqvR98ZnITIA+";
+        sout << "+ML+BjFjMQTnUbQGYIyHV/aepIvhwy3huF/jXbD+73kSjC+GzBLQlJ/C9D4AuhYfoXdMdHm9n+19";
+        sout << "psPZynDsaCN1I4Rp9SWSn19ximdhKlAQwcKWtCvDT+o/e7F9XTevruIiu6XbootWsgEE4/72z3GU";
+        sout << "WDnpPl1nJas5T289vMHtYrSfUAHdzK5IVSB8XD/u10iq3jcJkoUM1OvEelb9W8rfnCQH6802bk/6";
+        sout << "0PKp4BpLkkDxBB93vrvRKuqaql9pGShKIN7zQ63XjhEhQGgaOOmmphD2z7OyQCbu0CnalHJEpJMb";
+        sout << "nw+TLmfTjfWRvlZaCWoMaHzFSZQU+RwXAFsjUBYGDipZBo1+2MWkOP95PRn6DntKZ9oQCCzGeyxV";
+        sout << "zxQJ+YwFUtZkCQ5ieM4jsazgEzJvfcTMSZwfQnU+XrYyz8vexEHyJyJysbyVhnUQ3k1+QXEcX+Sq";
+        sout << "i9PuCLVyWfInnEZ2z1rJuD9ZXQkOccnptokVolYZM9L6JDEoCFYn1BwJTMVJ36DtQ21r18BBmTZM";
+        sout << "U+cErEZPV+AmXhsIWmZKboEwfmAxvUY56xHhLBjjeMJYVHtzqhIysNR8hN24a8YqV+ClPtLFI8ay";
+        sout << "2HFHoggHgJkJAwPLD5M7/Au/8lhNbfZRI0n7/uYoJ6L3szgauCgz1AgOalqWMzB5ysP38AzleuTK";
+        sout << "AQkK1pKDM/NQUJjhV3VWCUMHhIBCZz/JnCN5SfdvHunvSCkOMLqB/WuZgyIoo6nQTPtHfGhhmhtX";
+        sout << "RINKMA3ODPa6oAEhMbJBtuMoiEAbFvfYhWsoqTsPrF5sdoFO26YeRcLgkKzeGNok0IC+yUgOikZB";
+        sout << "BueorvppDLfwYS9hyptTL0ISLZVf8i9s/I2cm6tWIMDZeXzr490Qt6LqD/Oo2585hpi/uo1pJmTP";
+        sout << "MO3usStmf+mUPJbZFgmBtgRbzudgo7lPDnKU01UmO+QALMxiMqYLEz3zX5f4UFi8N1or2s6Ekdf7";
+        sout << "iRdMOElIRbFU78auL16kHUtXJ9vyV2sXfyjLmnkxBfeDgn1tHfa/blfTshbIVHbreZTMDkh9C8rm";
+        sout << "6a8ly7hBjsBgjiTXhz8J9+3xCWx8nzbH658hKUFt4JaHEo201LHjZw2adsNIdSGixGKhN/VVjG1+";
+        sout << "2oESnRRp54W8oA9KTcS6CP4NaXaCxiBofkK9bhwMgjq41q3MfrwxW1S41CbVL2d32edX+0BqLEdu";
+        sout << "gK1hrtStI/6uwJD1NVsq7z73OcbvC6XuCFhupS6EeDUIP6AGWj0tMPzDAhp6niyM31/brJKKSPgm";
+        sout << "PS3vHEogylsDKI/dY/qVGaddtASvgbFT80fkdU6RByO81ehINh0y9cWphvSqYjnAsbCbj6ZarQZO";
+        sout << "0VDOnAgEVtRWbt1C+AhzUxXkhkwt1Dw3J+yE40QQYWPIcZv5a7if4IlAm50CzAQAljW+7J4ptNBs";
+        sout << "NHPkY3erjqUWXXM7tK3Kb+o/WhPNt20Mu/JDki5Vt7TJPBGzZuNDPsh28YNG7B4hMszooyPTVG6g";
+        sout << "dXGOG1YrvbNfN+QVykhMMMouBa+PzwGavhEPg//q1NuTPjnbyWQumHBLCRhSvYjiAkXSyfOCBseM";
+        sout << "KUGkNDhZuoE+KAh3NJIwoUfrAj6xGcKxlRtI5Cm/0ezhS1dcH9dtnFhXWgAxuUSikSrV3nz7ZMvr";
+        sout << "MsV/cPqwm6byXRrMPMnoA/VWOGKR2w8bL8rFdgtNhb6PNI0572VGVJ39gbcOrsSkFkl0KPp81/Ga";
+        sout << "szShON/k2kQgMwraqtJ46gNJpNsr7DoGK5OIrGCHez6AE4J2cQAKb5V6xVCyIm5bvu3Hpko9v3SZ";
+        sout << "ojt0oOXAPeA50ZmC4F63tVQVTOh21AkBZdhZKCv8iHk/Vx3r919JxSeBM9qGk/sALpIqKPQ4AJPV";
+        sout << "d53ZHisUz7xJSVTRFgSih47cb6cFxLeq8qlmDWKbfLSb0frSZCUV+evOdPcywP2N7iIYWnvtjqNk";
+        sout << "rUgI1OFGDddhrJSDj+meoIy9RuXfXktqRpKCQ0TUKmkCzYTteyH5q1U3LCMIjAS8vNsyF7oLiLMx";
+        sout << "2VrpjrujKtYE+NUTZ9LtHoFwUrd9OegU20Y39JDwvJUQ4cEW3Einiw0CGTmx9rYpeYCq8OxmLhCV";
+        sout << "Nb+asKluw+/BJ2SdEK6kR+6skPS+ZmBc85KU3PLhxiMxqzAktc2yEB6tUFGTqcoFEbZ+4eVRePyg";
+        sout << "3l4QApAQla51xg0uxsMfMKxeqxlCH8Eb+JbBVH8eEs4J008PLRP7FIe2SmkzCwxeX4Bt0rBmgEVH";
+        sout << "u/zb3TVojYOWkF6jPSvS3Gt4B9tf2TEzeOYP4e8U40nhdcqD0B4P13P2qWTV4EbKGX8mGP5iIbTJ";
+        sout << "IGt5NjzuCD5+nCzsWEQHrM4EZfEQMeA+Ki12tb93RkvzplU6RV9sotJRjytfyh0F1dqcaqLHufjp";
+        sout << "xB3d74hp/w94HoEq2a8DslCYKgEMVidrITZn/2eoIAGVzsIh1dGrRyA0gjjPS9sd7Bvf+I50ZCkq";
+        sout << "Ornaz5iFQKSqW/BdD0Lin6/NXkTOmj4tfdtTGcmVpwa2NQrCAK0B0PSfp89q2QImGtkABIrmhQ2p";
+        sout << "V3CgAO5PIdZzy3w0hITyp2hacWjjkU2hu/LOErhZ09omtUfxEa1LAkEOzdeu5YVdBNO+ahSc0aHf";
+        sout << "Es5wWmTeBsVYQUYJ1z7CyBLZtK6ZizdybunIj4ICiCcWqXiSN3tlYspMaUYM5J8TEDqN8Os3XlSL";
+        sout << "WLfDES+/m7fDhL262kyGCvCpd9yRiMJvo/sOuu+TNklhPdjqXYjtNAfFyfKejsVnQYBAJvgiWlJ1";
+        sout << "qa044TFiF/lSSimBf3svwSmqj+zd7Sa3QErAbM5tIzksQJegB2TNSLCuCYLgNU89cgO2VktCBYFy";
+        sout << "dN7VZpsqWwTjpWXcAokH+BPLwWRrB9b2mZXBosO6UUKYf/pLDp89up8Eh4AHjokZPwb0cqH9H7HV";
+        sout << "ehlmiZUjn8j/F8QYF1EZuPLB2BtnYKVFPCr+QwPdK2Tj4QAH9zJd0PI7by0SS/XQ5d2vCAA8DSD2";
+        sout << "YA2fXscr/a5CfK0gRDLd5pHb9y7LR1qV3a2ItKp9azEm+cT9XXEfpsqI/x+g3x5rwev/spWQbxjP";
+        sout << "lrotyIB4bt9pZ2u9L2qxZovSc1oT7aqWkCuM1rcBMP9k7hLquX0dhgiNq4/QPVhu/W1U4SIgvu4N";
+        sout << "mdBbZ/pffG4l9ifY5mb9ClWWtlmA0HEwjyWx8870NLfJfYBund5SnJTrwEzybaS+CCM85QGjeFzF";
+        sout << "Gpng+T60kL2u8EJqbVqCaTgVpcrnYFeQPqwEpdfHcNrhZpd2hz6UHrXio/CkxQTYsJbz45TAUY5E";
+        sout << "sPOhSZ5rKZGvmvgFlUnlP4u1Y+9FMo2unS8iBQB3BaxK55+3o8qTgogWs9M55KXDHPKrZcH75jet";
+        sout << "qtDDjVywOKzLRIzdyxkUth/KwaPgALH7FT5Kudmzhn1mTfgrbe4HtKmD10pwc2PE203nGBdDgEy4";
+        sout << "Tgr9h3GWE27FjDGroa/7iRou5WjfXLWvomDLL8zJy8oKXdJJje/ee2w2FMKZfLhGYgeKmzDfSdWL";
+        sout << "I3njQNB8UHttKZ1wCsvjoefqE2YpJNOtZRu2QqfpgNf+GhPQzBRhWoMYvrMwiN1Oue6gdwja/lAM";
+        sout << "JPnyGj6LP5ttPFuN9xTtbjYRGdgEH45jquNNeBG/jfTnacdo0VXyB8BLA+OW9xj2NxXkP5Ey727G";
+        sout << "ioQ6RU0Sbb/syK1C9IcZ5FuDEeIi5EHL66oiuI0dRIDjMabmhdwkaYIOqqqp2ad2WPq5XoJr8zzT";
+        sout << "MCoOa8+3KcdUoluyc0v6TJ/5e5U41D0RFTxZlBHniKasK0CTAAqxbvzOeMa+vHpy9y21m6WRi2dk";
+        sout << "jrDd7G3PSd9Ju/9+nCTORdPQLy0WjE1XtTOEGNHmjg8FVvLZpkwYltyjtDL2pSmDQYS5MbJR393b";
+        sout << "4KNOxHQ2Waxvg6OD1v89dBkFJzP/4MIJ+06J1Ic2nGN9HQf2wOXRq9nLjrLLP9uZ9b/lv7+ENvPk";
+        sout << "Mkyak/P3nb1cGv5d+nA9341g6ux6KRnC3ODniIQBsaqCWK+j1ZSYt3iL9PjNEWltXI6O/eFrEZ/u";
+        sout << "RK+3U4jkBm3chL56FZwVb2flKi4jWNw3KiiwMhCvRbKWRF74VMN/8lHHgaDV1GGYQHPFBtQhVO4o";
+        sout << "1fdU9ot5n+2hMPMVUi/91e91CJhZ527Z/O+ThJzn/ZQeT0MFSYAk261cPu6NONDySbyfpfAD83c2";
+        sout << "H3PhfKWnNAZucDQvJfkhdQtA9YEcDuKqUaRxIOS7gLmBYf3yaRU0oqPIAB3ArFy2qtOTB/7QpQT7";
+        sout << "TE7OdHBIcfwb5pc9kCvK+yQA5qr+10HH7IOleRACtrjPSxwi9kyKK54705isJeDJ6mYzVSWQMUHa";
+        sout << "ChVcw8X7/jVcmM+DqMI6eTxhzoderY3rwdrO5wYhf0vitEG0RkzffKfQ/S0L3ZaB8skusNOeIhCk";
+        sout << "6mB4OmyWK7QrnR4M7bdD19ghsxu0vgjG5jSs7mwafZ50gAaE3b4b6TZoxix389Wju8YQzf6GHNgh";
+        sout << "HFjoWVPEaHh/h6OGD3Fn7FWHJpjscLvTnMNqMkmLRdpobHZjKjyLSSMvyZ8iEri+wFZYWf7X+zGk";
+        sout << "iklQoN9cttJDehMoge1Dhe9z3FBJHshtW414yi3e3ClSkQf1smxjDHKOQP+n8+Fdh3yYwXhUKMhV";
+        sout << "Bfotd1RB/dWezWZzagzgssqf3ahLipWUjcCrewu+HG+AdiSkkwYTaoKI9STC6E7Tw+LtFvY9y/SR";
+        sout << "pcSCoNsB8g7T/fZ73qB0PfZ/HfAafd055/Ak5UHRcID6/iFC/OD/bWkidQfjCCacqyMeNsP+anzP";
+        sout << "ut0c3UhVU89oJJ54lYB+ipjUfRxDIcHlSi2NzKHDPQHi18Z4LamSOAfoKU5vFhVzK5BI9tnD8Sit";
+        sout << "etgTBgZuEqGtjg+60263/woim9gIWqtO/DfPKflIF5ywA8IfGOcKdtGWzyEv19el3QFOaW9u+ZZk";
+        sout << "FoeUtJybE3xwSvm5RBMy3DwTGDuVyaBBwQpG60yi5A2Gv9s498ZHl89r751FPEFg9fh3TQmudehY";
+        sout << "bZtxq4FWMbgK/8EwYn1BOwg58Vvp3XGZelcadGCU0WQcjLEzXTtretgiYQvUQ3GbGmrvPPgxNnFW";
+        sout << "ScycdCkiu+XEvUmeYK+5Dicd118fnzhAX7NuUtsotRxzDUAixNla3ZD+qsniJ+dTFjzLOHnOpLGZ";
+        sout << "pYeNolFIAI9AxGJWMI6seGE4hrfc9DoyF3OgXI2NXTAk4DrztQk813MZahrgt/dG2QoMytt4aGqp";
+        sout << "PeE48fPOG7xx4YC42GDtCR2oRg3zpCNuUNgceJJQAyOF4HJFZKqly2BMt8OTXmYXRnwrplpiUlf6";
+        sout << "qAditYcpGbv8ealB29gB6AXrQey5yaz6mNbM4JjD8A38ZESrQb3RjHKNWUDFFtKoDN99EeSn4EH/";
+        sout << "V+yiZO9+TFcZlqi29gD3VW88c3jD0awYoJJ/1/xIMNwPgmZXgsrc+3whKY1W62PMJ/gQpN1WXTO0";
+        sout << "1mNvQvM8YcMocM//3J1RwpDo6r9ceIKJYvzWToCOCygfSfx4o3HpmJe81ydVc4FvHSCtKA1YCdp1";
+        sout << "a0e3I27ImzfoXTT4y0e+jYNtWBBd2Jwqn52n4u3kYib1L89WWpcVMLTBOZ8ps3q1KPnT1zTsQORU";
+        sout << "Km/YvG1QY8gOIPa10Bhk72093armhkKMDmL+GqrI92rjDlqiRbxUX2Xd5Nx+Ug8aZ3bdESIAGapJ";
+        sout << "dXa3W6gqMQOkunBDEe7NZ0P/BfaLSdgFOxW8XrWo7sbd87dP64nrJY3gWYpPlhVPHlgbjIxc+BSs";
+        sout << "hG+eVdFBL2IJWV7UL0u6VfP/2fCxaFmOlWB9tXGRNc9OOHM7kUMN9KoJ3Otsm3x2RJOKXLkH8Edo";
+        sout << "EastOg6EVyRRKiL2lyaihGg1siiaq5R4ApXqC1OgfyztArbLJXZfgarcETO4vnln4HYz3EhrMh1V";
+        sout << "cjxPh6Bi0IAXpGLYFZoZYiaTnMKex1kCNYOwN8DzDOYR0eLQbGiOgzRGQAAEyfjJ9H+RI78lT8qs";
+        sout << "rY3lmRENx0ubrGVRAGb+ixOBxR2Ab4Mo9K7ajPZA0V7Ye3hfs7V7mzVT/9IibJOc8Bl44rh10mw7";
+        sout << "skkrnJzhnVF8J5qim6MRixEAHmvi2pp3SmfuBN8/F0pXeR9J580dO4pix7wuwn4kcLTXgvFzsPmq";
+        sout << "t7dkQxFPRH3UdNiKXGQf0R43F90XrVQumEYWmG9dxYjZj7/FSG2wLnRr9MwGkmMXDRdPvDZ1E2xB";
+        sout << "M8t3UIqvJ4BovsRwqPuciR6QdW/0sXY6/A3USQfFR1ZHarzlwvGE+KX9oi4g/zsbBT2wJA3DmYl6";
+        sout << "bGeBk8xHUEk8HDqpVeAf1zfFD4b3NJ2FNo7gSnJDQ63NrHGxkBOcrZ1j9SOL2HYzNp0lL9JBvNHO";
+        sout << "ZwpHPAUKPhsVSIAgKi0ZpfwKtc6NAwUggZYKztZlTAoQflgl/kUDXY1358gUdg0ark6a0rrOrW/5";
+        sout << "WNYJg+53sPeWLchKUYjkY8NveEHf6EWeWptg0MptmSvpJLbt78mfrBLl6NjKQLiwHvS1VJGy6dib";
+        sout << "crEHl3raBPQMvKjT4zx71XYZmDHMJhgQDQ4jP/R1bBf1quks0OB3AZleIR02QgQtmg9UehbNiGYZ";
+        sout << "CbSd4hOckPIyBnO+NQt7qRWEgrG8PW6bMZoT59qIq2KiXEyQhrt9dFjNRIw2UP526O3S693QZs6X";
+        sout << "O7ANkD5JFeWtsFuhuQ9Dy7O1Rjmh5QjMPJcgMf9K4u5TxJwhsPjeZkII+0DfalTo4V8uz2vmULGI";
+        sout << "2j34RUp4G32iiHDNVBR+cm06oFmfn+/UEHY9g02yQwyS0KqCQ8RBUNgZevDpUSd/yDOhZf85veFu";
+        sout << "M/o1Br1OruI37bB4AlAqpdMMZJ566aMPp4n1+QIpmvr7DOfwwy1RGcgDTLiSA86Ydp9HanO9doTs";
+        sout << "0x6rK+Rr6PrFl6r0bWmJPs0O2hgGl48ChQc0kfGEHapb4jCv71Z2zd/L61867uof1IHBbAGPslnE";
+        sout << "jcm71HtdS6E4d2csx0N8Cj1mZQDqUxq0MzthTaF91xKnrqCOsJSUQ0UpmmapRcPRRwm/z6xUUqMP";
+        sout << "g/gs8YhwYt9N7YChNnulaw7kyGLANAeA/8DYOi2VTeO9qqxpXunivx3SPl+9V/HK/MXcskOMLE7m";
+        sout << "85tDWIVT+xqzJawbo3Dy7dnRtqHP+qMrWhVngAMkJYCJQN2djOA4G/dh9b3ossX3jQOziZ2zQCnE";
+        sout << "Y98aUzFNBCKWiE1rvCnfdKkmFpmYqPHzmhhayVI2+ZiN4aLHVqjsGSBqSbgSIFEcszU4QCR0BMgg";
+        sout << "znluMkmVNy/VdE5nn6OHnb8H/3Ww/r/bhS8k6nknU0mPm7wjAIvqpK9X79i81TI8HqMOHUvICsw2";
+        sout << "O98/iSyRlNF2BmzV4K9oS+aXkCMsLeYixuZjslRmiFm1yGtwkcicY4Kr0SxJoJ3/+6Opmv1cHEkk";
+        sout << "Pm7aGLo6eiSe8W/4fmvuGtVa6CxZlf81SSlpM4uq/hNPkxiGkUsKJXscM3DIZYhk0Kx8LFI0XDkh";
+        sout << "VlUtcEIBRmUTFiQd5Lsa7Zv5BljNOrOj70Ai8y9d5HhvTjrl3lVDsGGy/iZ2iFOjs4uqvMWX49ga";
+        sout << "0KK6+3QgLlYFf31Rg7/z+iSTNTBSs388Pya6DiyKJfwLdEcNa6LNpXE9QIqLyKl7ddbw7MXLGrCT";
+        sout << "jYS2YyMYRnKEDq5eX9OjHtNysMb0zp3Jspd7AwPWH6Y9NkWZIuOVFonVQUqKQ8mCqxC0r08T/Or1";
+        sout << "bDP/TBG3qreBzGcEFRpz49UKoE4wjIh7H5VnFPPptu6j4MTKmDrQA5XpspDw8Cyx1anyC10pg32Q";
+        sout << "7V8rnEHv6Q109K2kIJXEExbRTYrxP9KmN6MrlD0apxv/4kRwC3MgpEOTmsPuF4NZlaLr3fEtmNqc";
+        sout << "5+aDXbPeQwPzD04wwY2Qi3wBoLPNJDV62RceC/Q1Zh3lOzYOG2oNwNSeF/uGqsXL/n7z+rvStL4R";
+        sout << "klxuz+xfNMcz/PK/5DZckMxaAsqYQq77QQ2ch1uBVaxf8ixj/zAGZlnz6b8Sbh6txFSbicE8DozO";
+        sout << "o3Nh6IX3cgX2701McY4Ziwa+8I01PkZ+4bjfzkW5vCDzoom4ZTD6sDcongZ9IDA5VwNBR1YizPvP";
+        sout << "UuOEAeoHto0nRDHtQ0K7Cw+PDfoEz+obfeEd3M65BzdCfSpegPBZZmZ9wZf/JoIYCHVCbMX3CoFo";
+        sout << "cmCApAJPovi7pHmC3oUpOsCssxI1huhMK7bkTA7X9S3TlAXAC8fm3aQmqAupaMkGFGrZxDZdyrhP";
+        sout << "YnH9FunGlvSahS4qwT/APMVi9azffoRZR/EZ3s77J9W6RKwdpj6xS6AuZGnkFgSlMLmTGvcksY6K";
+        sout << "32rI7ywetApaIOvkxdHT+XZye8EAnGsbVivIjTglbEyOz1xJ/pgaXMfcKeyoDXdoOKS9TTHIpkJP";
+        sout << "BE47nyGs8V1axy5FQ0Bq59ido+4OxHaeyah1Zaz9Keam5Ap8D2swRn22rYcoYl0/vuhFBe3NGjQi";
+        sout << "VkeDN00rTE5WghNuHcHLWB1Abi9tXVZkFyJJMNJUY8V1ppeI1VODKf/imhAlOOAyeAV0bI9izQP0";
+        sout << "1I0KeYwNbX/+fuYl0lsUrO+tgWCOVaGjmE3DJcTwcIn9CofVD35Xfnyk/RK9kS8gzdd8DRDa3/OR";
+        sout << "AYRCJGS6tv2MqNKB66ZdZ3SQQcdIF0s62vebcpd+y1mHfiWuWfS47NaRabixPAFtCtRyRY8rngVR";
+        sout << "OcCm6bti+19D/DUV0T8ujeCXCH37/SiY9f+9PtCvEKxpa1gTmRW9dt4oqcaSPiTnz4lkKaxA6iUh";
+        sout << "ZCxSaBmIba3hTTaTAK1f8eTY2Q+rs6ZsI5IAw901+Z9IO89YOoMwWkTPZz2ni+mt/SWylhLZ18Jp";
+        sout << "LuF/dIvPPbQ18kMXPrRD/LsLwJptW9TZrq4Pf1k8m3rNjdTXBOhHdpWYSlwRZi9Xhph3pKndLBtB";
+        sout << "d1SecpCR2Op+pbLhn6xegVvm/ThgTZRPqCXrZW/Dff1t5zA2JnSqFqm4e/0Z2DZT/vJdl7+5NX67";
+        sout << "Lpf29BMUsHP5HH3IVfIb6AzMa9dSDQlfRYH+7zZOi/0CO8IOrFBnXXj39pbz7pAulSWGCIOlFwSK";
+        sout << "RdxE75LCaW8sItXJqem5mnS+avZj4OQ3etFDGUfuyN9rzDWBzhBdm3l7By4CKBRJftya2nFtXWez";
+        sout << "n16wfu+ak4eaxZY3F2zEIbyiSbkEURHXDX+TZLJc6NxXsm4AbcL0WsaDqy2OD4Ua5E87IWUQOoAC";
+        sout << "3Dw2UfmCovI3SolU0rWs5HFABcCS1j4IEwns5wBCgFEZR2/+w5IDT6S7/uzf9IGf9sk6zphI7mgq";
+        sout << "2sZ8sJsX7d3l1/y62kYGK1opu4bZd8/P5FZrW6VZfAJ+lJ748JCn3gasI339OWwm+hLmenTtqgwl";
+        sout << "sZpe0tAV6a12v5jla2qQncBDaspVIcl3eHJ3mHaNIwsWcWNQUFApFWyHUYM8TF1q/7pMWepRHRB5";
+        sout << "h4FOdQSbrMPOaFDM7F9F1wsN2m6X7Vc1ARJR2RlM1pWBTvw0ZWk0pLJpgo1+BdXJ0XqwFN2MJi7j";
+        sout << "BCXYUzB4dGgTEXv4dwINd/yp+40jsOBuIA3l9i/4HvixIxW/TMHOFlFAXnmTpsLqwtlC3WNMh8Oa";
+        sout << "mjrs6vjjW9K9w+xhMttrS0YRSnOGAClIqc/naRZzIDnliN8DRcXBWOQf8j9lQcXmFPN9RV7t9fiZ";
+        sout << "8exXLhwk2VQ3E/qqw9vXl9emOaYGMvNG4XV1efuM5tpDZ6WDGO6m/DMN4reIZ6QZ875fn4iWGTGF";
+        sout << "RLjfw6UMS8b8Sd7NZAHnRkVxJ+qzHhyb2kY0ZLgcxar8kOoPOVkycg1Mx6k2yFS/w4nTE8MiqNGf";
+        sout << "zEl4+EtPiirDkHUwEXVB0m4vmSX/G8HS6qnAT0AGPZKKQBJ6ezns1GK2Ig0l4CqOehu5y/7As8Q6";
+        sout << "r6Y32m9rs07fss35rjTP1DVuu0DeCsTTonfhNOf4tWRItGVlj6gTMtFlF44k70+LHGz2d/E+yIK0";
+        sout << "kWhwOPCGixISZuR/kRpRpxGxtCgQPrA3eh78e90hXi2+tPx6+naPJIa8Eo4EvJ2+HG2AnqisAZJK";
+        sout << "2mXr6edXhC6nnwPABi+Z7jBREAZpku2kA51tscBmwYGJMe7R5rpdHj2hVga63Xm1q8NYUYFIKK4/";
+        sout << "ce8ocxIWsfVjXPfrskfHLUo/bDwRSehRlQj3Lz4Acd+kUcJjKhq6Km3KXmDQGh+i5zIubRbqaByk";
+        sout << "bMm43lXbUevngYxqlCARsUh6RNGnB7kjC6x7efjK8U4accaaMtWJU/ZoOjRGBT96caQe//nhHc2G";
+        sout << "UMMhCydLBt5lN7lqg7nNqJOuOEpfcogoFdpY7oHbgOfuoI3z2J1enNSVjmHl1cyN1tI3sBuTtoSv";
+        sout << "DhxgHzkqHMLLgaNbZQwoVvx+IEPzA3ZP1hLqyYQWQeCTiSilhdSETP971Cjy9bKd+7FZOcaDY4zk";
+        sout << "w+LI+tCOcmRDeYsOBytoD0OnoB5tUxQ/lcbFfjjrJTH3Fd9ukGkhJsD30+HlIO7/q6N6L9hlbZ4h";
+        sout << "+fVnM/tDDEPA5K1kdt2uKA63G29XFMyeishlF3ksgTvEWBCtjbVK6dVQctnCUq1mJjVdMt+Gu0sR";
+        sout << "bzuZW6Mf0TEhhlgXGgFOXSc8dgBmsOh+XM4QVFS+LGs7xXOfPv8JRg7/8FQWo/VljWvHD7Kz6JQK";
+        sout << "eKenBrC3ipoe1LX/ZrViaxm+XTYUDeVYudWH8ZKhyfFevYWPH0yXNUeVgJHtQ7ZkJHqNHuKjJhy9";
+        sout << "znMBEKAu4w/efnXsFwYXqygRmvY53oYgeTGo/z4DZ6RBZ3XamRNIo/dde34zN6EGG/z5WJ2iyqC5";
+        sout << "2eLMRBG/5zqJzPw23dljkM1IOfNVUrMYJDpqCw1P3Blj8fLmOaZtamjF7CFypEK/8TJO/WaLaunY";
+        sout << "QZOQgfdCrP9Ec0EXVs2UKN/2CX3CC8j6Yl97XhssuMdDlgbCPr4beR/f7TKuTCtKdb25QEEEipiw";
+        sout << "ZV/vdB5TVsqYMpnCDL3JUBfb3ZNMYQHoEjIZgG+lvgo287uj7YMtomLFg/I73LGTLqunYcWyC7vJ";
+        sout << "59pKlWCkn9V8L1RouJLrJGiV08PN9fywa3+3x2nZc8vlB1MAkUrx1uzKOZH6CYyzm92aHjJtPBcw";
+        sout << "XCkIEiPqBpQrcrB0aFxmN0vQRv56G8ppY4VHm3H4nrux86y+gMr9s4nhh9IblKkjNWDM9EzCL6/D";
+        sout << "6cvJdAsR2LQ7LoDxiy0rxd/BCssPWWcsDMNwXYG1mbJckRIJ6LNsQIBDMics1xs3eLtIbw3U7pu1";
+        sout << "9Oo4CSYhXMRy/X1xJYE9wfejOguyquEmpJdEMnRLBn/RbQJMV0JGE0yVILTp+wdzzQ7F+GqNsJPY";
+        sout << "gfXxGBpRVBCvIxP+TxgFZhx8aM3i4eAqnf9HqgiZ+jbDZ4l2teW7nQA2v5DBOaO24dIzR84rI1ea";
+        sout << "Jcev7qqXkV6P5BjB2Nbf4k/KfHQNO4Bn3KCk+CQv0bGyiIh1uIbt1JbC8FidqYvHzaclpmYBJhXq";
+        sout << "l3WRAPIvRjOjsWRHWXB7C61Hv/VABdZEGPmpJERQ2N/Ysiq3mbMR6Udo9taMXtrfXdOlQ2b/RLeQ";
+        sout << "vrYjkOoE7o5kHw4jJ09Ba1EIppx5RC7tMKpOCmj22lWSF4P7m403EKNsaFmorxRPIEwN5tBvs15H";
+        sout << "A1+r3H2g/Z07vAXuBklqYIVgDxSzoVnakQBWY+2CppbqQdL+2QObiHyHVX03jEej66/TxCKCann2";
+        sout << "WNwh0ECClgE1djXBzoOl8viqb4oFqNNvK031gd2YgbvFDGPsF4pwlY5dIsbCD18Y5sa551n50XSE";
+        sout << "QB2kbdctE3zn5tgyl6aubzQ6zOmwmgsiitNI8U+WzaizVmDyNzcdTBMgWTlFZ4AxXHkqjQokBhj1";
+        sout << "sz0qQaEJxqhGaOWgkANd5knFIDvZItOZ0++AbH7pG90aZbFivfaMtWSa7JIJ5erdabFKX8CiXdPJ";
+        sout << "B//j6HVS12jF2iuZMe5Qorza1GLXC/Bo/6TYJOzNDTdy2gV/mccffSx4doZx+DUHjVwTpjdXVinp";
+        sout << "/yfost8243CuQN6pjYGOCVoFpu/+YyP6wluZ1IIxof0unhfUnzuAp1zSRZNle53ucVtt0dgcMkEl";
+        sout << "nuWt78p+t1pj03kSnkUwxlcZMYZpcjIJtCdmW+d8sS2Fz+3GG7dTFr1P/3HrOxZEX2rbMoBllqFK";
+        sout << "wFGui0iN6nmpCJ3wv0PUxqXz5f5oqZLOU3c5jyPQgVBnNwfPyFDAizqDb4l7asbr6HPntfYXAz2T";
+        sout << "h6whUXlVG1DYdpD+wASpQnqzg35S0ToaHaMjLzaUayVLFsABV+PrD0UoQmYHEFtevbycTM+GIuHz";
+        sout << "gRCsRU7SU73B64yR4B/ZbkmxCetILwUDMr4SQvIRM8PqnZ3S+C94tYJPmq+xih5zgxdZsYZ4jaxu";
+        sout << "Bi+u1oa/ml5ffkazFCvj+S6mAA==";
+        return sout.str();
+    }
+
+    // Returns compressed black hole Q & A dataset
+    // Decompressed format : PAIRED_TEXT(segments separated by "@@", grouped as pairs)
+    // Structure : "Question1@@Answer1@@Question2@@Answer2@@..."
+    inline std::string get_blackhole_qa_pa_compressed()
+    {
+        std::ostringstream sout;
+        sout << "V1Hxi0JG5qS6Dqn+dZtM3Fyo/32/7lG6IxwYqLW4B3XBEGrWfPBcX3g84coDlfRFCIGQGaPYck7h";
+        sout << "p/jyUazTCfxb47qhrQPvvAbyz9FpVNPhEBruPorVGE4B3qJ57+c6BnHTjlF/sBa7aLsI0Rkd3EDi";
+        sout << "+HqMFfS6RMXpGUOk1qqkOb5TWuV7D6d1XcxFK+S2spn4s/yW71qAi1UXoQEN4Pew4pyIsa9yhS7v";
+        sout << "pVx0lkiGdvdwjQyApyyhC2rC1aHzRvriTYpvwb+02thqPuWQs3YctkGXxp8KlkdZ3414zSjTxpF+";
+        sout << "jsUQIyElJILYbF2vW7mZ0W7Sbmt7jQ0+49wKqvGv+m/ThWfenmGTw21TxJmpl37RDl+wcJs61yLx";
+        sout << "+39EjVKaulZw06vjtmw1PSSdLHqzB4mwTKxOXnfGmMMh6Yj1ijejr2/zQgaBJiL35YF70fFT1CBw";
+        sout << "/jyRGEZU3b6t1QUS6kMhDVbULiBQNyUMnsM59VRyJJ5g4eumCpEldVy3oegUXEQszAQaXly2qcJP";
+        sout << "yLRefNy6yq+7+rYv14wFS7a/cvgZwtZHGN4A/4eADYINP35m1GrEiMaxUhB6YCHdGStoh8X+dK8G";
+        sout << "KwlLXtU0T2xrJLiVzIpm29QTbDgoy6gIled3xbmLXciKDugw2HDppjgW1UKtQIFPUlq/ttEFCJyU";
+        sout << "BqgXe2zfVf9OWBK6KIJ1ycx1dtllTrEDR9G9a8mIxnAhCgyM3INNg5Wo1ezNzF8mMIOPiigH7W6g";
+        sout << "RwIl+bUgjcDGaT1LMk/d43gcoEmGyjiunWNv6MhpYjoy7rhi+ZN9B97FWePB0bxjFyUZW8gZh55f";
+        sout << "PQ3I2NwM+oJSbhv4k1n97sTHzWB8KPr1y3yKTm0ky/Qn9CYW2qWgcNFA85jyQOaFSzlrlVfSu66V";
+        sout << "9p5wYwopJZ1Xg6SKxrgphYipCUBLVCoM+hsbPzZqFeVgeHrnx4PWbw/nD2ni48p4tDFwNR6ctkSm";
+        sout << "zx8aJ0UsNTDOPjStiemCm2YozBTAwQv88coBE1zQKY5dLBG4ZnsAIBm13XN68ZVxvLUbk2VmKXhu";
+        sout << "yiB2A0Dx+PbHA/Xqi/TGeurnkxBbLz0UWgW5fJnm4OquMpLnh2U8LT09gr4F4wNxv4Xz71XSv3M6";
+        sout << "g02t78u0HKxENk2HD2pHvCuRzB0YZt7rtLMZ3OPJaTqSwXVh/bv35/vfQ+SjLyBl78TT5BY4PyAf";
+        sout << "0tTTzeAMl7DYGji+PBKmDjoISyVVEsoQPNG4e4z5O6Yb6Cd1tA91ySm5WNoCKh0ySwFKaOvgfoV+";
+        sout << "tN1hHqW/gPdxvtSZNFWrLJkWw6TYWaeHF/bISpBLItNS293Tg/6N3/sN8379nUea9budQrmht5vJ";
+        sout << "A3rwEAkzUtOdBgJq8rZurw2y6h/0xqIFHOz6uFMkGWKKNf5F6LfFV/fzNetP3cemluaW5L3FuswP";
+        sout << "WPCaQzjpW2EzHOa4N9pT120OENQ0cfYJCrb1OBSp5yKJntI39W8rBfcxgGTGQWiN4RsPBgtXcWbv";
+        sout << "jA4xhmYDMaBmuPCX74dNsGbakC4pyzBflALxgT7Uw5YkPpVU6h7MROizveeSBDm4MPyn+jd/U88n";
+        sout << "kV5+m1LOJPhy7FhJdR9kYX5C3c7pu2S7201KJC33YgTheQ11AJTfsd9ODcBXMgw2XfLS8BEKmHEM";
+        sout << "70gyS2w4zJ87c/jGihZAL5KMrRFV064bEwj8g82URMLPJdUa6hSzNK8+JBn//Wv+eh8qjMo71J9n";
+        sout << "pBRzv/nsQ2zzLjmdk7YazW81iKW30y7FBuDwS4LIxjybVlFWZt/3w71D378ejV2V4qDdWF+bR/Xp";
+        sout << "wC0+IhCsl5tOKB9DVOvt9iSL7xYJ1k7e1Fm2neOk7uf627jw0PAe4RmCptHe7sdznkypxmuA+gaF";
+        sout << "+v9snLHOL/r14VxrP75N/Cgde3iiBrlex2s8DHo4P+4dG1F3Q8UaUXt/Wr/3MX7rshGM6TNlldiR";
+        sout << "ulIVSNco1t0BLG1Y+zygra29yojS235SW6Nq7C9JdsbeWh0dH+cxTJiZ28OEoSRG8JLGp6liTYzC";
+        sout << "R6p641Tt4sCElnoPhW8j8jaQXNCSP/vQKQ4h9NV6REZZzZxfI9VDaKW0vnkNQ/o4jkAmojSirlUf";
+        sout << "FoSEeGadEYJ7zFTd6jhAgN5633IybmQbC/erSkUYPHOoteCV/zifxJK5SKQ30+uxdt2SiOFVkNuZ";
+        sout << "SROEukDEyb5u7uWx1+86UwZrqCK6Fk/h0Q7xpAytER31+oL/CV9hWcgpg8zsx8RJkZg0mULgPNk9";
+        sout << "01JbwK8PgEF2ehy14Z2HoMZuGzMSyimNj54YHCFK0VPDReeDlVAMsdg1uz57zH8+/eUOwAFjnXbc";
+        sout << "Dibm7Ui9CCJHm6Yj692Quthvkxb8n+yO/kPXytsO2rynsyVCQWhtM9utJhpCnAPy3edAwvlvDwLe";
+        sout << "jnGxj375oYXFqldPVM+spTcbAcC16azQX7rFW+ppHgU60RgCUk0FUYIQmhOiXYZNPA47qCTUw3B+";
+        sout << "+47Vf8u2UQbLt6lngaS38qw5Cc0LeDcwSnB+LeoPmyUnCaPeGJFDYDHfbu4qcw8XuVROXwuleS59";
+        sout << "Zbr6mvPD1VbzS2XBIuUue0g/IlbCx705ppcDtp3TXF4KRquLO8OCS8WXdnXLe9xO+IgKAoqUP68s";
+        sout << "Heh1PwUER3gmFVCHItCMtPD6Bu86XOO2SifShJFcWhb8Ek355HmmZjj1yeg5mMy7TllwRkelgpOu";
+        sout << "WXFcTS3O/rVPRzja0nLGMsVSi8igxLgF8vCZMXDq8GO7Q3Z2dNIouhU2Hb6S1s1s2T4YWsdb3NNp";
+        sout << "Z1cOJ36T5dNzA5nnmFr9xpSkRBzWFfGFFTQ3RT74mpJpszSbKsl/qdaLMYEtW0l1I+V5fKfsJdZE";
+        sout << "Nn/FrOCePcAA1OV3ALyIh141lToZeDqnV6nL0hTI1F7ErP6pKm5VEBS6mbvClEZNVbIolCLkEdoA";
+        sout << "Myq3F0whqMhmXk7FipXXARbHMNwTJ4quos2xWENGEUQIlH4knatvf5u2xDlzfAR/be22fHeIO12H";
+        sout << "3DO/RvwlRw1sqEKnFqISlmSYLKC32+QNiUucPpYHME4ObArcQXvz/UFY/ycsdZ3BEKYZkYHEVydi";
+        sout << "XAkya9jfNhnDLMpyiM0gxr1hk4WVnNbgtSOtLq5W7EfG6ACeacf5Lo1v8Gxr5TacHfGEJT68++Cb";
+        sout << "i2SdPLYH+wn84JGFUfykmg/ZA13Q5oGDcLPs9m1fDj6QoC4vLmSWyv+H1dKBAE8WEEDErXfi+QJh";
+        sout << "5xQAyby3ER0HYhWJmVmtv5tVEj3c2LqFm3rhv+vilziDpYTMYsTuUizgn/sZ7HCSIQmLV+oiKcpL";
+        sout << "wFalvWF1tl/fBo0KT5uF0Skq7dsCTLusOFOwFNv0Lozto5BT/kplRmOs25Lr6MkE/C9YX1NvplZ/";
+        sout << "yCO3a0qOAWRgs9taFbgP/Jz7su/yH2CLgg7vP/7ywiaZYJsqUWxw3M1h/R3DNU6cwhScTtCNor3K";
+        sout << "n21p4QHD0SYHhOom49iaANkv4/gwYcjeumWyWRmgqIjgRDchcsrFFSKypyRd4YGA7xs5zd2GBBdM";
+        sout << "WVgaTG1BW1HMr2ni+AFtJm7R+0n73OutBBbHEixFLv/hXgBqsckLqDd7vk48m/gR2urifnhQT0jI";
+        sout << "p6vVC8cGGxZh0pjSP91czRqMM2KWQf//XYh6cDbMU4Zjuo5F4ATKaZjn/Kwu1NXMy8UeqbupAizv";
+        sout << "OYu0p2dZgMy8Q8IyoNIQYcrfSWr8hhKhxCTxj99t3FDBsaNWJc54uNW1aKm4Va/GyHa8rW1oL0bg";
+        sout << "PbBV+DxA+V/aeOLdfkjiKXVBmP48l8OX54Ky+ELO7HxigGlOvshPBpaRslEslkYrmTMGQih8nRRd";
+        sout << "KId1QQYM1G5wOQoSX2Y60nNubF/Etf/hps/Hr1evOJWIDzOD32EeowNSWKEtXLdTyC9l/SAjPEAu";
+        sout << "T9G/JQNlHnC+2xHaiHvr3esIOlZ5CoB6G+lLXVDmG4JamPGdank0oqp5yLKQR3Rq2QLFoHaiXeEF";
+        sout << "YRFaw1RwENpd9wMJZQHdzbfd88vYsWuOhrNmGGP71SLqbTccbsg1UK9ebQTO5fsK2fsZnBcyiN3D";
+        sout << "JRIYmF/oK9xX0pkz+pTYaIi6TIAUtb0G/W+aGBGzNh/cRXVYrwOd3pf/HEIPacwJ6EuUwVo01l4G";
+        sout << "zMx1FFjgBa9NpAFYssfpfFG8CagHbPideUwGoP2QhQmmzrNsb34i0QijQOWPXEBrWQdbmoupvVV3";
+        sout << "2/lh7g8QfYMH9Q1WUXGz4Wjt28lajQWWRrb0EpyqbC2Y0InaFvZVB0GX3emAcH2XmzPyuyPbZ2E4";
+        sout << "aUIaZI0GTrW7hWnCrIw5/31lL5aI4LJwTJox59JUl8pXiwamx7CX9m33Ygo6GMM4wGwCzDX4cCKh";
+        sout << "yrGG6BvMuJFq7iYmKEajfjrPAxZKcm8cFPGB2mgW9Mn7PujcGEFzCVjXatArm5w5nIis4WstZoh9";
+        sout << "qf6kLRayAM27loFS5uth8o7jRx4ZUNJwUdOCDe7AnIcE59Dv/dOB2HaSr/htOgh8VLiphZl6DApa";
+        sout << "wC/B2kyv7nyG6hHEP00xvD8cZJTcl3q/IvXeVQuUPKzUd1fTsl6dgMqAACuVfA78VdcVuBqhdWTI";
+        sout << "3U8awa900zUUMGDIvUrRq1O8o6wGzqxkZNkXso2ZBbN9Ftay7VwIC8EOZg6a6WV7CVCLReHbzn0V";
+        sout << "AMdSFz9/E0nqSL6SqANLpVJ0i/k055rc9LSl4MKUVv8soe/NE67o+oZpNpyRS6hQQctHfqOW0yPF";
+        sout << "8rDiMKCNQifJvINY6bD6Qvm6p+if/g796Wn9W91whOLURKvPmIxcEvENg0mPTKxwvZhnRuZeWO6e";
+        sout << "TRM/6L6NNOFaAyjn/J4+UMlX9+Vaaljos6W+9CwBlbpuDUV0L+Q+yMkWtrE3XCxeiooQfbw9yqXg";
+        sout << "iCoUvr6JvglGLtaPki8EqDIJ1h3DldZ520gL5R3T5XChuEyGiSKddJyvNVFQ9qRn8SkD0+DRYGnJ";
+        sout << "sj8gpf6X13TMyjeAwcp5ZHoRvjkkXJZBE7t2XbCEA+XkA8NRKnZiIdEtDiIibNDLn+sgRnUMakod";
+        sout << "Q8EV4XVPDqaWgTirFjkPtZ0GoX/c+k4guZxFlNHJ8+fbf6PqacJODNcOLCQjUTshNbz4drq/eUHT";
+        sout << "cqacn4Vxk7NMAQyz64ygOknmmm5KDQErO/8n2eUenoXOhHJIx3cogxDapZEVDptgOTNLuTjZhyJl";
+        sout << "2lTMfSRusXepIAf0r/TGkAw7BmiNeH5qiTNGvXvcpB+4XGM6zl57xwaGIfBVYDEt5jr6TZlrqjwO";
+        sout << "0Z6HMgf20AIBbUwDJXh5696yPphhAUJJa+vodLUiaVloSKd1gIPlJBcdKHex2W1XRZEMZdSNrW2d";
+        sout << "B3IJ0paMvjswxM9dfftlls6mv0v84BIqNRFsCdMM8vg0RGAqnkdml0kV6dLGrffk0i1K56qiKerc";
+        sout << "c3VptxN9kqeWU0pp3DhgJXxh6I5L0E1BSKdV6zYuGbQtTwDvEz9niB/vuB6xXuh8Y4uJshnHGhjF";
+        sout << "jJU0HfN+5XRAoM+5w+Y2LZVmtC2n3OZh5dK8f1JvVvR5Ql3RFptj/4+N906g6HUCUXJyrQZFVE51";
+        sout << "tbraKqa0JwT/23DbXiFlcw8C9xuKYi+irTpEgeUZlcX6LER6HKR5QN8+br+Ke7ph8gaS7BENRSCK";
+        sout << "WiS2FrjrAymfFziB9Hu6jlnYWRrMAckRRMGOYaFhkD+jCn3U+jg/oHbp8a2KFMkioV6chktC6R1D";
+        sout << "2n9JeCdgbqW5yy2UV8x0VV8XZu4Sh+flIRJGA8RSEGazNOXXZ61Ijn4IQXufEKtXd65Jt2FucEI7";
+        sout << "WsG5HavJRoZvmmRPBU8nL+SumUm07NstA1G6TS7CqFg47+msLiuW5f0tMtfmMTzCkf6hABg7tTqa";
+        sout << "WEDwh5ATbnjzE4gPyEx1XUEyHmE0tKIOurxee914hkThy7Bkh8GQmJhubmdTB5t62CPfJUjDEBBD";
+        sout << "DiTeW3ycHZ45uJmUwxfVjHQufLioZq+1SraZy7vmVW6wcBAnoeoAUa0VxNSNQRSU3rYK0HzxJcXy";
+        sout << "NCnHHt7QOeENJHcvKGlw+SYdpVW9/Yr9xgu4eDJnPG6F8mS74SeTwacv7mC2r2R1YSTtGAq/NlvF";
+        sout << "HAnRL+B6rcHkbMAQlgR8Id6gMXPtM8Y9HQVurZuHfs48o7Otkv/EOlXhrSRfrPPagICBVvCIX5Hm";
+        sout << "d/WVH2iRXqFYLk4bzybtTKU5oAeLmqidXvfXTlhbDgksY+ueehXi0TWEptzk3t0dfQY3Hz4j0aV5";
+        sout << "hiD7i6QKEC5qoT2VZNIOnjLc1iohYUipAl+I5gh9Vfdt9N5NsEfpwExNrNhJXooZarcThfhFfjh7";
+        sout << "2ojq6BEKn7bdFYulgoI3Is8oEee2k8C0HLKbxWAijwIkNA534QKUqzc0zT5VXS0/XFwWK0Va53sp";
+        sout << "mrh/vGH7M/l2+mlCuJEnhbES4mWhM1zF+WlJGuxg2j/5lThcDEG1yQE9c4sIWvAPG2DocoYOb9AC";
+        sout << "VteHT2if3yMc/zcbV4wy0PkYxgekBMyGHDscLEXCF3xJXt4YcZ4sr2kOOyMW22F2HgqcYkJVY2ky";
+        sout << "JNydERjjeRYesrJv+ge5xOqFE/5hgOZU7x9S16z4Y8uAYef6xTkRLiBe9iovekynKCH5Iwt/92Q4";
+        sout << "DuR6ZUvFrPWNkzZb3MPt/So8DbsTrtUQ0jhRhSNgppJsrd1yV6jsNA9lOIBQFepZ3fWkUmHq69Kz";
+        sout << "k2PCJ2zVIv50eWmLcmgX/AnPIjqfxfN+B+7aTCL1gAklA9FRzfe7yp4PyYo6bLkKwdgU9IF+8ePt";
+        sout << "/qpDmaSH3MWvZJa1H4roF6eYfZ9CNqArj9trA9Uw4jc3IyY/esEUxQVCdLGAMV6cKttsgXrMzUV0";
+        sout << "wKwZ6eS9zm1E/oKYoGtIRMf/838QKNOFY/XNRCGzZzGcPG0gxZgqhLRPE3EUbkaZJSdDYsMPzkAa";
+        sout << "6ANcmxXCczvpf3sGYLl0z01QZSoqmGPXBh03A9iFPGZhEBDEFfqLjCdjboAi1JBqRoUMtJCljsAS";
+        sout << "116oVUJxaC33kCvYJDPItY7O78aPOKMXPvxSWt0yOTm1qPTuD+tZcpPIdBQoqnC29m1NhcU5K0qt";
+        sout << "EbusYN7Ue612B2OSzbDRpdd7YewRqWQuF8iXAHE0eQnoEBzL9l3X6cx0VE22OSlGlmJEjWM5IaOB";
+        sout << "B7DYbK8cWdy+/qAtCBYIL2c8Voay5zHWx5oREab/q9EfHa7yn0ZkXjsSemc+0YJIqZXpHPwbNIs5";
+        sout << "GB9y5rzl6ZvReHeLQPs90F6pjr/GkZQtvTeu4cdObCR+bsLWP6n9tOSkmMnutfQ+5Kg/RIdun+rH";
+        sout << "Uwh4bCiknswZO1DydfsZQRkkbHeVC+/1AbZOP6LnHPAvoL8nanUqJfs6MLqzvgmrWIvaHnPMUPah";
+        sout << "e2ST5ODrOU4eB84XzWabKC8CXLzAO+FM2YcPdRL9nlWB4IQUKOJ05sGp3qGFObwMO6b7U2q4ghoG";
+        sout << "DzJ8rRV+2StFHNCDFVDUemTT6BqmBONHXFs7ynXJ4bzR8dQfrJf/DqqJ18bWS1fVNfW8MrNujk6n";
+        sout << "SM3fLzZ3iFMR3AryoI72iKyuYPTkh3/V+jTkyePN1mSPFAttjOtK4LHadFbY+7wtsmB9TteKpqXc";
+        sout << "/FZXur0IJ0iA/6ggxeNGKXfI/oBBafS6ZiLDB1Dfd16XjwJYoqV5Wic5qhW744zcYaxH64MlgXRJ";
+        sout << "0AVkbl1hHr9pXtDYNu/xUID9zMJwHUikYTpDIcqa9YKf0yAt0L/lg04iO4mrF7Anx6TDkaqklLrz";
+        sout << "PlhOGZeIa3ZOMU73BfDhCA1js1hpAZvRMuMP/XTW/Z60jmHpV//ypwzNISgx5chzlMhP+SGV0rnK";
+        sout << "+MOCzT1Lvbji6GVn0hJHOXmlaEKIphEA9TQ8hWJ62J0878HwmDDzjg9oJfuiKTKrqE2dU/xawHZ9";
+        sout << "D0gA8HJLlAmzvN4BiMWjLl8TZbkgKm8UH4+VgMQsXVuiw6QR1u9lPw8xUwOXvnYdFk6LbeJUj84N";
+        sout << "J6KNBDe3vvf7AIASxKskhisNipMNk1fDppjTVZzMeUJbuD6gowg9yiG5O0MJKHpm608uvp0bT8CJ";
+        sout << "BmrMrZYvdsv5l1H1N6pKsKA7ig6nr9u+jhnhKEl+y0fGzrpFOMVI+IUbxh2yr1HEkpbQzznNg2Jz";
+        sout << "giH1vz05UdZuNpoYSaMZyBjLocXntc6kMszrX56ygZJSQf36bqXjDOG+NqcEJLH7LiANA5ozEZje";
+        sout << "GwXu869UeGmD+XFn77l2jOKzycPWyzNIfEFhLL0eaoZWuCloD1VOP3puwcuqHq7zK2jTHWGLce/C";
+        sout << "TnP/8vVCa7mgIx4wd064Kl1NpWdnm4notqw+3CkJUXsEuhSoch/vY2Op8g6rGUcI0D2ijMglAIOa";
+        sout << "W73CwzXXZ86OtI6/tBmXCFSy1cnW3HwkQIHsOQahHz7Lbuy4sP1sF2571mAv/P8CvVvLkcjSpHO2";
+        sout << "TlmCYMMZwID4IY/eYfTZMgBRLnVZNhy0PyYFzM31oznv6FH6opHFyXB/DopSa8m74BxrBuoJOs/b";
+        sout << "IRisSYl0laYhr6b7OiHraS5udN7dBzhp8VcaXvHeakb3LqdftxcV+J3bEhp/m5AwjmkbfMLau6Di";
+        sout << "FIfVQgHagxgvvC1Fz9Tryq325uOCWvJGm9zkJAfhR1m8hWqQKr5GogbPO3H8HYSK/iAPMJnrOgSo";
+        sout << "bmHfyYuMUZ8vQrQsBl5Yj8W8pRa1MuvFSezrg5xwJsDSVT43XpTV3+3WH9s6HrjoUMvAEvPOuQQB";
+        sout << "wAqPgjiufL50Q9fw689gt1Z+fEvs05yt/xiHTxRuJRM2ocKTwiRHPzjR6z88oX4gRybQ12eKBrUv";
+        sout << "dbR7W4qZs25bAdbb5xkhjhTJS1PDhmcPYNOo+6HnfWoAN1BNo9kTw72CQ0jvD2TwSEpLkur3v1Xm";
+        sout << "hmCWx+cvPp/Nt79MdhtVZwSlYbsoTYcks+zSvmZeciOhOGObXh+BKjUHQyoMaqrU6RE91kzrLkYQ";
+        sout << "AEGY2Fzz7pkJErLL65aATz/y7unKHGBJNjxpTX3IpwHq1br9q0f2bJK9OeZ9qn0VcPPDoUelQaqC";
+        sout << "LXZlop/p6eBKO7LienYg0bSMdrLBcXjsMaOp2qtWNLy/z+SXGlXKiOnAk56Jil2C+JXuOjfLvcxh";
+        sout << "YVPGUBLEthhKwLV2S5ghjLQLdltcJja2WV898ywXr7UZ0dDCZKOlgflCbFex0eXkg9/ZEByThCyu";
+        sout << "wHRMdDmGIZeCV0N0zDU+Z5cphZ76hCi3Oulg9dydcKsmHj0Lih1gH2fjLR+k3Ff+1OQmebC4yAiG";
+        sout << "KZ8r6JxeDnQPwHp6JsCsCCGX8EacDTyPqslUgkAXiXyuP0MdZ6PZQs75oP8ARILoaqqt7mfwmvJb";
+        sout << "KaA0fVweXO/y6ApNRklQxPLJLgRaQscieNbpYZAIyK/UTKAVAWS10XG4J3wSciA1+djxoPb4lxTT";
+        sout << "PkuKmGbAhAoJnWevC+NjbuyHOHE0oAOwyUIaMpjmI0rWVzHZqCa6PMQ3wLAq+FhjLQ0AvDBJpm/D";
+        sout << "bQjiLgDizuMvS2S5OqJs0JX7S41gISU96LwL9ZP51k1sOVn0eosxEgp5Lvq9HHDiNpSkpCgTojN6";
+        sout << "lj+0mtHrrz5GHeHlSZcnkH13ViVDkq6gMnclAjBVzJhyG1MPsLzzI2dKHAooicFr0NPqqdLjJ5eb";
+        sout << "762euf1DHOxAw2tuwMTUJYsFkPmwT4Ot1yzORawWmDtpdLT6yLRdtIrJyNS4FzT/KJbm2Olna/Av";
+        sout << "GS8cYWpxmohT68n0G54zGsFc2MGc6kjs/jceF4PQ2YVNyEFmGI4ful3FeLllmiQkg7eOTfYOrtYb";
+        sout << "pAJICCnbOnILeAkUllhGYQYjAonFLsJlLslIteFCsf4CjDqai0qN1rqFk6Tx5gCwY6zzHZd6R3/B";
+        sout << "458H7z+pvHpcbl+7/9NjlRIY6EtzF0AytUiPzPDMrLbNZLSDycMJAzZEZ8DWqMnmLydL18fL1L2O";
+        sout << "INvHWD/QNe7fo5ugzJ+9xSkjO2hUsSf7Gh6I3dSkOIi/oFiCNIiuAeOVygD62wA=";
+        return sout.str();
+    }
+    inline std::string get_blackhole_qa_pb_compressed()
+    {
+        std::ostringstream sout;
+        sout << "STcT9t6YD5yY0kb6jxFqk1otvRFGNz06Gmm/urUcEc/hmL26So1K1PPLssFdh6UTfTEDE8cI8YBU";
+        sout << "D1NV5T6iPY8ebZ7Udn083XbB53S8y4ViuruHTHbvfeZrL95bG3faPc0UWkxsoCjxGJJ8KKCxukir";
+        sout << "IJrTYGeoGunvhMItC2bvN4/af6z0nnX2DzwpYf1w9rPW9Exj42O262ivlVT8+nsPSFBxqM45ppPp";
+        sout << "mSFaoCKO/0EET/GKnvIW/pLyrnocAgwNYJWJUmzNIhZf3uLHMisT/6izIqSZmXdZVr0yfvfplAjO";
+        sout << "F/4J6VQ9rgl/VQSwEryZPqxkWNPNHls+gCMWqqVCfd73x68QIBaPz/VLZTBoFiiv4y2Yx+VrLZQB";
+        sout << "zxPSuo/DNQjnLzGrxpju/s7se8qAUEZHGHSc4pp3QwFGudJiZuIcvY2LftGavZuZl9WevGkj1hGN";
+        sout << "hXvkpRW7tTk6qHD+97Di7zPG0CiZ/iEu4WwDxFt+UE50yyJgRGURrUiBhWXyXBZlAKRHzOlQr3B+";
+        sout << "cdXrqQFiAdqm2mXkRwNL6HlOSvvBq1LI8sO7amM2XyAFHbzl7Ijs7M+LFV9dbTEebKdok7ON8vby";
+        sout << "iV2X+Doc5SqXJ0MHCvKgvHfXEhTld7zTv0tYeGNxKG3VjpdWNrJbd9ni+6EXm0NTnMJjZE6b6Nkj";
+        sout << "iAOdRY0rJjC4nqr70vhqhuqa9YmbUYc+cF2CD1tM/wiIE9f0Ohh0rcgmCG+2LcTDQAEArJ3OXkDz";
+        sout << "9RVF21HGF3QGKfLaTcFnIfVRzxWZieDZJUkiT4dqL0/aD0Vysx3ClHzqc9GUW1MyTOLrbfsYUq2Q";
+        sout << "yAyC5CBIehYVZf7t7VhgsQwqrzPP/TBuXeICcVrtkWEjDAF8EVFq9s+6FKsQHyNb9dIkBpgQnFrv";
+        sout << "KmLXDUYr38fZqaZs/gECGcpuConuN0/pleNzQqHj0Sf4WYK28SUrcH/ZdSp6dv7YH5ur6ATggfy4";
+        sout << "JznD6en6qj8FVKCAt/Mau434CF7KMdrMPiJ2uFccYIPvftrJ1m/44xNSILeu82c3DG9qe/s4IVwn";
+        sout << "Nc73HEPij/XuI+V8g3KcVNOMR1BNmZGpP81KK11O1cnIHddZ38MI2Dd+xeHQzuSDM0oHnCnvvTZo";
+        sout << "LJ/0angQodJfNaWO36mNKl/a1nLQpvfm1eO5CjX+QzptDfcmLdB1xWABKblml0EyoGki7I4zpm4Z";
+        sout << "AIW+jriY7PjU3KkIcAI4NPvjg5fNYQ6hQP30uMgZ75M6ujWG/bvzZhmjeEc2IhK/1e8BzYyfI+fb";
+        sout << "/0Wl933WxSy9UrJQrusxhpLWWrpQdVX2J8mCzBH70C7A3WtofH+mDh11xX373iFGMfcBDELv149j";
+        sout << "z8sI+VAqsxnZ41RaqKX5TW9i5k2HvA+jLzdiO9OZPeor9mC2iOdzRApuY0gHPNOYkF2FS5A1+uUo";
+        sout << "LIxPXY68kf4OW5AVa3nEWYP1seFS2yZTcSFNpNpafpM7gtYTVLTbf8/U897O4KBiVL306vAOpFWq";
+        sout << "1zQqQce5aI1gTeVkW3mBdkgZCULZe+o726L2X47Tk+qfW2vOO9OyXlX5e4ZCI/GW7z6yDYFO5OPl";
+        sout << "Sq09hvVvO1ZiWmGLAP5tn/dgQnnCQ86doc+W+Dw/JsporIxcorkQ6feqd6cxgBTZY+8yl2i5g70X";
+        sout << "Og8SEy5f4GGsf6ahxLZygRfeFQPbWrETWRIhwpZIKJUh7YATU9zWQFRVg/bPUMSBv+vmbCdQKwjl";
+        sout << "tMvHraMOyQ/4FgiGvB2Lf+n14fGzkt/UJ6M+J6yXZ8fjDz7OQwzZqy7xMbeWnS8LyqJvh7j6spW6";
+        sout << "zNRkV2eFe+6Qt017mpP8zu71KEG6gxtGc6LxgsMp7zFpbr0AXCLZzglhTnl6KhOcWuq5o5aiwm3C";
+        sout << "0Wq6q2wSfx4I1pQqF9zwM4y0woQ1s0lew0XjEIyoakzY1bCqm/IWBevlBKMzoUIv5uWkj7dxGcb3";
+        sout << "Xick6ToU8+XKP18VPfTZRQw+wRg5mMP7FiPkBfBVKgKwSfAoPr3QCdcrZ5N6Q9N39hFlkogGfNc9";
+        sout << "Gwt/ZLfqxhqeUTSCXQb51engp/u9sncNpQ4ZAEVzM2NKYicowmuYrFouXd7kqcjyJ5fRtg61MkWr";
+        sout << "f/Nw3aoWqHjvFXR1eAQBNNhS9hL/RQ6lldO2d4m0dgY4qKaKNDw70cXlt3KX/UTpbnNT19oUYaoL";
+        sout << "d7AKjX7Wg9WDJUDCynduhXyVwk1DwhX6Ir0MknRxNumvAofvi53Tq8t3Sw8205yiIontth5MhyaD";
+        sout << "RP5oEtueugTo2RPqsO+CFAchA3S3SjvFiq4S6O+DmmGwO7Gad1QFS3uLlKSXmszePwtcWS1OKZru";
+        sout << "ZpP1w8qtWVLn9Id0rremLEtKqymNsMn0RDMO/be0IL0enLwbefWOBvCI+6GjEo8IEf3VeNMljcw0";
+        sout << "uyAegqDKC5t7ZXOTFKkrkF0H09g5eBPluawGniy832X9uELxFQ+04MHi6gKLktzqtIsH16OrmlOk";
+        sout << "0Vrxipar/oGMB6MsHK+ux4HGTeB5ab4iOE2exN5wHL94S/MMXuiKLOOnY7J5mWI0BARg+0AgOVIg";
+        sout << "5b0z9xaA/K+ZLlcr8ggytnOymR/1jvo8+N88N3f8URdaDU7OYEnrzDV1xXvEysi/lTwM/mINB//r";
+        sout << "8IMxIgraGF8zZ1eFEbNqLvU6BSSsUWAxndbBgvEljD/5A4eIHAOTu91BF9oGjaH2gu08St+QPuNN";
+        sout << "Y20sBSa1+shl9Z2BS7ZS4XUZHjTG8a6PvuNYzLD0/d4Zuiemm7ifH8qo9QZx+J33OIvRqla8F4Xg";
+        sout << "W7VuDtJ6k3WnGylUZcouHtvJx5RUfaGE1z6TAKXqdO+vYx7eGspcG5opWKtxFhauxtK/hhO8xfLj";
+        sout << "ZGItG1KQFZeTN9Zsh+o38ZhTCayNGF+ylar7pVEvOjiD2ct6iVBsdJWtJQDzFHATCwybdK2SZVVy";
+        sout << "5uH7I+//Op2jFMHvsJpgXQRkC8mJZEjF2bVze2jJiMP0R0AMWAP3H4I3K0Cw+VBHOUmKJbdVT2dU";
+        sout << "/Aw8tI/t0KKIdrGswmiOeQq5zaKUbJhjBspHi2mpSGzlZ8xOUhZ4IdZDgfU+CfJwlXwTptBK/6Xj";
+        sout << "POdcouLUwvtGndMnE5qOXOwycMnzdBFlvgZFGAEsrpoKlvsYNASuGtTJssRaJz87+1t3qhVv4oaQ";
+        sout << "t2tOnZ4l//EMI5HysLQGOy2c1S+ujWo3SL3uC9osOqbzEpxCLuAvj8Thqg7q7malxlF0SWacwA8/";
+        sout << "XTYCcNNpsSGrHN8qUymmGe5ddK7u824jGctIp3JS4eqGoPAhaozs1ffvCUyhO3Va1M9atbQ1L/Dg";
+        sout << "cIKXLStcXDuBZI31r3IfbBit3hYDX+DwDzKLK7NYdb9pCoMWljG9hciZRawmB3ed/B9V95AK74Bk";
+        sout << "mDtUCmxVAtTPFrUEqdqLrSJTXoZ2VCmEVxlH+NQH1dWGK1Jnvtcp8HEh6Zj7I+Nwn/1UEOlFrK0t";
+        sout << "shXtlpioX5gO7bD4QZ9+evj74asM/Ynj7P7vYmsMpK8aXNbwiGFEKpnR56K2Z28jTR+rvxKokzDd";
+        sout << "tirCqZzK+YGTdVfindxzWUsjtXcZcgceHMmOoF5oI8WFyVm/NzqPElCpjcgSwBOXjVA5O6xGBgHi";
+        sout << "8sv78BIomBfVSLCCr9e/DhHtJXDFKWcaJVGGSBnGP7X+OX7AKlCoWCpudwDbNM402f+Ypf+vULj1";
+        sout << "mZk9CH7bkIKMqBT7UTvUcJOO/fuViknn0uqWV7ialxp3P2iSOmAPn5eN6wH4Ymna2M2usB7fph/m";
+        sout << "C30qMFwzwBJhyJ1plbeUgOwDw6oVhTXAwJC+8PasaKfpjwqZZJTgqpBV+X4ROqCp1nRNa5lov8xh";
+        sout << "ksG3JvignF09Q4HxkLB4U5w3bssQyhjTA92NXCHjYc1jw2U4H7b6XPMoyWth84pTcJib2St8qoVj";
+        sout << "zQojKuAZl61qhro2E20MSsaZmyb48At+xVbryfy5H9GXM0MMxxQWPb2KkE6NPZsPS2W053jo4bWL";
+        sout << "MfdW4UAcLRuQJ3K5HhXs7k0LhoJA9VR5ySmmK5GcZOXIh+Zy1dqH02MOtc/O7v5zw6RuyJS+ob8L";
+        sout << "kPeAkZHqqdlnpVOP9vkqJCZvuYDak21F+yHuZ0qL7SzFrclZPYaT71HxddTkolOCQTachpKMuub9";
+        sout << "v3JNrfRxh7diU9TG1cD3/Cfq4bCZeiUbORDp1qnLZ9Rqyj5e7vJVsa/Sck/pof00NsGETpAzmY9W";
+        sout << "a0KcRIOrZ/ZPP/KswEcqn/xiS1MqUtwnLXygvcBH6WcgbYkgIDYHLeTDgI2lDwjWmr8d5ABbnkfS";
+        sout << "IQAyKRbwolWPAWG5IKD2qYIAwZg+p0Mf+IMlGndh22Q4cuSvfMsV3uAWIIojHphX+FfHxaVxdHIO";
+        sout << "PP4hY+Nk0uDTkfncG/Z8L0WLk59UqfadpuerxkyAZx7nWhqiLyGcLbdTif0eJ/Mzl06skSGWBHbO";
+        sout << "ISM3olIJkMNSHbP23Vze22hcHyfOm2WfJ7hW+9YMUYdeQl3yLds8n6rk+HhVT6Ase54ZVRVkAWzW";
+        sout << "lIfMB53BIXf4d9LK8wjhgvCKJh81su+h7rE6RWRQ4uhjj5CvDGx1w/V1AR/VgaCfqNM7FhJI4+ZI";
+        sout << "3ydy7gvv8Hy6jX1QX5vFntFCLTG/2iNaVDVNy3gpa0lTbwLyB6NRT+G81RLUo6+NqF3bTIm7JEnn";
+        sout << "0i/wNj5iOzGRzYPE4ot/nDw5PTdZkbNwfpCwvBglscUaNKSGq9U1jqnIHPFwf05cFW9CG5mbM/iD";
+        sout << "0TuEmXj8J31nDLSqY8k1G9xA4Cmg7j8rgT53UFrusaOHv13MVYINll6NLNbCh6mqe+kkG2nBfxPh";
+        sout << "jj4hgoNgPWcaYakzfCopprte0MEbpnd5MbbzfinDEBtZZAZqJqw4jesUh5IwE3Lbl6pT6vy+P0Wc";
+        sout << "BeCW9Esw25A95xt9KWZY+o5xTL/znZalwdAg2E72NPh+K7mlaB+UyoCQCqoyGzCwfzSf/hCt8XUR";
+        sout << "qd9EiOpdknOzCRzBasC4OtVQhpkecDa0NI6pOYPjZQHSlPrLQyDKdy9EL62Y8jtH4faDm6sd5pKG";
+        sout << "6PsPD8Khg8zfMw9a6rgWPImfLb5SuW5Vt4MHP8s1KCmKAl72oewdOURrVWYHyfJ3hQpOyjrjnKIJ";
+        sout << "q9gajL7FCPvZXK0ysKiUdEpzJMBWVUhT2dalVuJ9Twj0RWukdCKsgICddDic6oFZUsJ/JSQxmd4i";
+        sout << "Ua62IPga+6AySPx5xem08vg5xVcwhDiKCcXIJqetldS51M/X6aryylF+dBHfExky1GOI9ceLV/QO";
+        sout << "8DJ2AOWrAmaNiemkPW78DBowJFa9EfZ0uLbXyzQrypQeFx0krHfWJeF1bH+t1g5R9aedXRooBDtO";
+        sout << "L/3DWgemswt7Q2JvRhLk93EktsFgIFbKwFqSDFkvahZzQ07hY3jLbW0lrfR5xtZEp/SMKTroxgml";
+        sout << "raCftEGq9i0+wzSX8ANJj2JfolnlZmA+dSgMwNNB/Em2XCyUYL6XpKhNNXrdORF/ityrzX73Rnwh";
+        sout << "YzivtT7pBy2SWDxiFH+1JVi4mXXORDijEdRa/dzb1TVCqoAizA+MYcn6U/2TgnQkx8WSlxP7Q7pJ";
+        sout << "HizIf9yJtl66ORlbIKbQu6DIRa6Xw8sZYvwOiF28RqzHJhZfP4fL09/wq7lXDNAW5TaK8VyjmnBJ";
+        sout << "VpRxajKQpVVyDuwDNULTwt2jBqGw3jbvcjY680WzVJBEC7ItTRreXrhKEUMXyP8rzlDNZJrMZGmm";
+        sout << "zYmZCv2nGoAJgVScSOHyHW7lkiva4jz3FDkBdyztvcvuwj/pLX8KHbWBxsKEUjWNEo0jpmvz05Na";
+        sout << "mCS4QC1xWtsQSQBd65uNe82MeJYqxcdMfI8vSjcrvhawzYd1vF2Rouqcb6qJWfL8ASiA5c2EgRh+";
+        sout << "Q6MhlW9SoKcGVc9Nk/WtWFBnPDQwFnsZGyVXK8L+K6XeB5r3Kmr3JK8kFbM6FNh2cdmOOhcREs88";
+        sout << "lbjYCdaijEm30JhW6uDMLue9Zh++aelebwIqLqFu24FmIN9HZvaBVW5K7U3T4jTGKiW4Mc42nKti";
+        sout << "qar5A17qbGZfY7MIQtzrdhNw7WVafQ8Of0NzdkTK7e3L08iNTxTWbi9jULa3t5eunBPreiWRSNhs";
+        sout << "RMzqd1fMo0B0BOeDqsgEFBR5f5vXNmLQQggrZNqkgpGUq3pafy1ub/OjUCtMsgjSvQkdQj+4kCeX";
+        sout << "uV5zpoHziGHKaSDbpwFQinn21YLSQ1l4oJ9UXR8+PTtN3AHbD8S4Y/0Wh2cR8OE4iswnHELUDpdI";
+        sout << "GFQpV8ZB+hCOFZmRzWH8X60IBp9Hzwiq2ov/EoOyCMIOCFm1Kzj8z6E6Mjq05oSGsx688Ov7yL+D";
+        sout << "3nbN6fSPT9ToZlm9XHbkzYTAVCeda5mVS+hoo07jGYl9pMmCxye1OUZ5iJAz+oxJOOLR6LmjYmw6";
+        sout << "aWqtVac7LkiVSNCGF6CU5aMYR8jNsUtliRfjAglvixJ4ugjR4ZCly7PE/Ut/4YJVfpn+puZcsjYY";
+        sout << "EXRFLJkQGhphdBNUluJYMoz1hJVQa7AayCApU22Q2HTCJRth653aXlnR0R44ScHm+g916G7/rMiJ";
+        sout << "puZ6dET2p04/7B650kDJvYOmo3/AQhZi4ZDB7m8W3KZz2f/YiMJZK7lt9hBeZgKBtvJeZ1CRv/6u";
+        sout << "8+NrL/6c+yux+XdF5defFKmjebWsnjONEu0Ry/+ntL0UHnQZfMRaXNZ2GAvTdYY7aGdNJI7IqWaQ";
+        sout << "XG+Wv3jwYGjIqBGzFtK0cffKl+czAeEpFvFDqij43T/iK0Kj6MqeEZkssrQ6zOQtcgXAv4DSZdyV";
+        sout << "oCuGZUICl5ey1E6apsIXg3/TenoRdMBTrCDeOc7N7CkUL2/mKyicst5a7qKNGwtlonESYl8Csyvh";
+        sout << "IUggs60F0IDrlp9rQjmIRKc7YLsB+oXaTgmmv2jzs9OVZW6qo6eKCkMQbl3eMAtn3saoe8qMPmMv";
+        sout << "NI4hZhP2G4/TlaWPTZqVlFTtd4yY3yCYbiwUtcVAzBaoTPJWTCH8PcOOzqBpFVrRsl3kjekWWHIC";
+        sout << "xGeJzXwzAqb7EsPfFzGPrOGQlK26LNMOL9LV3MPXeZcGRev/Tilrkt/y1vr2WnafJgq28nRt+NUZ";
+        sout << "HLL47TAkYY+lf1MibIUkfJye29aUOw4vrzk0dbdmh/FrBjZCEf/oTrcjQ64YAV0SfMft/AN7l6Fk";
+        sout << "aZBxaxqZpcijlQwjG+6R+RKGOMIlrAo6AjgIckAPBAU/J8Tf121juXDTVM3lLlf6+/QbsGbv10ZA";
+        sout << "A+Fij6lhoUS9Y8FhTihzhIgRVlzAQnmkEyEE3Xvg9lmhk8FxguvU9+FgkD9QFD+tMtuIwtW+YZCB";
+        sout << "nqqlze5dTgptRiJ4KBipk6NVgq41AIOtY7aM329y7E41Aqns8ts/mH7pZcRBJfVdb9fOYTv32fip";
+        sout << "UjzjS6mwnZVuCD1REPZhREO1ozKMmwBSiD/GmZkRyH6tU/DznqUjffQ5fqtFmVOB9f7fEj8J7VaN";
+        sout << "1a6eLE+iUle5axd1zZGTF9tS6v5lxv0yF4V9AsCetnkzqkyIFToF/18fWQC7KprRPsuzDv+AjqZ3";
+        sout << "53i00GIyW8FXoQ/1OUZ2cwj5YUUE2ddOMtVjhTxDA7ZitwUq3j5SHQT2QH3TvTooskOK+VJToIs2";
+        sout << "QN6sqHKAX50UnO9szXH7FRsk7QFhITqgfiiHqgY8eJto51g9iyeNoGxNO3nQBzY0KhdFvBFDUim+";
+        sout << "KCFwzYOQzY+rqHGs9z1YBET2m7DHwrWk3fjMuOaeDN8c9cW/kV4eLASs1doGSxOZ7mU+gOrG5aN4";
+        sout << "9sNnbS/vIn5dW/szhUyZPInXKiUJhSBEBO2U8VzUueLfMl0B+eRpENhg+2Q+X6cgiKk0FXOdAT8S";
+        sout << "mO/ZMJfhRVIzFmVJLSC29w2gIbh1YVWEi8yN70u5HOR8PPOOJHkUszQWIxgp8+NP9P6J+u/J3qVk";
+        sout << "wU6OMUzy3dN+UkUr9z/obaFERqdb6zsqSnxv1gAzYewxLMpApRmPNx/cbdhsEP0cOibgIiKyHUvJ";
+        sout << "rbv2srCbiOK/Y+y8mHjhQz2slXZmKE45v6ea1TMzTW8VLFpj5pocFmnG4hx1/qDdTHEgzT7FTCFE";
+        sout << "9Q03J9NHMb9wNN2+rnZoWGlJ4fOiPqUTOvOgrlXg3lx603vmsr7vTsoySXGWIQ3E85sMQw2XaSQ3";
+        sout << "qxHs6hKPJaxtitzL8njZwmr9xonh8raZ1YTPkm0/YQMRoOQnS3iYXfriU03T0gW6VWe2WuhQRM7C";
+        sout << "69sejg6tLZP9/XZHgXv4CeS1pYsyGitytHHtMY3mkHhaVP1sodQ0IBkxDDBSWGKWhY54aC5wqMlM";
+        sout << "hEFf6rBVSqZGSknpZK18V4P3vcG9BuX+bzNF/CHabkYIjZD7QqakUP7sYEbl5KqEczd/hhf3+qZW";
+        sout << "KwlP2f8HnyewuMn3zgTZi+tRQ+vyJ7L31pmJiqB1j6i2tC09YQTUQ8zz9uFLScBahphm5sSkj1N2";
+        sout << "dCtPLyQWfed1PRAkw31iwTzfOJYedYOIVU7/ngB+GLDUf3YuEWXvN92UM80Q050Ylu8c7MSH8KRV";
+        sout << "KV0YcOBPmR53wfJimwH/+l67/o27BI7ZAOXLauoTm7hyntXiauGvQGDx1Mhxd2BeYnmDnXfPZRW4";
+        sout << "XaDhz1CcjErR7HWSbT9hv8PAGtuZyP4qKu5xb5GkUdXLIuCgeaTWjPkhWoW1UVVP81VWquYWAkuK";
+        sout << "KtFyeOm8fIJUE2gNJT2FL9HJ/WNrsRyN7G8ggcWNXyW2tPh6qBYUVR44aZ1sQ0Ejf4iyP9LOqvo1";
+        sout << "MY/GSx13lWXhWQ3W21GrYldCbIA4axSwjmys61Tf+4z0C1v/OuTp6c1oRUk874QGtPQZRbGGFg6a";
+        sout << "B4UwwMxye6a59fUGg2J5e6T9+2+9IPfpnV6uqGwxOf41qr4x0OZ64JhqoXY55mSEu/8J8E+QbJu9";
+        sout << "dth2Ix9zuNMRTET6BvwEPIWGLgaBdhP/pi2Ioyc8oHRWfoMa/SRIrwS5e0+j6WO8MLd0r5e3yG+C";
+        sout << "B2egRCDy1t9Vn/mHsmrGj4cBO23BQm08JWAPREd6KQK7S4kJ06vhPYYWpP4IPeWf5PgPCBqOpO5N";
+        sout << "xY6osmowisSognB7fsr217enna4NmIeTXFywKIOq8cIvqFJGv/sxkzmyR2P0iNxKm5KlOPXvVy+/";
+        sout << "KCsvKNp//ijW9iFqBmVJAygLcoeuSbQzxok3YUJn+gJAwgde5tSMrpXLaXSosUS30YvmSPoT80qU";
+        sout << "h29GU4Moorwb2bPjdomWSfWHEwogoJ82Kh9I8WHDQlX94oL3JVmNfybYbbwzSRT6LrDpcIUJVepB";
+        sout << "cRewsAXVJctr3HyV4LbTa8zKB6nYnrlhAtP/Q61NKL1GgF7ht03T7w81eeTgAzNsEicorkxbYt4Q";
+        sout << "vawVc5sVW/H76Lc4cwfa/0kT19AWbUzBuiDinyadSyxIfpYCCf+GZvboswk0wz7JmPu3IvDtVyeb";
+        sout << "DO1uq69Xr6ncDbJj18fyF0aY/vdrnRzg7rEa+tW53TcclJhrG5L/LzTf89D8p1fh+bd266hNVHwa";
+        sout << "QmcsHOIjD6H6lJUV+3zfTXgZzynD2JLdK0SSip2N0h8V8nQZ38LkzJKtyao0hji4zcAGPZEMUkAr";
+        sout << "24RanBoizS4+qIfB/RFFOJIUVm6r7sAB0944OGNeObOHYIwxoRY7vcTgXYr+SGw14aGYoBUxrRVt";
+        sout << "MVgQyW9HTFMnkQbC/OpK0B1YcIQ1Zm7IOGyQkE5RDz0RBhmLm4CVc4ad+GN4U2HaxEXqWAQaBU/O";
+        sout << "Bbv4CN2LAep2M8EyVX/eVX1Rmul348HNebxtYOWRS2FahRsUrkU1KsiOqGB7O5XxolnCrQMermOk";
+        sout << "yOLpm5n8OclolkFFMTIAMYBBXj4PfToOUe5RNJStmPQCSScdg1nvDtR5+m/CwqnFGEsPqIfv5Lqs";
+        sout << "eH8FfS+ilhlmoZiniuMlhWK6U0CHKaDw32cZVsROyjMngmrz/npUOAfmutzvInBzcPfs9rGylCBr";
+        sout << "G6JVJucnTPzAqS4RwAj86hrsumsxsWVXB8aBo6siNzIQ2CZ5TJxTCGMdwV7eDfaBnYuYmxRbM5f5";
+        sout << "umG6OuGc3OIZVAhrfv/vjq74V9Dv/Tt4Ewt+Mal2ZHTCkHu12aWCfeUNpULWByv1/sEN1Bvi+ucP";
+        sout << "kUDezGJLgxRU1AMj9n9s1FP/LTUofcvnwwyZfH8HxZ77nf03I/x1hgbHSzvKoU65YJ+1SsBQnr+R";
+        sout << "MlVr4Z5GQwKdNnr3Q6NxUyynQeKZbMIeqRaZhfNZJqkqZNCrhrRuKOtmET328AsF4pLvSgxxgFwq";
+        sout << "d8Qt2OYmeHspq6qIdv5r7b9FMq/4iJTTZS/LcmvzbuS+VxnnX+vkZ0i2DeHK90isyfdK+ZgTUk+L";
+        sout << "fQf3wHm6MD/RCcDv9r/Diujx5YYoB29jPam5VxevW8ScFcVvgqVGHUEuWa3kq6kDWuiXWzlW6kgX";
+        sout << "V8oM7+tHHFQni3YtBPk0EF2LhFhVeNtIZiAKdX5laf+yoie1NO/D6/+dXrvdbyRv++3wX1To3sL2";
+        sout << "2RETm4/wTMWixMhuARCeAitLRlol3t3mMSgJYCjAOVfXpL56XqsOHonPJH3ZIMALezFe2OBe2iDz";
+        sout << "domycG03g/EVEyeR+bBgv2/8RSp24I08XBQWgvP7PcQkUbzVngmm53+zibIiA+osJdOfRZ393Fa7";
+        sout << "/g72lrryeyPvd0XZAP6dcBjdcmgcL0AoRE6YA+Ak0qzKl7ppTJRFfryP2Ik44lMyZaVdIjMdOfuz";
+        sout << "tkxFyVCMUnqOxxpc/ctcmEU5GftnLBa977Sv6ss5YzKiC3m6z6ZCLND6GJF8L+ggcvj5xaiQubkB";
+        sout << "mAXKTQxCyUdTCvMimb81NvudC21Ye2mPLTreTX8fgiKn3KXv8W8tCW/2nInwRjnK5YKixzwvf3+m";
+        sout << "OtMQuyY7UiPDPfof2hV4wuaZZIKtsJ0kOLnRMeYKbW4eKi1Ut73+6Fo08fYOKmxWJ1W2XMbWSo4c";
+        sout << "6A7VjMSps5QW8lwJDIC3EJw0b6pfIXzmK5a1z1t0hIyJ/kA7g6FtQm59elqNDbr48lT/s67S3kT2";
+        sout << "e2FVe68FMbtTj0yH5zPBinjlfMvFrT7Qv2v2Me6dyOQ4imB6F9ZwG0rMRi7LuPbWpGaHwCG0B/T9";
+        sout << "Vw43+sn+K4EI/7j78yeK/FMBn8HZq0YHg0Bc9aCAKLccMUjRxnpl6Ug04Qe9AArJQk5nOpGde3Rw";
+        sout << "FmKzAlG9Ki0Jml7wAMHsocddgSUIyRKhbTdf+RBqdObERZU7kV2m0gydOuCgkMSdDisZBdrcbOUU";
+        sout << "fmIQFovhVPlFMj1uzYxOnYqrx9OlZuf3gN1xQdOv6AfcVli8tooeV9bPPfV2LdXK6DmmkRpcMo/G";
+        sout << "27/tF1iIPEB3n1ccpjpGGDRD4k6dCNTfnPOozQDlPbdP1ewAgSbaeVYQEdl1Yav077v8t58aDnjY";
+        sout << "XlQZKF6JIAYt/vccNql2PbK/YmDJZ1ino5aLyjLxMryjWQzICJDFydXAjdZIT4C+U4P3zQAfc5++";
+        sout << "sl9I2kgWG3M//64GuxYFq6Q++GlGWlb7Qnv2e46l1JFRJerjcwQyVCbHAMOJEs5MH+SZE8GZSeTX";
+        sout << "3Rxa6jG9xKAHY4cJj2nucJFxEP9sREPI5wMrMyuKSq2cBCbQ3RV3asPS2maA5TPzu3IkkzpBfKAV";
+        sout << "RE2kpoAxAtWV29UpkfYgcC5KFQBrQQs8wobaV4W/kLGmBT0QHz69Os4DmPf325yqK4NW6I11U+yu";
+        sout << "qv4erSMWtWHayBLGfqpJZBLimJNWfwyTci9Tg8cGrexqxheousrddHSV5pMidwm8AW12EEiIZuI0";
+        sout << "URRn9sRfTPi4WFJX6pHSrRlhWNuEsMfVIhlSH3YhpZF5L0xLGN59yXluvRxO2mbVjBi6boCod4S3";
+        sout << "EXhaensBw0cCrU0rmoLcRKycSjdVygWL/aGOYt2hYFVbIkc2Zafr363PEUDCDnc5m3t44+mBDh29";
+        sout << "XwmvzTFe9BOweTkvMiPo7WrxaOhdtOhrcTUlQLXcDCmk5UeAoY2mp8oovwQCyD13Daqv0ewN+WcB";
+        sout << "dXn0ueRNkQOkGtpQ8cx34azPzdKPhX8RUHaAbfJVWfJy1OEXUb1MmtLt9jEdfumBQ+LvkyIWBdF9";
+        sout << "SvU2Jyb7wRjUNXJNLCeVl06cU8Bb5ArOQYok7CfHZS9wPQEaWTUP61L9I8A/6QgB+diF9kdS4NXz";
+        sout << "7P2aR/twV6HMrW/xc0Z3gGzhHvjJLKo+4ADD46oqDcuByc3oxvhOUJHz5BPPr2lzocEZM3FIh6EC";
+        sout << "KPTv+ggDx46RFWFXxlADmzOM/GB/KbrBc8pZaLFDwR6ax5347sLZBGk+gxnklBI4etx2HC4Ousiw";
+        sout << "rLYFKPYwj4uZ79UdwW122Hrr1nQjlKShc8Y5QwnLbJeUNYqSVjY4PJcWVATeJ7kZceLvqOxUQ+y1";
+        sout << "i6AZZvSpixqu2/6BNYg+wx9x7uBfimTLowkoHyTVZ6HOYcLjrhO0sxs8dIbJlxO8l6TySfrhwosN";
+        sout << "ihl5I0yZkFhEBTWVwyYyfg7Y0wpRk+89KfeAkBPztq7gAM67oPLCMaYSUJzK7uwf9sdpoGCOle/9";
+        sout << "Y2aXLiB+ry4CeTFqIchYQxXh4G4G/V4/eSYIAsHte+XHmAIlIey1jluutOyk6zB4yzLoiF/k+q65";
+        sout << "wBzoH5jpI5NdHNpJMwrjMle+56P9ZMij2+6A9upKKHoIoF1f6jxkC2PlaIpGPVMRtm3JlSXkkmj6";
+        sout << "T1lGIKtlt3WukOCj7vQ5XqhCUN88Aw/qh5wbZSNi2JW9Y1a4yQ4iBFDwQ/TPX20DfPUOh3clXqSG";
+        sout << "oKqovUoK1SpClgCPhnPa4xjTXN55XWfewmh+lZeYz1mktiJTiMmK26pNYKxrwqAr2nJpm3Gzym45";
+        sout << "ur3c4i2TcXjraH9lMhdJYTgXGPfjSjYEWXQSImdT7FBFVRKvp47gS+kvEU+XqAfNdINFJfmXUspU";
+        sout << "JbdCRoen8Cqy7Y8ZTNeQz4ZaltDeGT5lFNs0ORHwaC41lw82RqOAlOa2qPOsbhvAHa43KmWNjQ6T";
+        sout << "E5HFmQH9s6MdVj7Yn1Ng6dT8hakG+jfCtL8Bc1pbxVsSznPBz0M3m3GaByiPQkNPoveN9aJEZGb1";
+        sout << "7NsK8Z2TPVGrq9dGjJoZP0JSoLXIr6GuqV8dfHgtg43LP575PJMRh5BWNbOdaW9QhTLsG3HqUFma";
+        sout << "cNQ2copoN40mHbVaY69HnRm6KTSLMxco8R49hTgIADR5Ea2XDKUtlvNhz8GAbywTwfyTWMnR5tCo";
+        sout << "PRZHAfb33KLmJi/rseSfsEM7kpXXWLUK5WHhSpMLZ/rQstiLM8qczl+jZR32tWZ3CaIbAyEY4q3L";
+        sout << "hMehNiU5nucnB3a5YcmzvNt2HgvIeHuMFQcMEwxjL5Z73eKwouBdepknIPv7J69Kg0zSzNxLvDRp";
+        sout << "wczO8Ypnhkck0vcRUohMd9dL5K4itMQIhqp+x8hxlGzUYn2lf42SHM+iWvCT+L3shXUWNNfOxyyE";
+        sout << "XJMD540EvD8Qe3dHr1CJrFCP40EHdhkn9MjRALBQRNewSfHZHtEMUT2gjuG5798F3uZMoeQwY2qe";
+        sout << "zkGhYz6dWdAA4mARl4K9EG9DduYoOiDTckIsUYAAeBIxYpMbdUT+7u+ly4cgjwhX0TPmLECnmPIK";
+        sout << "GPolYCX/5MNZ0HMHBm2+BDY02My+cVnrFBpt6XSRFFI2QhUU170ik//jKPPn7+aP47G044SUvvGY";
+        sout << "NqlM01S1VU5Kx4N5DmXjca9my/rvKt/VL+UEBjwpVmMRL/8WSTznY9G+kzUbIg/1oiymovMIQuiK";
+        sout << "S2C09BzNmHaRMDCqENFVLkVR+kQCsKO5BebOEzYJe14RXiGMe2xZJipQctcQqC0Lo6Fgdew4s6bu";
+        sout << "l7i7mUmix4ciYJKCmg0XjD0XklZ+mgWh+1Tr3YKwqBL56KSKPGKqkkWCYnvGPGz1RFFDrcQtSAI8";
+        sout << "6PBGAyWsU/dknLSlFmjA1quAGrz+qj7W68oafHRQKQLxLRky3CMikdod1JIz4V6paHYCd+6RFSg8";
+        sout << "+CLfhSOCyxcNcSLOFFPfBtshM5B5NpHLE4Gs18kJygN9zaXx+FAIgFtYDYGmHPhHOF04mKY5N6Ye";
+        sout << "X4Pnz8GLVHWRWsaVXnnO/yIJ7rf5Oz7e+4ATQo9SiohBdglX/P7S0ig7DkyWGf4M8h43b2eeVr1k";
+        sout << "Q/XSFo/nn82hEEweKgeuTw9s7L997H5CQIX4oXHW4/TMon4olnC4aIBwBC/n/p8gaW3+WLRrHm+g";
+        sout << "bVwiYlL28auMnmyfU8qCxBunr7NiOV2Mc/sJEZQlSq9K+zxzL1VhPJ+eeOBgREh7TwN0QNcQ0p8X";
+        sout << "lbt4TlwYn/s8bmNyeZqkTga7RV4cqO54ycuy1rSj+8nptrq47c16TJJFmfKG0/tPFNrsg/+2Q029";
+        sout << "D/03cJ1plmnoroYflDODsMqObftviKsiL3fkPs3TbOaWatemlmFhvtIwGLF1gOkR9j98+N1NAxl/";
+        sout << "NaWrRvzVaSNYJuJ9L0r4+g4zvAMSgbDR90DxbIclC3+qtU3YhXJNJl1AcEt8nH+X6m6jaboKqrFQ";
+        sout << "ZwEuyCT5p4ZOpvdFvGILGjO6lAvfhJyyNNnI30rYi3rOXpPQHG4OzFcuJV/+z3SYp28HTusW5qbe";
+        sout << "j1cfErhXgTRoJTeC4GChKda0ZaM6ki8M6F7XyfrVVjDU7Zo8F9nvN55CCfsORuxFUVUSsqbMqqKF";
+        sout << "J7dcar6xyyuygfZmBxKIy7Iwp4EbqvoJX2FtD9mqx2QSiwtTLitCIooKfzqDNly4if5w8HX1H14p";
+        sout << "eZ3i+21JkZaSxv64i7kfT1LcVq7UBzmFxyrazmJ8u/dgumLnEG146tnej5YEBr7jsw0Lud8sSYx5";
+        sout << "zw6evjqE+O3rHwvOKPs/COhLw/x5602eicqR4tuw3m1ttmZljCS5QNvNv/2qxWGX2jvguFVCOmxO";
+        sout << "sjYL4SI0pwNdbK+9R4fpm3FYvQD/Je63BXrLLpDFDX+alh230HnTb8FlG5JtwAJhZRBjtgoIbpUW";
+        sout << "1lSmHzEecvNdkUCSmC5XHepkT72XIeHGH9N2r+DzMn+7IXXTCmpm6IApP6mhLrsGfqrWXRGeAhig";
+        sout << "mJV6YwCgDUzNy3A+3wxKPdf8bz14jhDcVx+6oTRDOcnhmWlZxnAkD/S6iT5zxo4PSYKAA8KnnEi9";
+        sout << "AL2AKEFclCVVPFXXtGSa6pHwZVzUCu7z78kBO7cFCR3opQkIjSabRhK+OPRuhy14Mley40dqqgqA";
+        sout << "RaGlgARktw0xReIEfu9T6RFdBBfS+1tkKbBy7Wu9DD5xu4kxjL00brtks4Hk7dpxLHRgGhN5Pozk";
+        sout << "uL4aMqZYgF16gMBwX+OcP7zpY4xkwdJQsObWjMiZwpx4PK/c/V/tSeJLhj6QSwojJb0kf7EhLnbo";
+        sout << "NbVGUDRPsww1DYa6O2XelOVITcJX33cgDHTkTj9l0bBZ/L+KlaxPsJidNA2wFWfMhCjv4+eRhtQk";
+        sout << "cmVjK3qBGBfUoQgXPC+gduHdxsCOWvE7W0LBLFV0212PSyThBgYSpR/a1JLOxl1ulbpRuQXaT9hi";
+        sout << "sFnTFu7EzzYD5Jouyl1Q8TLuT+EvPNgFtIK7v5R25b3XmsjO7rSkpiAuLo3IPPRYC+mB1KtVhjY0";
+        sout << "Aif8w+46bbVgybERhHV1eaeD7C5do+h9ulNYcrM30a3Y3s+mRXmAqb05Z5iGTgP4CaEEnLwBnxFc";
+        sout << "lLw5pIdjBrbwPb6RyknbHhYkSDCN6wrnyHgmXrSnd+XdZTU6DQSTVHAP6FXhI+s6X+CzdFmVP6Yy";
+        sout << "nHRjsgr/JgfCyopX86qTQAZx34VrikbOg0/jmKu58HCnQCseGBzAbdiV+G6yGcrpFzXusAyihO3H";
+        sout << "Z+LPCODS2lvvynJPELrKlElGy0mB8wNB2c3AJ/b9NMu+mrAPex0cUOc+v4gMgOaV2CWBa25gWf9B";
+        sout << "8O6Kvu+Wxi/RffzmG4+Zpi38j8PeNzndEVmlF376jBvppjQw7xsbgLmCpNceVMQgn1oY2idlctkJ";
+        sout << "LWs/PwAq4HAZYbqdFpGGLgDFkCHfqklR3bS99kQh2+rCh/xDk2ub1Ylm59I5nUsn+izGKHf3ymnI";
+        sout << "vVuJ7p4qgMOva2Knw0AkwfLlyDzfIoV+/B1pf+8gkarcVOVzaEpbLdYjpg3/wQqLUIHwfzRWgCZ7";
+        sout << "+f+gU0DnnjCX+e8mvjGq8+n/S8UXplUtyQOZeHq7cEggm2ctIKKX41CSLLsI+ck9jJ9ZiYftYGFt";
+        sout << "z6zO9vTJI60UoU00Lc+80lmAvliDgDO/N19Rd6r5P+IkyOw3ZFbXN9RKtHcZ4I0sjAMULMdr8crb";
+        sout << "zXk4cL0Sygykupa0SHl35XsHxyhNOCiYKpwGCIdTKHO458gA+fZLEXttn1IT8T2C1ud2Bj2/olnH";
+        sout << "eXPzWt8bvf3R1AFUhv5Be/WFcWgjnwF8GasYerrnfNXhLT/YMC5U2wBau9UR/HF9CSr5GoUTPzek";
+        sout << "rMXd+CVDciO7gJ8fqMQuA9YUlWwjpfFUZ9nzV1scTrhqLXjTdwOeXfNBcg/DxKvcdVdiVg2vJroT";
+        sout << "QbWRhDNYWUH7Hu9p2bapjx8CgFi8CFk5PEqr7kvuIvmNvuj+Wxc3KROBmRw+Lr/v99Y5rg/ne7Vm";
+        sout << "GRpPwExR85yHZ9vkgDctTv5Hwu5lEtwyET8y1H7Pb3Z4qMv707+TGtNqTUJ223bhPDb6QKq8cO9l";
+        sout << "DkFfzXKtS9RXyIMj0ZEzJdTd5BHDBYuBsMnl2ABDzRfRMLQamkfyAjSluRdxZZpcPbmBDPdvm7Vz";
+        sout << "Zl5uRHIY+UxrQjXg111vFStE3mtcmbHl6lfT1JfHpI9CGRzJRebHD6SNttdY7UllaGpKGZDlIMvM";
+        sout << "QR7rFUOXyr3xKLvzbjeliVgkPmF+DsdFIKEY8cA/R92lhdsWlr/SJk+/IvvGLuIPQiBvlH4zIWoJ";
+        sout << "qTAF+c0AX+qyQkbZoOO9tECnf2SXBp7alcnCkpdmqikG0d/Fynra0UQdOGCSqbcsdyDfccTSMdtc";
+        sout << "wOrhH4y28iBSE41YmSXGAPH6wUqFeLaMMg+Lh4jrizaRf3sgd7FLi5fGaFYiXQiREL1wL+uolnBj";
+        sout << "75gq+VFaCvMuqmozluQ/tR5DBnAFlahbhixs/jEAZOEEn5R5/IAmmwfYOQtEXY2UeT4Zrsjo4DWZ";
+        sout << "3oPnwzUGF9fxnq1RJXeTm7eMr3q6EbOo8wAWp6KAhkNVqXpCfIAHMm9XOs9EH6cLJqPLQCzT11oT";
+        sout << "2SLl9nuu02ehP6j6c5UKlV2dUlhHR1WRjpCfaHnm7apNtuWWyHemKZQlkkmNorMRGtAtvAOkH8HS";
+        sout << "SbxDspE19lnkl/yOzA2pm0jPWN7RVW1gKETIegOZy/XBChAA5oHA8mkNmO4/WXMzN8U53d9sDUNI";
+        sout << "8Qljh6GoXgiHgOFIFnvC3LipUgvCBhCWVunn8rSmZZ8Gg1bsFb/63ArO4Tv2B74Ia4z1YtCxZugd";
+        sout << "lgXwuozlaK3UDmOjtABJfpCpNDfmdjC6B97VyqF3D/Txyyw4LZMHvJFYFyt3WQ1h4TZfjYUxV+ZD";
+        sout << "n/xbyZi+MPoITqUrUPFfPwPpZAcFoUER9yT3Qh5vm33PLp2eHxrO0n+GUeyO6LiFbuZVhm4pqOoG";
+        sout << "5VG8qaCzWXiQj7WWhv4Ng0yz5U/cn5WT+DfXlhVlGRkRgKFHJ/c6rPvdFRx5/V61UAeEoPT9CoTk";
+        sout << "YWtGm/j5vJQp3+fsxzYSEg/5ehVu/zAt6giUbL6PX5NEuHIHLpzD2lY4WXTqJgqxGtWYW/6+760p";
+        sout << "N1VIWll3GG6aaehOZbB5cNPs6j8z+uuTuR3H2pMckZyd50R7dcj9cEkuFJIVjcPVjEXUMBM0c1Fq";
+        sout << "mAMEW+SAl6oGn54ZdtteN/ryvTdACcFgyoou9pi+iz5QO0/fibBAS6xBIjwiTSvwh/dy+xE58d3w";
+        sout << "45a0ZzgGAFpYS/T+ekpntEcUAZDAbXNrz56M4GrgYS2XQkdCcq0t6cMnFI63QndWlWe72TjF/G8j";
+        sout << "EPL1wCvmIS1lUCOvkY7XcqVFvVYurcsrAb5X7Tq4W0iJ5Q+3KbsAzFaT8gcaNMNDFWgzPVn6j1TD";
+        sout << "ZPvIoWiZE8DhtT7F6Tv2vNwEoy1SNPJ+66qoWAR8ylhxaVLy0q9FM8Zux2JxsDNsOs6Y5gRuuW2h";
+        sout << "TdVz6NgZ7ODiCteUtc3B1Tv3O6jGjEziG+bKl05Nghj6LgPoCav90Xms0Py9O4tuWBjyivbAGW5d";
+        sout << "cg6kRLfg3ziNOy4R8grrsJ3ERGBoYZVZ9U5Ws7m1e6hfrzN9gryVX3FNE4dJ2SzI4zguOWprY3p1";
+        sout << "aVBsLacZQOqke816D+tW7zjUTaUIRAA4LfQA80KDUko5xZJaI61Tnu1cwd2m/pIcpkENomF2hBqo";
+        sout << "IEYS2mz71v90AgUXNz/2+bcpCDyCpFcJxOtHO9pWix3V7/xMGKuHUTtEVr0ZsoMBTYyv6R+4GsNu";
+        sout << "thkwGqFupQ995IjSHjX+rLQkZuwMBNgktRCVrNYmGcBUysIS0w+EeCDwmFKgSSZg0PDgi/TyrZQB";
+        sout << "06qMl+LTnVqcSUCA1BKRD0uRJxUuoNo9QrN9hmk3K5WdtLV3q2i16bb9yJhuDqcit9CRatAg1doq";
+        sout << "KviTjuzdQqWuzIIwIFV2FAsIp/oT8UxKLV59/FnnBvnj1oLe1Heh28O76UfySBm8JycxvNXTUumO";
+        sout << "6zBz8M1CyvkqS7/AHMN4WVLZt2C50nsEs50RMJT2BnSdg+bAXCz9ZYTXg758mc7x+wy0m91P1/C2";
+        sout << "5zMUxw9409SQXc5pyH+1jYnvUJoP1e5EfkFQPyGWVjwBomiSPgt9u363Ga0Dn8ogx3ndi0AJhcao";
+        sout << "6dDCjsjsguyh4coO55Pu/yRNPYujpdkZUGDJun/n/H+hl3D1kLgL6R0dewL6gnu1IUf/ZQ+X5MvZ";
+        sout << "wKpqwyCDNL77jts2hLgVTFbGqEKj3WpYpOOPwi1hqbnfj4Gwbcjs/faQaraf/66D0jxV9jPeVXQI";
+        sout << "eOE+GoXVKNKLMgd7tBBpF3TOe0CjeMMBVTdVrg+z7zz8SudH5eZ7KgtQxAclsj3niI9oXH8qg3zY";
+        sout << "WXC9q48LExc1ac9AuN2vqQ5F/Nq9DchYecxhTHViTqkKtz9xzkDZAv3FwFajlhnJ4nrgja7+5N3u";
+        sout << "pt9Y+i1GroYPcg5BzVOy3Sp1aoDFyGz6P/LHB1tzfVGrlcl9l1KCVhGiR1fnBEYFE6NaswrP8DkE";
+        sout << "tLGZWDwJQKToAlQmzSM0QOQVGpkyN3odWTziHrP+R9IoRqTi0LGLhpV/1H/1yf6USuWYdPGBntTU";
+        sout << "fLwwHXUo20qbIqRwaEmFjmm0kNWfftQqa5yD8cvm/UIk7y5CnKM1eyymg1I/TUHSrYarUDDd0n7s";
+        sout << "LCoUY7AQ1isirGxS4QzmvyXP+99kXzTPH/Tc/Jc320NECPVZEPReLOCRXOFgcHt1ZL2K6Jw/Gx5r";
+        sout << "jNgrqififkUljGbLB3TkfK5vTlSOaD/lRUgyYcC2r9BPLuyTGHO9l7flsedrxXhDWKW1Woy5j4/Z";
+        sout << "VyibrDvu5VO5kEoa1NeU9lRTKfi1jcpW6WPdUdY9fbN19XIPPPqhEO2tHzpVikq+aqI8GTt7lwTl";
+        sout << "7O92ZyL/gi/dEa6YjI5DPs2o2VeBEa06KS8HWcGsxazpl2YAMIxII89ul2xi0QAwu6T/Pi8DSHn9";
+        sout << "o5iH37q1TTFfobas7zlp9Ol3BV/j965LYe46SfdJo6J6FQMWHUe7IXYBnupBXp+i43MUoUu4yrjN";
+        sout << "EWJmdoeyNae1SLYjwjzQ4O4raOOQ5dWDjRQccmEpTwlLk6GR6xRoznxY9azZCqSX/esHUfgQ/Vt5";
+        sout << "2XvAFWmvnoZU8QJf4z0NO7ZzkGwIjuQzWMl3vvB5gAmz6oJpaI7EocbvZmmKKFgtbDbKyysGHm2f";
+        sout << "CE/5kY/pJ96UKV0pnyX6PgutAYJYCc8WjE5wiK9Ym6784+e0hWL/ukj/P0CW/hgIoSwxjef9Booe";
+        sout << "U2jgjqQkTcFzAWeXlTH0RrIpgnE0VJJZOi+hSVinG8BxyJ88unIAGuWO8HWfSPp0k9d87izaXwai";
+        sout << "Mi9grjFx6GiBC3OTWTVpvXA9uOZXTL9vjR25P76QL2ydN3S6eADCKVx3D+rQIOGyxM2Gg0tfXo4U";
+        sout << "PFHk6kNgvVE3QqCtB541T1EYNwUlB0g31cRlnpcpGGvtv4Ppz/oXDC7NwHDKfJDBQVUlm/vgacNP";
+        sout << "IRjr4ffFINetbhyo2tqHpB6IaCUPB5kdEKHhrqu0KI5WGr1EM/7B8kkHI8VxvfexSwzRNIqpmJDK";
+        sout << "ddMxUtO4AA==";
+        return sout.str();
+    }
+    inline std::string get_blackhole_qa_pc_compressed()
+    {
+        std::ostringstream sout;
+        sout << "SF8y300lTrIBNs8mIAAxWHixona3MlqGOe6wN1n4tCfjmGSnICCv77sR76Gg4v7NbpimSDKvJZqg";
+        sout << "Z4XUeNudYt0O7VfvKOD0SVYjzuV0tep2aWr8EO472Vp5nMdCdbJPpar+Mzxg0o7zMndD2ys0cdf4";
+        sout << "WVVgQcZdifdxC6pWXVWIibQrEf63KUl1YjzkaOaukShL716r5QNGoAbUNxRlxR31uizc+nPu/ncJ";
+        sout << "+KW68qBzpprMTSL2gwOja3W5KVYb899dEEKlmweTR+03QotsFHCt4AMtdRRXkwGswWbS0GazjG84";
+        sout << "ekSAVHFxGEwKhW3Y0vYD4ADpKMEcucmzoAIbjDP3a+v98IGqCq2eYSqoKHPrHxK16l3PfYTk1zG2";
+        sout << "Vr9eI4JqQWMrp7t2Wrbdn/sfe0fAoYNson6bQ0jSTLXiXnG6KwUdb1t4x/emM9TQOwFmu6Tbirh7";
+        sout << "+ck6MnVKQq32IkNZdEofv4p7MJsjdiFQkf/0ipAnxGCkU6pv4tTcNBDhwhLv4EzLuM1dVIrWvgNm";
+        sout << "3xe4PS4UHb6JMmUGE9Er11UKTsyAULP8dK2HU8Muc/poYzXX/b6VB/X+JHVjlkaFNgBJOlUPieMh";
+        sout << "Ue55p3UNCc7sF3gG7DWTl++whcNrHnVU38T87Ostyu3UTJd9FCGujA/PWMcDlmDRQ2aavUiHzJEj";
+        sout << "9GQeTr53avlyWy+R64alA5lcouP/JhsSf0+yCl5P5Zl0+ocbppCasUgMHKJ0hoSihgWkG2CVooxd";
+        sout << "LfpZN4psPsgFT7j1F/w/2zr4Tw0W2r84hTBrWyCXPcVWQbhir8FXby0nu34anDL1EmedETAHXMSG";
+        sout << "pK//N+FDmh2mRg1VFUSzjK3UP/xZvjswzkx+1FEjEMFBeQ2jzz4iULcqPN/hhpv35uLGwx9CGgO8";
+        sout << "ZzT0sbr43vZLGaYtPv0p1xt3hS6YS9uh4AdFJc+/JWPXlS1mOPM0IvB+f0a3++19esi6CraoZkJi";
+        sout << "gJQqItVI37Ygw3gz/IuFlJZKUBHgQP3Tnjyt5Wm6cy7zfW8gucwy0S/p1iP9wGfvRKhEkk4Li1XP";
+        sout << "zznFfTk0wsRoUuvck74SbP3e7MpOHgcRf5iDfh81RU8IZy/LZCg5xNyaV+JgzigBUwTQP8LyrIOX";
+        sout << "hfus/ut3Lb7N3x5qipf2qbbkj8l9HZfA/OUOgPqjLEZmB8FFJ5sBAKTIfO0fOCzh6c6wUzRqVBhw";
+        sout << "sYkJorzHiGOY5gTnxfrFWMIT4sQEv1GTraUdIeyosUdmzfIwgJxxm15ZN+M69qlZsQDFg7ovsu9a";
+        sout << "2gH4utcRMnbFk/LqjvZNXFQg/DSAiwLtvVWgePB8wav0gerya3EwwBftncPWxFmxvYpE7FyyDIDx";
+        sout << "icbqBl4kIBa3YTJqFW23w6WXOgEIZeyVvc4zOlXgbLPRQcA+RJU7q4yeb+vB3U+izvNsb/oa9/DL";
+        sout << "5etwREolnFOhHygiqne8Rv4Mh0yH62KrBMbEm7fG3CZpo2xcv3XXJ8Si/lk8V2iu9ydzDHeqzU0a";
+        sout << "pBnqES7rNXAcZPgcwoVko1As2MeYtCtJmxI4DMmux7jNvqwNPWjEx9JLA5Y2WAB5QtzJREMyc29w";
+        sout << "UP+r3kmyUurXZA4uBYGytrgZsqly2LIdppt1S8WkNG7NgGbrD/9sxMLRtsKDV6yvbESvuCWeM2tn";
+        sout << "6u0gSWk0u/PBvfAAwCD8P9TtuKWe6ASlPQagwt6gFKVCMghOIVADR4BcTmvKwhkTpkyl4NxGAiIn";
+        sout << "W1+uxVqKW9YoFfwkL4Xg3rcV3G4D0+NYvDjPsclqmAdmZgRhL9A6NC43bEbWnmT0gxK4Z7/CXGSl";
+        sout << "xmPSw56k9de6MQTZtDgHHSlqKaltAn2ygFl4UlugpuqFhAKnnZdESHpiZm2YEETLs8ziA551TR7z";
+        sout << "xJApwO9sfbvfLAbI3kW6ihM3YOwWOjiYbTymO8XbnExKCxal8S3A6Y9FupZ1s480kOEJqm2+Nxuc";
+        sout << "0C5kbLOKBVJyPKQbGRPo7Qi+paonvSNiePWLvwGUIBAojo008WdSbOme/aXPFww0p/VVsmsVhIwo";
+        sout << "py02OEkOAt4A0dAXuJDNdsHVKLn0SSFRi0GfNzifAUFdpDa+bgz95pQt+uaZEsiGTPYgDN8pmQ9N";
+        sout << "ZMFjmrdgkNly3P4RwKE7CvGN1lYAyhy6wqEEGadUKYRjwJe6xiHkYfRRqutuXT3tJoX9FTsGFvTZ";
+        sout << "jc6vFxrfrc65H6lI3mCgayejll7DCCcnUYXL9FHYxVyOuoA/GK4Nx4oMcKwIfcMZNVE81nIH9Z98";
+        sout << "vV9GXFeyJVo4M+bgFZUeOhBhOp4Gqbo2rCFv1ECyV33wlwZMFEJcMP5U3fmiaKXKxUgPEwANDg4y";
+        sout << "snInRlnQLq0Hte4FloegQr+3/i2f5CiGwJY5XXTfKQnmAF94y0r5H2pZBB+GeLTOQ0yo8z/IzPfi";
+        sout << "wKL2Ul8aRquBOusLTZRTJCuWD9VioF0SDGy/3QGjf/iiPll9YolK4oUtDsu6EI7WPawtwzi5GhtI";
+        sout << "7/raf1kgEKYxWSRwZm8dillmQvnqYIslGEAfEN18Bh7q87xva3bWyPF7EVThkbpMyRoIxtsFoi6T";
+        sout << "ULnEojSxK7SBodXUiAyQS08TR8Y52JbdsC5i3FzhvILIA9avLN+e6R+df3cCrxXLiwdLh4X0e+cQ";
+        sout << "tWZiZmzDBCUWF76ai7v3t1SWvgizkOhuI0crmav0wrKLey3hJK3WWVDrAc4Z5f3o1MFM9OYXKcDJ";
+        sout << "aKQ4fGlkJ5pl7ssmo7T7UUqhTssgIGqy7xVSJoRMWQ7V/zr2YDw79wwc8KwXRDT1iQlOJ7MmxrHt";
+        sout << "3Mb6uuDUhlX7M0H2KvhOXT5+OGpAYtYevuYMvyhYb9VNpFPozh9x+oivyR5dPnAxdXxa7xMOM6V/";
+        sout << "TlD545KR89e5DZtWcwCpDJgRUEHaDB0P1tCPzH7l77q9cO32DNCaTeHkaPwLFjS3VWaNnB97SRBP";
+        sout << "10Hti8TYREZUstxsiWbEPppBJD3sKkkr2TpoU7apLL0yd3Elm7VhI10QNBXy3VoiNWcd7Vn2YFbV";
+        sout << "49t2d14jZJzdwcaymOQ7KbMmrT/xa0azz4mhvD/wSXPfYwkocetIUYbCuMtnaS7lBlhWG0YLyDSn";
+        sout << "ACn1RL/lMrrYdwOVJ49y5RXnwomCcTGZTc4/CzTAF1FYphoFkDMtSMl4pUQN5VJqRX1sfeSlgifJ";
+        sout << "AD7yYa+f9/Qc+wqYn8Tm8w/VIKJ/L4W1vOJsvUSDz91owE/N1pTk7swl9QYWHP6N5/OkvC5EukxW";
+        sout << "E5p3I8fu+m9PWy+vlhbCGDSTr3tSEUP2S8dBJXIu61ZjypOCvo8OTE6dRc1CV9dn9JhmXmTGGtFU";
+        sout << "qq0Kn66wCEBIimz7hAVnfbTEmXPnYn4qasHgXd4ZPWD47hTw6N0Ub4VCtoXpsDII5D3N4USI1iGy";
+        sout << "eGVoJbJg8MicTGUQvFdHLBP/5K+Y+pCsnXWSQ2AiqHfPvGCUVk7o3MRnTsL6xNnnXcmioalesINr";
+        sout << "xw267OWuX2LYDxCSBzh6dkHSpQ6oqJ0g0WD79BhMcJ2s0AdX8I6hMjVQZfQGs82aTUekj4oSzxE8";
+        sout << "Oz63bGkifTsIF7l8gwEY7qb/4C8sPlw3ZN7e0QKgJyFm/LDJ8sjW4Dp2fnh7dD46zdZ0sZJnIy4M";
+        sout << "bku9PI49j9R9AFrwLMYXP/bC9sDWDt9QXbFAyWRds/6tAaXaBbrlcLosKUguklj1VbxJyvWMk7Y2";
+        sout << "/zeg3xHuNKmmLJa6FAFtLdLEqoMfpe4AZfslF3jRPIBLgk41I0t7nfxbrtjD3ZHGtoe8Vh6guGgP";
+        sout << "LBy4jzORb+Rp/l1167kIfiyIzwStLlz430bPyj14/S+cn4fcj+m5HntqemWaFZwwRjDrCo+Ok21s";
+        sout << "t6fylKyXAAp5X1QQ3AOa9FQuZtCQPEKyzG4aD1XHDUPT+EtmNYY/znpKw38O6z9s7Gmw7rTYkWa3";
+        sout << "gyTKIs7KpOdTJub4CMJ1HgD/6MZ0c65MqzSDAQYSEu2w52gb12aFxwkyMxlBgyPpwmj6hXROsQp4";
+        sout << "SQkf1Z7qHe6Ti2jk2AoDxNGj4F//qWtRrjrwgG22ClzCmiFSMfbfMh0tSxvyqwBOcnZgYMOHgQI/";
+        sout << "BLzDWd80hHSOMbFp4uCwneGxqBg/NkWc+5ALgcSyVTwmWQASeMxtIXZqheST/uvCBFZfRiGGmRlm";
+        sout << "aDcEoDvae2H77m3bNJBqSDkhEoabGkgBfXQNIoZaTAAYI7LLei8DEbAitoKFWEOWYKd9KRFmKvA+";
+        sout << "gatv4tUgHOag3S0zLpQ9kTWeKYI04FxldboVrYfHMWveAJDRPfpKSRd8+h7qRhWvRMX3o1XqDmNU";
+        sout << "T01kP0CUXi1wvuEWqzETGn1A2iXSdOaDkqT3kX78+UuXDZp+vF7bE0hKolKWW6SKk1MdzNMpxIRs";
+        sout << "nNA1YIEaOIYtgxMu68fA8oa1cOxT88cBunrb589y0g2r+Xf474nU48wigUEtRpPVy8h8g/3d382w";
+        sout << "NOGurAyoqjTfO6tPaCnbgYwCc+YP4Xr6z+jRGuGf4Zkka10DRAyMgcj+4d1mck8upRghqKxUS5ws";
+        sout << "GotDN3cEp/6SWVMP/vlk2RLXtmgfrdPwRYbwKa6fTJaxwAZFzlsH4YXQ4lfaj1/NOlDsvgEevcfH";
+        sout << "tEFRPTcH36z+Wpgz0XMifGwa+n9Bih6XfihIVQgAlCeL0zZQSzLd05pq6jEB2sAgnqdvm3o8fEcA";
+        sout << "WoAG0QkoGn5RWVXUqidqTdf4mz9IEDpPlVn6lpJXlzonGWRLq8xEWLnrezAWtBoYw8T2WyjlIVEK";
+        sout << "hbnIsgQUPGpKg90zYOqeWjNsu7jImywsJheSnTW+Ohdjeqk8Xy7rMkV1UUV3nGPW3s50aQNKQ5Ep";
+        sout << "wq/Gw6dq8K/AsfKrs3XuqjR6/PcRH/PQ04+R/LokFH5WYS9yG+N5PXtX/87O4sZC7FEgmIla5E2s";
+        sout << "G22R+60/d7Ilca0ICIFTyBAgMD9t0fMpSGDQJgAo4Fl6Qf14lqBLbKxM+7Nfjb+HLguAKHgGCd65";
+        sout << "vPIXAraMFGzrAKc3Yj+mqPmFO8Lfo6H2oL+ysw/hAHx1PXlXK/KWzQmKDgWBefF8Jmw/zkS8PN+e";
+        sout << "tZyHTR2xOip2KgZQ4SSfPjS2KVYKPiX7FRlP7uzhOuv5fAOUlThLooGgLDvyFTtsZFDfRBESJYZ3";
+        sout << "2XdiPP+J/sL9irN4d0K3f9DLYbKM+s36UElUOaMG8+38sHLjIEf0VPtS0oHnLEmqqee9qYqK0WKN";
+        sout << "fw2sHP8F7zNLUHjX6M+ENm0INq2z7HCZHj3z+Rj8fS+VzDFzb3gqvTSfkgFNxvEDzm+bJnpaueU7";
+        sout << "k094DEZFWJioiW0ZPIf/xec0yfpXFFYZo6UTqMWV8kcdEcCcOJw00HZUEyUk3EpI2cFHCzLa7jCR";
+        sout << "Fio43tQ4tPNlo7o7UEpDgzVcb/Qz0aLhoVuRd2jbNjKUOVwBMzQlSYcbs0Q9Ki6+bYVEDMMCMXa7";
+        sout << "MdPaom0bfKAq01FlZ2nYfpeCUOTfsRQNN82kzMOIzK9ZFrqrbNkwy5jXOWWrfTQC6IAzQKzHV3LW";
+        sout << "+IL81YXjDs1HgqvTaUz2svy+sCW4Xe1G4/GSHnhdFWYtTaJFLXwN3iGE55TbAAqjo4YNetu4W+dN";
+        sout << "8by4bPxIVK2NACvmvxVU5Fxe2CvAvk9I/mO5haOrH027PX2mCkSI2x+NAB5PV/3XfmrCYcBcvHwu";
+        sout << "QqxfpbrHH4hUocJvCed9Ed18k+egLcVE/gK3vstngVat1RB9R3CY8eBWRIWBhKMvfb92xC74vkcj";
+        sout << "9IgxgiM9yvh0ASbQOH7cGPMoq6gz9MHto6/Of5X1WWJx2q98suh/m0V0bO9NJvHZB/EMArs9u8he";
+        sout << "wjRA5Rb+zPpt/Jzpxp1Gha+PJUpGvC7NGr0YtgAsj01BLP4zddWg/ETVpjIzYjn21YzrzIcWPlGj";
+        sout << "IeCbI2BCyWaG8S7RbL8N/TWBO3w2zWOrlgpUKmVVAc6jjAX8tMjx2yczPbCJnsRys+qp5bCCjQpc";
+        sout << "gsuZ4JdjRmsLY5ZApnUcv81+em7Xg6WV+9GlZ8kn/ueF5PZJkSxSBeEmea99/Jt80qn1EDd3ARO6";
+        sout << "7QnwxrH27cZ64OEqnCCZMWlvFSir+xFh88btShwzwYajeKol50vjnx76wlKhE/PxBRvh5/GU27gm";
+        sout << "UiweL97nHIzB7uX/OhJm8ublp6mEsbQLtANtvkHxcaQtilyVCyJMEsHftQXvxUC+RNL5ZFS+xuX/";
+        sout << "vzc2W0JI2HVMBoXQLH0S1ypjJTRSRvRINxm+vYCuJkzlRnNuDp17xFADV8MkaHTeMmr9k5cCneOV";
+        sout << "/BqGDlzCuteIwq8i9sqIOxWqtVARGa/LEM/AbqxFCKfxtkGnIhXh9nmSpzEI7O4/yE3bbGD9GUS1";
+        sout << "GoMW0jGsPAUD9fv2KHphFoJNJ78D7hLGQt7PuLtUC+DC4vi6INetfhLBNZs3EtallhPwImzmnFFt";
+        sout << "pe3vyCuq+VgxuFHexApw2iBuE31YV9mH8orpULFyAyn3tklEySa8hufNbR8wlQ7tNwFmjXiGuYhN";
+        sout << "mVtIC+K+ak0fW+y+DcEb8PBsvATb3y2XZNje7BzqmuAzAb+sfnaUYZkLnIptsRluQcR66QtCdrP6";
+        sout << "zFE31twrTMzNxn/3pklniwCLEclfap2Ivo30k+yWGCOf66L+eZvPLRBqbC3wsFaZtlsRY8A9jcsw";
+        sout << "w+HrdKo9xq5UeYV2bomfZGxA2n1WFFTGWrXLhRs5lxTd5Z+7rJL8sKffI10ktL4ZDOQDahMpy6tZ";
+        sout << "qF6lcxqioAi4ypbgFODjk7XNprW2nwpG2tgtFqqYUMcc8aKwmySpg742kVwau46bvaoJNwMrrKdj";
+        sout << "f94x+9Wp4TvTIJBoACzqj9bU41EJX5JvK0a2Ak58d5/7thq1gx4n/EgufTAbY7zDmU5Q255gisfI";
+        sout << "idt/Y3MLVykpGPfKBMxviWUxwScymWZjWmHeowbKFEtl4egHUld2jjS5kL9hb7b4PpludHEOhZAb";
+        sout << "iN/Rthcz2MdGFujylGOH896kWi9aAGnCTfBqPlHcQhqv8l7tXsohgD4mZHsEivC82aFG8Di42bDf";
+        sout << "omy0XJUUeVNqI5/tqsu3LPv/VKZ3hYKe7SPReMeqsjKoEFByBKw6FxtMDKW1eLKGl/uu54/JRcqh";
+        sout << "nZgWenfgSlAeNnlnVZD2qkO9v5+D08VC9HQJ4Tsd7uhgst0PhipXd5LOIEvbxCKG76frdSuC4LIv";
+        sout << "wZqPT62uIn5sVG8cII883Eej9E0sH9vrF3zdbu6rS04lbSbjAfzFo8G75FWllDZeHRf5Bs2+87Dr";
+        sout << "kw1vc3EzsHIjgDV7Sm4MImYKnsvJpinEOEqvGhJtEDtXQ2MoUI3K9mw8cvcw/6viGNcICbjvk9uQ";
+        sout << "9p8MfxRwLOt0DXgIMnQzyvPpWeSo8F2ducy8d6TC0RzDIS9i9TZGY27kg4jbMrHRyuUCwGAy9IHT";
+        sout << "CSyAIMKFmbcSvQstpLMsQMUz4uXeo8jzl+WTIYnm7MNoa6n+VeqIQJJ6x6+I+TC17T2xYNPHewn/";
+        sout << "k8MLAi2DMAA6Wrc6vnZQGe74u7kEi9q5+F/8ytziBJnGRwweaoHB8Jl1roWhtbcGxnPld/co9tPg";
+        sout << "ZoBPqKVqcdOsINt5oGfcYkQiXmWP//9NFBR7+Dl7jeVAXaRaP4QGf5LtQOTRiG6wQ/xhTHbQQKs0";
+        sout << "UGyX8ieBbImswl0ypnIDxy38rp2qSyJo5l7kMN3YB5u7vT7QoHoT28IGoCgwwr2LL885GmYfZWpa";
+        sout << "M9Jb/UPe1/z73EuD2IzH8hFULm6krbTWjzByZ1mt/+YPU0bSv6CljdJnYzAeLG5DLpH9YyRAHNpK";
+        sout << "+GELc3kkAtDHNge9hDzdxTth5QovrMyw4VPptAO2WvvoqVTzWVSqGn3vOG9kfaLp5WT8sc84fLRF";
+        sout << "eqN+2ZgR5xWfCeOMD1JzfC6c3mk+J9kwQ8qvaDRFzkyoSbyrQRrKBra2G/sbxVTthQUIeuzDgN/w";
+        sout << "pYRZdBOR7BY8O8eKpbvy+eymmbd9S9TzUUvL1WWyv7WJOmjgtTJkbwx+dE/SvLCAVlXW7F/dKoQa";
+        sout << "6WRQ+Sthv5noXdSzeZlPXCURiNCTgGuHXZSv15uN2VxVcvyrxwejB+XRezSOytqAWaMSP5K9sgM/";
+        sout << "DYyORRbhYgnXHcwbBBlMTAZnxOFiluV2si6UtsQswRvMKUyDYhxir1BnEwdqdAWdxc+kvb0hXQ6e";
+        sout << "G2eR2hNNFRjVnlE+IvjHaYyP5n26kKBva6IQnHeSBfMiato1IF2sOxi9AMc8qj/dg9RhdhCaASBB";
+        sout << "RIMCY+O6BsPMg2qVOdYcrbq6j1Evd4iFHozzkg/BinhlED1iEZehoq7mMksi4QArLGQl2xWTlqqT";
+        sout << "F+X5rvbs566No7CMWQasUoDj2Yj8K5LfrMa77HT6c976vMLuCx2QSBFWHMBWDGPID2zvJ7tyH/t5";
+        sout << "nrCFsT5AOSwrDSlLzXqQhfzm1UVA2EE5nHFrmiTSJ4lZDKgfLnAhWgAynW8ParUNtBRSQLwNOdPF";
+        sout << "C8twooWTNlAe7w/pzU8992hOmgfj4egyUDpDeWgwefQAuYHLYRxlmQrm4dbhR4p0IOG6C9m595LI";
+        sout << "rnkdvnEDXXlP5uUApw+kebV9LQLxeOWZNAnvUAcoCB83Y5dL4RHk9x3y93tQw0bdCRU6HiUYyubG";
+        sout << "pLiOZSFbDEulvehr3BM+mbWyUd4F58tx0iLJXA3/eW8UmmEUD1PrGA4VUJefisr2A2vzAK1vvwBd";
+        sout << "QxJH/xcDqNIKcAelMyUb7j8lLhtrz8ST/8hhhLeoopAyBB9B9MRISGVLhmG+TBGuOgbYGaDMnqqq";
+        sout << "XUClEQleGSLa174jsrRvDGI12doM5SfUAgBdMDvt8R/9bT4Qlz6yl9XL8/qcsuty20lAJs15Nico";
+        sout << "PxUkT/iwU1+F+40z8izf4l2H+UTsdBLMbEwX0udpwbiWfYDFKWewozUGlrv07oJapxEO/jphtgxY";
+        sout << "lKObyLNaCLT0+NtcHvCUUzm0Y438GCVagYoF+uIgpu+KBptW9vC6rGxM/YjAsyD5zbe5g8eiIaGJ";
+        sout << "Vj1IoSLxKy9y6FQkZQrAjRigBNSsM0RJWuEe1zXMW6RV7ijFcEdxQABaAQT7y0aY8b4uORpuU4mF";
+        sout << "E8Zt8XzjYRJV5yPDnXDQCS/eaQZZlm2Pkp0v9L6HIaD6hEpnwWiODw33SwFyVJYosR5+L2H5FQXy";
+        sout << "xiQ6HtUXcr0IXAVsLF3fcoML40E8h7IKdZut5JLFtEQRRbnnagOwV1uKVQyo1oNsnCQGNC1XF/Hs";
+        sout << "lBaR2rYpk4I47tGueh4oVZlBgt3Vx4DmXjRHrEcjl3sxFEdFZP1PzM+odmo7O+hHiFMV2TgnPAKi";
+        sout << "lZeEk2UZEi22mhGMlMnv96imAeZ93tSIC7UJ9HNsEvbSA2TaKwqjsRmwC15h/e98moTHuu2rG7FW";
+        sout << "eM5jeL0/zAY9gcw0vK/lLiYkiIdKwkLQbqNWX6Rb25op8j4g2MLov4AZ5DwhHMq3QaafmKTOschU";
+        sout << "ZQ7bhv1zJW9YTtQ7rUkmbrAM6aTepOTnXAPYC3RtJ2/Oh+QZrwhUHiePVGTXGPEHNpoQ5Ze5NHeK";
+        sout << "VQf5gGwFl8jWsrZcz2vBXOUMNX1mW320wXV5Sis6avgqQ4/lAkqIi1z8X6QCBPw2qWKsV3cKjRfn";
+        sout << "nIVyAsmXNPB09ZdS8MYcj4npJyI9QWIR1kIjmw5AGodMNMSD/xYt9NNx/Z5Z13/+oC2htld8edgN";
+        sout << "TeNSlYRDIpD9UMcEOhnOWVT0qwpfh5f9l89ABDtriXcRrCThLsoUlH9z958azZKE/I4Q0jhvY5XK";
+        sout << "GmzZ3FwGwcmjZFIav7KmGhV3Dl+9ZpmydZJ0t/rWvFgYMQey01FitikDf2g7D9oGrK96o0kI1ydu";
+        sout << "wNtsaPW+BpkowXnhXmoUDRVEtHclyyMlwsP83RM/eB1LISlmL+mh7LHUZklZvmlixcobwv6qPCFx";
+        sout << "+/b6YfpTit2ocTWsWnzKwy+7LdkFXCXIervGb/Uhu9P6KnTnSNPAYOSHfh3+TpytgT/0r/Kk8zxx";
+        sout << "aYYaYCkQ4VlVZir1WTugo69dekiGrim84C8ibroNSyUgJp8ZHQuKTJX/LgHlYp7UDXB1n6RbRn8p";
+        sout << "2DztlWzfmy1CjYTSm4auJ+x1Ik/j4Tr/4tmeJQitlIV42f+5b4Ch5c3vjVzoRyD2SxggQ4lJWzBO";
+        sout << "m66qqFtSDLOAQ8IVkdwbwgzvdl+/kyHVMAjNIj+ZT3n3+vaTRhTBZz39QD1ovNQ+tUXzrrb7Fbw7";
+        sout << "qwmce2c2a/LHOAEuyrZfAiHNDSljHNtmrEK7BDO1LPtp64PmYkG3AC5biGYYMNkanIEIGQYCiJ78";
+        sout << "O4t+8AOr52C1GgoK0A3tv/eZFfvFTLdxuIGENOsUwXhdxtHVPeSV6NsyH1oJ5fMr6qNgu6y8PXNc";
+        sout << "KOpD8C61dCvJOI8PystCoCR72ee/RF9Nz4f7KWYCV96ByUxZA7i+nX8XueRL6LRdcloLCpIE36AF";
+        sout << "YXVBs99r7dXOA5l1r03m26CD6EUcDmn6jfA1or+ci3BSGNqTPOuu4Ds5kIFEYJF3BiQVGWHkebWv";
+        sout << "sMtCT8eNS4Bcm9x9u/AuHaaaO7wDwl1Gs15zbMWcMwo7gCB1xLd/jBVJg8ACdD1cYcscCrONkgVY";
+        sout << "UKhuVAXrXJEY34MND5zdzY9tew+yKrNNv2RJHA/zhV8z1pkW4wcZWFW/iKPFJkAwB+wB64VOcugd";
+        sout << "j1RXF8Ighfsbd6b4RRFrNo0pg+GnqgONn0oKy6n7E3JUgjcAQyDHkv/hDoOmoKzFV+rbnYOZi8wE";
+        sout << "iuwijzchWo4Msz73xMuBr2F+i+wzdYVALF1hp8/DG586VDUMAEHBVBXmQ7nH66WVt9wtFC5Xyx4y";
+        sout << "QmXgDA6NqVapUNT+gWqAo3IBLGcfxiT1UpuHPbBZwB5q2MEuTm+Nxnw+rgM4Ay6kb4sS13pD4h/e";
+        sout << "FoY5npzSkd3wdWKL5MRV1EfWPuROFNegngUYUnEhlzvx0Pkivu0+AsrincQaX3Q1uDnKjPaX1BkF";
+        sout << "flfoccpDUFK7yBQV04q13mFNxj7daDT53+6NPGEDnlhYIdeZcD81YRC8Ma/tMP2QIqtzSZIp66Ka";
+        sout << "1nveSaSFApF3YaVhKUjKPXeJT4bPpwO11s2W9MPvICjCGFldxzQb/O0xcTtZOJW/8U6lWz3UiZXD";
+        sout << "LBHQ3PVEtwqxNip8F0P7JB1bWadxYYnLDDOsAVvXo6LFX5e2xlCrG1POU1LixKupdVeAF7UuAY+j";
+        sout << "VTaMc44TGHnOKqPfqaG8vd4aySFanB4xWofI1mCE2G9bqjps/Yp+7Fazv/0LcS2l/hkNanRMd0/o";
+        sout << "4CZSjRyLy0DNJiux0M2SJ7FTZAuGE6OaZXGsNBzWgcPqnZ/ivS0jKlMt1153dpw+5nNhi8/xmkVF";
+        sout << "gxQIKbx3Qp9uhT2ZFkVbvmtwVTK557LYtss95TBkEBvaaEeWt9VzO83dEHNawKPYCMHgzVGLCN3e";
+        sout << "7ULQxY0K6Sp5qk5O1LFB9qlnWXgURPc+Fy9H1gTsSVmwjKM+1Z7oq6vZZc66qO01J5trKfp1uAQ6";
+        sout << "zJG6GKmQnv3eqiN/ZUXfGg/ghfz+zaxU/b6gXKQVmC5vXMfEH2mFlyOCkD/j4sq/ngkUYNc+m/7Q";
+        sout << "cbr6mdop2NEVsDJbYlA8wPze4/GoRaI9QyzqYUEAqjRnRzpieLRuov52dF4+hxoHqOIDM2yI6N/t";
+        sout << "cuf9ujycElcgGstL3lhDUgM7IJrlu8cN9XW04j4gs/U14M253TiIZ/aGLJtXOz5VNIidbRSAL+lP";
+        sout << "XcSAgYBh5UYJ7LlDHckclP4NvvIcTKFn/w7/v3n2/SwR5pEUa7QSG/qOZ2VUjj4x3HTnnnjbVCxM";
+        sout << "pmJnImX+MaJfmKkJVLlVUqGsYdfUpjUwXMhnDDi+KjniexMhoXREFs6b1k98NoBzh3+a9BQ0039f";
+        sout << "pmbFeKymHupB/liyWiRCD3v37ej78/ts3GtcAVYHXolPQvWGJe0RIu7MlWFK5IAN+nTE44lE+saK";
+        sout << "aVnr0NWxkYxw7DIhODgP2uqe1R49N/0GtA04kDnQXgDALQc9+QnZRtVTKBRXd9xuV8CasgmIqXvT";
+        sout << "LefnlFJAq/NSD5HJ2LCETfYSCpRqDhTreYIwW2/T0kClrB+OBnWGHDyaBhCaJhhXVwAu6FZxLulE";
+        sout << "QXMc9mQ/YxHmr3zbXqJ6i6nfFI807ikpWl5QeBwgxx4KvPQpyGvES5/fyEs9O2/PQA33LXXmPa8d";
+        sout << "tJQpQ1snDa09cbbWGjAfTmnFEbdZ56zWcc+aqG0OhRwf+mxuKqTpWu2EXFmNboAh5yavDmnvsgyE";
+        sout << "RVQxRKhPaQZZ7/JmHQbWIXy+00nUd5Zqgava0M4cbXdsF2r44+9DsWYgRfxj3u76oKqwnJd4unOI";
+        sout << "zwTSJDwzIJUdMYSEatWkUV1ZWmHasoHTBBZeOgW/YY3P2n3S4of01ctEBONq6H1xjSfV3+mUYq5g";
+        sout << "d/y+gsT0yvYvqRSnOHx2M5dBDWiMundh4n+/Xyzo3dNfp34jYnxdDn0zRxg+OkqYK1+l05AKX6HR";
+        sout << "sk7nvUNH0Zuq4w+UfQp2XopYLWVa+BV5/Qm0I1fR+YXc9FE0JHG5pV72h000n1ShPBkm425d3Phg";
+        sout << "Mwr4BU6eWzu/sxa4hxv6bO2jPQ7Fy4wY6A77pJX1880S9XyvlGmgI9Tl69OUqCE2xZOw2jdz6WcE";
+        sout << "9ttpkay8cktBmhZf1AGfdMEQA32EpK2GYHp96oTHpngieIcLt32CsCoJRUNxbzk+EWbLVEKJADmA";
+        sout << "90XtiKaGBbgPpDezzYBVkj00ha7G+by4UpLVnGJ2a0+5B6+CoxafeQIMXbaUBZpQzLUqPv+LTI9T";
+        sout << "kX3co0mb4Y9bl/9AGRZ+Bi2C1THYqVogayFEddR2AS5dOX0I7C/XJiO0pvPYZGSbAEr+ONq0FLer";
+        sout << "CM2wwvk2BXPuJK9iY6PZYwsmslpayn4+nm28zt5WMww9ZEYgWQf1iHS17aEwOSTukYYT8gZkbSoA";
+        sout << "kqMWWeG3GlXiw347fyca1fezHSEQewzQQMPZhfaUZM0zUxXOaHJncWtuLta3zvqeNil0Ug9f1Vv0";
+        sout << "op19HAucFXMfPhVEJvQMuJsPGTBsimvJvRFpAGMwnpkke5andXFRjmONELmKjdR+sdGA4mY+z04R";
+        sout << "YTYSJuwvNlaFrZ2ksXhwJ2fLKbW6Bm7olAaQJyUH0UlW4pn+Z7WF52DU6Yuz3/MEqNaF7A5yc6Vl";
+        sout << "hgjDWJr3/+KqR+/N9Zj2HJc/0CRnBxXpMjSP9lqS9Gej8J9TdGNmgRIDypOv9tQhmZ8Bu0odSrqP";
+        sout << "1efptbqz8WtaKn1Ma3LfNnpWDgbJzyNw0dtgPAZPy3Qurb+WOHiDcMNMbQb+/+foFfWLBYqOZCE/";
+        sout << "QrukeZG3TmOZKjpmsjK93bJTE6XZ0aSHDMAW0Q7Zvjl0JH0ci/7KwFJSupD1YUEbcaazcDM7z2Ws";
+        sout << "JXWJcRNyPJXn/kc2s719ymtmNN6FxWV5u2ZA3SlHEqctEr1WWLGfnsQtWsDO33tpHLRhTyjt9VQF";
+        sout << "fOBvem0DxP10O07v00H2ON5BgY21vijM5tYkYIlqs1zABUkgUhlc30xvWFBpD5B++vz6WA9+vR2N";
+        sout << "c7H+IRAPHpl9yvbRWFsoen0rQ/oaFCL6ZsiAxGPmkf0q2xbyg2dQx5Ip8RrzX8Sf+E5RwvcRD4Ic";
+        sout << "uXCqTO+5ilSbw10biq0V+p8Vfsq6mnjEcDChS23azSaeFgwq9bSkKtgOYb6+gIRQdiwA+MsSpmow";
+        sout << "P6vtj0cMuZtdo1PB5i8Ubq/myfuz+vAQEnFEH8DUWn1quBCTBJ1eThEzslablG8H5Afx46CFpP1E";
+        sout << "vKr6ROaM90IU423k1jmDRKCUn3vUaqxdqjZFE2v+0cV9nsRaGH9XV1mVL66DBwhKmJKy7zAnKOw6";
+        sout << "2D9qM1KHLhJwKLqODaQfMgZClidWe+YcVqWHjwsPX1EBHhXKilSmvINKxv0XrpeHqSBIBLjITcdl";
+        sout << "f/te7PGFkHSx56W8FC9PwMuMFScuAzn6cw9BcSvUqd8F+rJ8sliF4xrPpYfMZrYIswNfHg12XBwD";
+        sout << "lY6CqKAMLbDaryCpDgDxEM6y3jtqhj/3Bc9NouJaXwUlYtBqMsfSpdYcwNiePEQGdToQbiFyYuqN";
+        sout << "Fl5k6Mhf1WBBHOLpQ0LsM1Y6Dco7uO1uclIcRiBy/62EH0PQAE5zA5p9GCdf9SBybLR29RCbHNui";
+        sout << "BskcnFFhHfnO6c8ymYcGakXNO2Zx+0NMyoDDcXyCLIRkD16Vt8XcWJj0/JRWdgyMbBtTfjVmB/eK";
+        sout << "Elwo3XT+PyHE1gdHEgZdMPO1+6EJIyM1u9WK8MCd1+P4ZFYVrbuZxq03y5GI4oxAaUsgw4OSr/kO";
+        sout << "28vnKL0DI3sfZaoSoJGTp4S5wint3rkvffv5mI75T8wV+yollAHAdA/1Ls1JhydDACPAVUGk169c";
+        sout << "pj5byLLykC4KZslFr1ZE84eZQ/8HwgfM5Xyv/z8JCuBM3zRxpqsbysY4IObK5vDRCq4UwYzScPeA";
+        sout << "IBZYpU0GI+8KsvgOMzTnsdBplC7g9VlyDU2hOTDjwnH30tM2//+TxEFdePOK7Ju5re3GIbiMFlJ7";
+        sout << "ltaBQ+WilYIo5L+0yYdqi6O/IEDGMeo6c+/nrb3D8v/E0b4Vsseil0h1/IERIchDD/1jOLD5xDpK";
+        sout << "wtIVFqXohw653vvReO5CYOStOKwK1NRj+6evMwnYY0ANcuHvkVcNrpLKuldMZ9wy14/ARgiIjAVH";
+        sout << "0o+/xo2gFB3b2r9UhcZR2h+6dHClga7YggFuGxMM0oQ5XYaswSyHhGmRswU6VniDDqqrnbSHz6Kv";
+        sout << "wjZI490tKj7F48/ovOKPBXFGcAoabYyh8ItOqbjrM6feVgUdLMEj2OtTDzy2pW5n/G9JPOxO6yxh";
+        sout << "I+O8KdTVb7aeDdh5GLoU2EHAggWLw24e3+JxInqj8d8AHrQScmHDa3mAY5tm2+PcmpZP5JpQDV3s";
+        sout << "QwbMGaZuVcDIUTbvaDZ+RbBjHBCK5mxM8+TCx7j4v5iLAcC2e05sUtOFIT0QLihYRmHCcjuP5AWm";
+        sout << "0J3JPYQPbqMlKSBGRUpo66cPx/IIWB9g9rclpMeaXBx3M2dzqM+5JvtyTf0CPvoqaaQa3R5cmJxp";
+        sout << "xkSJehYgagfNrCOTriUYiyiZQMWQ+n6Mo4yf7dgl3ARmFKCb5xWG8Phaxw/clcVlSVMfa2Jm0Ri1";
+        sout << "XjlxCe4aZGcqrpoHJTndwDbX9U8YzyDBosTH1+bLzdHzYan74R8BUwAyleswep/5QF8pxYDdqu/t";
+        sout << "/iqrnfFHkid1fydF3a1AIEMJdyHBg3JOjrCXVQD6Ifj5ow3SCGmAoI2pkpBNy28XwEiNzSFyoIAM";
+        sout << "hs5/OMC1BjzYHb9y2ibIHG0UgWAsXVHFdgz+OiQkk/YtnGB/GVfps3eFo/8YXNxtGaSWQutk7kv9";
+        sout << "9d5YrbxGgVNOeB5GQw+36hg+Ud+pVhm4rj+d+c9hiUakDYpZj2yD3j8wIcCpykjF3Eb3SSa0fmcH";
+        sout << "CXmIMkurYNTvgcv+pqSk0I0NC1I2CQcgf6xEhTNEX1JLFAbZ/u0bVJZdlrJD8CJRNNoNeycQyQC1";
+        sout << "MVJEdyVcxsZKWpE5CwkqnAIWzdAWUt3bMVPT2ofFcmia7iDoOl5oMGclqwsC4pbQK9sDqpkiPTbE";
+        sout << "cJtyJh+kqkm3JF1br5UkEnxgK65yWVTu/4PBDax6uYJoZb0tB1ZJnRPxfE0f3KsxiGv6m0S5vx5M";
+        sout << "FblX7Lhuoowc3dmkN1RkNr+yFF714V8o6hhxDxLvi91HfS5lUPogCFF8dhMT1xxvWBREsq0qf021";
+        sout << "go40uC3E0mlhDdcffwR1m73QFHlsaOgh3soPT9CLP95RGBtvBWscuNjsP5dx7xDP4Pajc9grU+l3";
+        sout << "IC6LreGtTj+rXwpEkWPT2AlgkOcFWObnvpU4sWEf0xi7KI90HYseb3ceelpFOr0LcHvrSDqsZabZ";
+        sout << "zIX9amNrSB26lf1F6nphID/ExB8E8bR8HDg05/OxUZWGKIT0DaocTY/yCd1HkhosPwiIBIMHzaYy";
+        sout << "wLiLZIgNIZqYCf1yM5iVU6M5+Zl8JL4w4DBSo5z78bY3HpdG8u62Z7U46nWx3UXnGbUeoCddD7mM";
+        sout << "lvzmbvRWwLfMBRoWjbTYOh/YIjVzhF4tjxCvCMoOm/SJulAYEAomP+oDS6ou6zGq+2ZybTHuQOu/";
+        sout << "LAKzuZJL1Gn7tYSBegHsWX+mE/b2xniWd9N5cUyPFOvE51/zHAmIP2WDpFwg9liCl63d1jhGCEca";
+        sout << "Njai7311nCZPr8Vwyrpo+tHhzIj77/BKk4Y/bAskdlADFVv/L4jODahPROoVSAQIMjHsymmVXva7";
+        sout << "wO+72pifn9q/Tx/1R/namABkKwC64MSYv/a0KrhWwWFDnJAKotAHzDkADxv1cdA0WjaIAoisS+TK";
+        sout << "dpMuwobjFIv4v+KDGLCX/qrgPcvc1chxvnRwFw8ekCNhH19Tc7ST47+TjuPuX/ECUSDqnzls1xZr";
+        sout << "v/jLcGGT2NuDsBPNaeskj8Yrl1cqqseZqtUSwKp+9nebk7uwMihy4yENvKznPfF9Rd4phaMNzuZX";
+        sout << "1jhVr2RUTrQf2cr5QHOIVhlX9BQyclOXByIghKEsijKM8HAg1qpRF1zVcI81OmqEU8nLnlJOhDc0";
+        sout << "bbVZ3k53Is93wgY9WNTbKZU2UBuZIjIrQAo2mwLRPuGFwDXD4ou3hMdG40vKHg3beTdQa90YANzA";
+        sout << "lECeqpnahX3tcJKhQFBNsE+NLHO8rN84GywOBz/v76NvlPop0CN9Ik/Qp+CI/JRSl++uwfQQHJRZ";
+        sout << "3rOhCTPuEY8sEKYzyYJgdVBYVzU4530KYAT5cWeMuxgnVJBMX8I+KD5fAY1r30zGKTP7fbmeIdBD";
+        sout << "Bsp2F2slUXQzaljMa/9Ut4VWi6EnB5ZDclSCl0I2rPfUjljmqEeoI0RrRPvx2gvI/s8rBF/RVm5T";
+        sout << "jAkepflhoxBwhcGmW0DjbJD5kK/hGl8jwq9fJUkEg3zw8tKC9eeMFdd93l2toj8fN26mZxZ026sq";
+        sout << "q/IrYfUu2Qi56HEdhZUL2x5b+ZMf08KzGEaAF5m4CpYZvjDkMZe+nOiBf1RmqskGDwwTf+a7THnO";
+        sout << "VMDdo9uQc8Ubg46PjX1xay1zRS7iIQZgmTGEvxaUlV+uTxS1eo0VX4H8SgNT3cuSCrmcZ4Vb7vsK";
+        sout << "f/aPoS4LYaSOss6H9mcYd7xO/qs+2x982O8JlHoD08klJArDlzkABWL2pHvzvHjCTkSI6TUtVmAJ";
+        sout << "Aj7LnmOJy8bSn5pK8UCkWFHHCjg4dwF9F4dTrsXNQK062sXDvpRQIQp+YoxRHSTgveyJMCfv4jM6";
+        sout << "NTme8z+4Jbx9GY/COeSO87t6N2ml+mkAhRHSq4oJL4TZxlwI3h7YezURylRb0IOWMwD3B68oP0p9";
+        sout << "lc7W5Lmz7AGF+8fFTv/I9QjUm0sZAjrInS4iDUY++XdemIl/1QgOLWW6UN0LyUU2f9eEY895E2Rw";
+        sout << "AWDKeuk8ryQnsDU0+fdycqL2kejv3YIGuvz3UcpboSQA/zu77HuUA71CUSFz69CMJ5yjAAkCIGna";
+        sout << "cO9u7aP74V9ZdTZ9J71tRAnWhtMXg21DU72mkdp335o1Q8Ckhs76ebwsPtaNZwFu4QaW7NsMCd/U";
+        sout << "80eHjnI11dsUbQN7MAAHZHVhl1f5BzGXEMFrivL6ZZeKiMNpZG82D0HfKTiKwx5E+5Pv26MtYYzG";
+        sout << "VKuah/nBTKuUOeoVIgpiqZRyWior/D+72mMWfsZRjuv95NgLY9EFbzg/L6KxmhQn71//upROMiX6";
+        sout << "DgyP0/qPDEW8TdCAJhqJ83hGXV2fwOfeLh19K3juxl0ifK1hYyT2da9WZAG1ppTPEZM6Sdo8ZVBp";
+        sout << "CMZzrFVEps66Y213nnk/zDYU0q8uUQBItVJ8aFEiQrvUE6YYM+N2UT6x0I8YRFStnbBsbbyafQXs";
+        sout << "OBtj+M+rvUZ4mks745WsK/2Sz+fhrHfzkfF1tT8mPGMp8m2Zqhh2w5aNthlogqnfSg5TIecY9WKU";
+        sout << "HuxgPMgYDGMbOxvzDisTxnr15eYbiNkNRd59xC0D8dkaBFZITiyUxZtMnrMS4yshVBkd0BgV8x76";
+        sout << "eN7/MiZjaj5NL+ZyJR/WRmk+d1TO4cpwEBbwDcIYTU/Su8ixFNDMX0/EfZ2CEbuxv/RWrPIA38Sm";
+        sout << "KPrxF2Bk/Qqe+r0QMD/Fv/0BGSmgC5ntlpB205YOkUGpU13AzlMiqsvOZ5YPpqPitJV1axaxmS4c";
+        sout << "IlUegGlBZVkvPM2nZcMohm8pOWZV4rgBZhyE42Sp3n9WryR2x8Ua4L0NHuffU3MfOT6jTY0tev++";
+        sout << "xt6zEhtvhSEdl8y+UWcIBoBtlR8u0HrCZrnBX8MVC5ygnBgjDPDMyqnLqxirr7IhZ9KrLClGGRyP";
+        sout << "VK44nIb2OF1MKNjz1ojvtkDsRmcK3HyMDnuW6ueSFGRZ4048tMUSTKWJFmx8c3Rldmxacn1O6nmw";
+        sout << "ZdMKvEH9REjRaSTZcRdDt18/TUdEtng1638pEZKraTXNht4VxFKeA7ufziJDjajXN+g6Pjgx9bDz";
+        sout << "fOp3JITJIxglbLH9Yf4YhbvEB4SS1H7tOkPeWW+0nFpHY3dinpstjpwFPRV5l6KRLpi1G8K2Q/qP";
+        sout << "tJyReb5tOsaHDBP31i0okVmr3KM3GI2Ypk0K6INHQizcWPPdn0ksI0jgJYJ9ek8PxX/6nUsKkoS4";
+        sout << "lKdsh62nqKm9V0cRgAlBDf1w9h0SmIYhfOU/WhBJZbzh21ePcbIK9iLjxLmoU0XDmOidRTmH2KB0";
+        sout << "hgV4tuH9SmWft5jzS5+Ovso/HIptoy/5JUGrJObOCE3CYB0tRcS94MOzaYUnSchYVBfChzRjddQZ";
+        sout << "5UxYm8xa42AvpOQjcAH7+eGDc88j5V3SdY8Hxt+wJdLfaddNp6yHg1eiremfIAf5G+H901BzglMN";
+        sout << "icUpcT4aIvNJu6C07Ozz5mjSkg/vTiF3I2lVaY+I2lfN4pSe/hWpzZVqKpUvqtL7wMDYlQbAtaQt";
+        sout << "+4t3JRWY9sHGGPSRbbTMygY7xvPJVe+Y7sPcF6E/PV94wO07C502Bxv2SPIrjdgIKsxGQQvark9Y";
+        sout << "ukSi3ag2CKflR95svqKbTK0zvw17+T/kq6YKm/0T7U59vXAFUlg+uTPBOiBQxa7mwTRFT/2uf+zE";
+        sout << "oCHXzQeDZyd+ggrChOADpskHrO5VmnKZqz6dmavegIKels3myQ2Wy7BBuD/yPlGmd3XDriij3xFx";
+        sout << "yiwTMkEzX0e61eVMvSORSv0DVtyYoh0MmEK7mjBlAPhJDR4zHExtzTd20Fe6kV/w1/GkwyehQpWJ";
+        sout << "rFBIa1Y8iTkuR5Ij33pGrrd0feQwRoFvZ15QZ7bh2MPfWsnZvte7366zBKzzLln64wd9AaKS6qnP";
+        sout << "Cf43VqI8XuyJ+q9goS6LNbcKnuWu2Pc7JtEyACf+eG11CVTN+tAWUOuW8t+8H0M4wQurbByJT2xs";
+        sout << "CFhIJvGe7R/py465R+4bLbNHaQEyUjFcFR1LdPL4ke4pBVDdpw8/5es1XkB7h5p+BZ27Wyu5NEQo";
+        sout << "+Q0CpHNegbu8VuHfUsFDPxMIW+k760uL2DGXkKBfPfAshKDStZnkYbHip+mgfHSLyH3i0B5+qRWS";
+        sout << "ThksOsjI43PFTXfKflPvre/TlNjyN+2O3aNrJ2GQu6Y0Kp8NHp1Luv0CZrhXewnJfaeFQeFlF9Fn";
+        sout << "TAVcADFN/60SLHgTbPvZb3GwVYXSxUf+Fn2WwUSNRRsx9/ghHGoTTattwqLigbj9gVkBllSTBTCO";
+        sout << "DCc0uVq9rXcDcH21oTE4HOStdLx8EyMTo+6OazBsp9eLqkIybtyUlzGNImr9OnjpBdQ04/Ptyy+m";
+        sout << "aXdyPeIZ+MhMPbXDVT9Tt6mNWB1tfPCRqs/3aGV9fxk15Bs+Qg0myJCe5hZU8g8HeGjjQu65/26K";
+        sout << "r90Bo7y/Vezu+LU4nLXEWd2mWwM8k5Nbx2hZAG6RJ4PENcIjvnmWw5WXFJ+WabCmFTblNY32cOgg";
+        sout << "B9XrQjDqqhDfdUmCD5rNTy3qt48prCL18ichOZZrzaUaB7CFB2vBuZAb5Rn6D4pTEzHA9WnqO67K";
+        sout << "EOSYS790whcEw/+DjKsfZqLx6snfV9IT7y6ix57WBCwXiPU4xVDhKWNcgD6X2fCwwgTDnZOeXOUI";
+        sout << "UvbFiIj7S3hKxzJwvWJvSeXzXsLGmKmJNneSWoDBeYevJR9hwtnaz387FOnKYtkl8quX8kNog2jG";
+        sout << "x8pEYkNMh4nJ7PqxcW4nAPTxpAjiNs6YRyqRNlJ/Hj0uVYoZy6EMPDekw2Mk3jIJQ7oNAJubU9TP";
+        sout << "L5pjYb6On6ElmQDYDsqBnI8EiGnaf7PdeWRo7EM4zTpyqEB61HV4m0rjX5oAfOnRLwnAmpvj+BOx";
+        sout << "peCUdd4Oy36Ip/wKu5wPNLMb3HYG3Njj3nIotQNEocg6ObZN8t5eE9yExMZqRVxSbb0LUAXV1NOX";
+        sout << "MaqIkzSkH/jTPZjfuc4Vo0o0BuByEEOCTeMrDM7JPxrbTVvXyQrYZCr7KJD+Q4kON13gP3mabCVn";
+        sout << "LecL8ok7jZ/4jOXdj+fqLyxs6keukNTsIhCySrxidPWFU5PSMrm41NIWwQ61+P/QuYxOpHw8Ufky";
+        sout << "W+FM+Gag16MChiQ6CVkteJmMHvAUVr8G2+I92OQmrEBFbGo91kpf0kwZolK5hyB1NlSGY7jkY9g1";
+        sout << "i8qTHaJaxvJflhaWKf1CNzk1MMHloFWvKN4wiMhN5FDIyGe3QpC35ntxlL9g7uE2TItxOYHX4XND";
+        sout << "yRWEVRfwwXpUVRad5gfnWAecj8m1HhtFRazds9IT0/omdILAA3KoH5Muu5KuIOiZKXJYplaHhpod";
+        sout << "tb4W35ebimZhy1qF0Bj0LsTmL6YYCi8l5ISCmVQwMikAcy4iyXYSwrKYcnJmqu0JWIGaU0SkMJ3z";
+        sout << "cVhHSJqP7LsDUCBQJ48OuFHhdt8UuYMMM/Q7+XxnjMRjrw/uZKruF5p+uCqeb06NUeC3VYuGjt6E";
+        sout << "FDVYgfcut6FOKP2kJ9/ZLWuSTZAQrjFtPXwLrFLx3dL51kGEF9uVftdvVPYCrO3qrcRiZZeaEYba";
+        sout << "OtpLnvzCMTUaABB15AFZJUGGGIh3zXmJdeSsqhJrLMe5o2CyZSifej5Xnj4HNIAyNsi4ftESemUT";
+        sout << "ulf12cxOr9P+ERzj7EFERdrZZRyDA4KI++V6pQyjnVfTXHXGk2jvKdKs6vI6X2qNgHHCT6ww+VEZ";
+        sout << "uPtTweDKmy2tKN+Li5Bh2+cNQhc5DQcpW9D4aJnl0huPf9HRv+P2rajsSbVyXhFcai5QC0hT4QWg";
+        sout << "I4UArbXrmTjJ7ez53kg5uwzA89EVZgG7QnE7VA+4n3lvfcENy4i2faqYH52jsYxtEFCOeOQ0dXs9";
+        sout << "kKubELGvFgkQiLfhpD8RarTznN+++BlRNEXNUg0x6/1WUUYsRIdZjGppQWZmLVRxBrfDnizxyfn0";
+        sout << "84NmRtA1BjQtZbG/gRggIJlsV1B83wj09V6spystQK41QZKrB9MyEbAKy89LI93uJ6Lde3SPimoL";
+        sout << "ydyZwePNAQbBMc7C7P+O+MH+nOsOxhBmHgC+85OrS2oy89RoSfM1GXsmAgGKz5wUomQ62vbPEP9K";
+        sout << "UZca6T3OFMbeullfy994juN8uTy1CaoWyucFSc2eyWKD57WvuVPbf8KG02d12+Tt67SGK/Qv8gnN";
+        sout << "8Mb/5oTyW7sj1FVxsxDt2bxqJ2SjkzMcIsHD06qefGPYUG6pGm/fWa8wiSqnh9Yi071mDDCizBS3";
+        sout << "/LjsZjEX14cdMzSXLQKF3U82ayY4Kt5/ufFs3BjrLTyZAHgB6WyTlxKMgVUz2XxAHM1yUVnyaR9c";
+        sout << "HKacov8+Br3g8B/wOXjKlBvhKKh54Rnbzn7e8/lFXpc5HfZbYD1GV36QnyuvNNmvDRBnDrDnzLGB";
+        sout << "KqwDcOYWvXnQI9cgAbhlHaaIGpqJTDhueSppEapR18hJ0asiXWZ5Wdn03b76Ih7HC96AWDLbghn0";
+        sout << "pSb5pAYeZ3+MR8x6Jm0M5xA9qNo7efoPBg9q8TCCSp9xSAHp0pKe459eiq3xPgUQasMLs/TYqdrW";
+        sout << "FWKP5E5pW2QvnE++0JCMPl8rrIDriGh9wuw188wZBYw9KTKEduhBljcKeQBfk7Y2PFFWFgXpMnlN";
+        sout << "9/3/yftoG/eWihRXMMd78n9575p3zGMyIWUFk3yIc14rYkcITF7YYlzA9Qz0anNgpCVUOn7gqPEh";
+        sout << "xmgx6/Dvyj6rnPaV9vinZCJKfbkMhUGyTzIOmNgAM+XL4YqWdJwNYb88Rj71FNkYqdlrIMElhXgc";
+        sout << "zGfk4Z/BIVm1vvU3NuCq2HxB+Dllflc3ZtB38zhOT/NEsOpYgrm1XDWAuhQuOJrAD/dJZC+o8Vun";
+        sout << "TrmaayDOTXLb1w7+fRorbKkeS2MvDB12Go2dAGoqnzTOgwZVyMukhiShYs6wp5A6qtWnkIZgK4cs";
+        sout << "xrO49Ts+CYkrWt4wQKQ7tFIUU8tbNtBTY239zeSZ/MQdGhyBYCi56vuR68qUE+MkSgAn+dNK1QtH";
+        sout << "S8g8k44NAsMZQ9YxvmrPEBYb2SQYpK0zKvqtbtNTI8c0EjR4FDSehmhafVd52PadOqFho0THDbCv";
+        sout << "z3UmFzvykQUJrMbSbww63wQ6j846Hb1yKP24csPWb2WO8NEUZgSQdprNgVg9VZ/9w8yUq4sXkpXt";
+        sout << "54qMTC8odbFpaiuy+ezU+83JMK6BAbsaa4T42nqMqp3FUrxHum8E/Aq6Gci3pTZFw12s3ocX7xMb";
+        sout << "dPoDvrnpThnuyKP/e4GBY1QxNpX/wg0dkwwW0RWrv3iGsDCDZfWoPOxaJz4E0HxPyu6E+ArIAJIc";
+        sout << "/KLA1FpMPqCk7U+WTYNRfgKTM29wcIcqjV2gPqkZl/7/1Pk4IgT3kfr70N5FBYE+poV2l/zZiDwK";
+        sout << "bWI6c2q5Nthj/V2F4Sbq/f+sNnFtPDqbni16NopBAlSMUB/7gyR1vB257/5EHEXAnZJV8HlMbc4w";
+        sout << "jDp24vqkOzjc926ql1dguH+RD0LFO0DZuJZUniT/Qrk7yYjuftuVvXhRWQHfsKeiBRKmYBVekBP0";
+        sout << "v2oWC9BcpeyUEoexXMb7nhYxYaee8hT2S8ExU2uVkTrkVlyJQX6RppoggC6068Wkvpwub8la5j8A";
+        sout << "GWag6pGQkebQ/vfj0dLARbIGkURcXYzpEu2iDH3LRkZA18nR3YvnZ7Ds/N3lExjy+IxbKh8wvV83";
+        sout << "OWgHK3fcJ/aFePPKv7nFoHmpYwxXKJsF+ZrnYstS848Jklk2ehxd/FeP/4/WzzOytmT/wAPCMzhB";
+        sout << "ocyZJGS2FnbQ9r9cz+vl5mPUSZm2Hc23WQnHDghGSS6ZsVjsfrMtlEvFRxIyrvlUJwvnL+g5GYYI";
+        sout << "q4NYtTx66WReERmgL2hipohEDbmnFkX+YqfXYzw95LDFM/UUlzt2F2o46v0LUeEqNskx2JZdBJUk";
+        sout << "OZjhQDChnF98lpzt1hB8OaCr9IlJ8xfaYw7Mt5xdVkVd2HGRVzTvgJbtbXsJkO4DoLfXYiYFeX1D";
+        sout << "Of9a08WWuhHVXVPUw7JCTXeWibxY4o1osV+nMJiifNQxx9AsJLavtht51gFsXDS58lZt1vvw010f";
+        sout << "0RIAfQd3wh3k63wO/JRFOjjuTxVBAdSH+E1KYfHSmq5ExB5bAjTSaJeWOgYPjl9hfiRa0Aq4XveK";
+        sout << "fTGm56vdjpYP0mNlgkLODtZt7FiWiWE2NpeixIeU7twbu2qk8BPFWMLg1ZprRBlLs3P+The4OinC";
+        sout << "K6WwbxzjBHY748PpIYzWtemrd23xNQnF2vtXeHiV+BwDcrdJY0pG+BK9uZPI2ADFInfB6brRK2YF";
+        sout << "YIyTB17d77/x8zHnjmVfu/JYvEGbpwxQYVjDuRs1UvhlpGcQggpx9dwzkfNhTmdCzKHDxjKsxj6f";
+        sout << "8uWyaI0p9PNU5jLC09MeMWcr604VoZgbxwOx6DABmUXzOPYxx8UTytHVCdnvZYYlEgulFdqCUsPR";
+        sout << "p0wFcmeHiu9Ylfr4oPQkn4rhWH6ZdYsMjXYcUThEOm2dXbLAZ4tFVvh9obDPaMXFDKQoFqXHf0V1";
+        sout << "82DQKwM77cZ47uXmktetrq3okftL16MlsMjxuf5oieezfYimSZIiTXbEXjTqoaw6RO7KTvw4BeQW";
+        sout << "MI7xGMtopI45SZ8CJ95fZyTfoS/GywmdMW32Tv64pIvUBwfVpmlwdi7u6cG/HMTF/8hyVr66XEyO";
+        sout << "/qCJpmgfYSvmPzCRI9k953SkuCCBcnPTEnAr2kYePBrYC8MUYZC4WgoNY4pTTaOkqU/qgFnxMPsC";
+        sout << "pP77d3Eg5IjPfUwHKkqB2WI9aOwAxnuMu5AP16phx8zkBFn8mYAfQzo2eCf8viITBWUGxjpgiE0w";
+        sout << "bj8rCX7inP1thyf1iMawvhcyq+nEM5EV52+2SM0BPhhNP2BUcq4XxMITRo54ckluIIqVd2HFRnom";
+        sout << "o4FbfvSWyZEXL3loWKWsv7YnWxZTRDlC7TwO/OhxZR3JadpR9q5w+mfQazCIpn73Bc2/6fWBJbi3";
+        sout << "Q2/Wfm42d4CpuxpQYLTBonMb7tG8fv2HoQgmhVRwV/edGx17sgteeT/iJmG9OsTSh+b4Ts5sfQqE";
+        sout << "839h1o4eO9kqHDzeR82Bb4vpejlrtJU9+PHIth4FGuYNzuHdRPpy2S+NtpeAf5L58hCa4rEfxWfn";
+        sout << "KN9C3+vZdsztGi/sKXG/NBw5kmSJcTwyROae68ehmp8ID9zCYtkM6Lng0y3l2GLEFbnwd1TD5hFh";
+        sout << "e+wFJZgD5y3fnZRiB4qSTiuAZ6WRUvTVD/jNLvzMzP35SpmJkap5dZVvq3kzM/gMd99wyWBwfymw";
+        sout << "Fn5QwRUXoNNgmWFs1ljkbtZjYGYFs7FzRm/sGsmnOSbRA5bMSXgGhnHvUZhlKQnyhHNT2e4CIjSY";
+        sout << "cB0992CVhOS0QcXGltKQKUWUXuIAMTXrii/7sZPEAlhD7DoHkc6h0ejlGDBn5MQCgRNUfRSFDrSk";
+        sout << "BBb38mgjSNm6wIr/zM2wGuwT5ziUTLPjRDiJaEwyfatF/tKU4Kuvhy8PF2639B7iUE6eiLJmRiX9";
+        sout << "14KFSXPOJ+cvqyhnlKIscELEupsb+j8OsHF4y0DXfkmi4F0mrV2jS76DxmNTOLxy6+nG8ibl1bAn";
+        sout << "1Imcjkk+ZH68bPitSnNiKR+CIwnfa1/DeGpkYpdY/HR3RA11zTsZHAEFqH0Rd0r7Cp/0gjhnR7KT";
+        sout << "/gfMuAau6U8MrbqAK2PN5YUXh9RjBh30prKEfHESO4bkYbhJ7/wjVggqVRIl9qAu3FBIGpy2OFVQ";
+        sout << "KP+RFg4efoOQtr/qjmE6TGgyRwdeSVTH+kJWjJm60k5pyFdPhK8cACe8fJWUDePQ376TPB1lBKiT";
+        sout << "9HvENnbFK7W4T6wxLQLOD/V14frVEamqFBXxegHSN4VB5zrmQ0XHGZ8esevPyhZ3BuYU/5f3Kmbt";
+        sout << "kmqya04jKXQfu0zwlxkg2sYPLkzdoNrtQXwWxswIMiDOozE90Pt0iRJcVwGDB/QPaEttbLscfQDX";
+        sout << "tYuNZFRXgj021vnsSxvFLfGRHwIaSpF79VyvcalJ/8BkD5uBE5NJYHWcCvYrfb/kDkKj+1kJaPUj";
+        sout << "OGCjw6FcGrEWK903hXwlfW++30CO7r0IqbYklwP42QzacZhv8bvCrU//jkYSAIOYJGl8//9zvjdo";
+        sout << "mg7V1hdg2Z1u6GsMpiLBGuBASjWWYe5d4+lHestT+l6vCj1VGX3RwIbacO/IY/nsiWMzkYRbTpXs";
+        sout << "ga88ELjA0IdVgMqYawu8zH0MWtDIiLvPmtEjpXs1eRy+tEG/CWJI+hPE/4//DgDklykXiQfgHWot";
+        sout << "xPPionJsqNdY9qlIjma3I7K8IkV6AHpEhGmdr07KOMuEGW7rOCIEVCTTdA/EHdOrmb0sGWZZTVvN";
+        sout << "zZvX4iXzzGZrNkMh2MvcQKxZ1N9o2ujRMlM99rO8dJm3Q16Ma1rCT/7XiyrFo8Y/7rpCyvBeUsu6";
+        sout << "qGIlbBdS2+Mx+Jr2YOa19pRs0Ps0PxN3HZ2J/qZJ6nEbFLmublyaFPvIi3860EA9KAWEjSEzn7Gb";
+        sout << "z5TEw9TjisLVdAZKlqCqlGVYl3ttekzzrbbGgkq9mQuLeNv7BBYyigf/akoQGQ1nMU/U6/FvLVYQ";
+        sout << "pTXTNi/Agsy3SqWo8I5pRtvkghn/Q1VP5C1UeqbNgk2hAPQ+KINHSZhq/WrkkfjjBmHI5FefH5Hd";
+        sout << "wGYrHoFSpsiRITLN66A56d/8a3VUNHIJbBS4M0Y+weO7wsj9itTRR+A6wvFCM5vOaE1B3682QgCT";
+        sout << "DSXf0+gHpe4L3X5dsaF6yWOIuL5fYc91p9dKC5voNaZHX6YX4pdfG+JsLn831FJUWQBQ5u3mlg5M";
+        sout << "VaH6ZitjbAePbJGt7RY9j4hCq+8AljaMJmYnJWdLVFBIMEDkC2ns0MkrtAJXdeVYg7pw0CPPq2KU";
+        sout << "LGixmuOwLrJh4xG8pwf/+VAdDk1HqLUUP2PF0Tt5zLHV9ZqFXfv8BjC30WcIM/FtWl9Mhl1JPXAB";
+        sout << "LNiG7lMoragaWKNIkpIQzjes0sGDjOKV/+Lc1xLlEd9S8U8D1w/dRx7XK8/7uEbUsp9uo9nAaneI";
+        sout << "aAzEE3sFCUszszrBurzBJkHxMJuOpRLXWBA9USND13j3J77tXlBkUZgJ11im3fblE0C1kHFRx2wL";
+        sout << "mdNmoVhysYAG/0eM7fNH5R0J0XwVbizvB9V58HF9nqO7glP7soT/hgQv6uZoKHog6F/nwxxE+1+l";
+        sout << "G6fY7mh7eQw4qe9/y6ZB5o8J2mVBtKa+QdAr6O5SmVsg5G0X9UmDrPRXnM2w+AgS+PtULtmrZEeC";
+        sout << "7pk+DWZpfjwVBBOYKb8KVGsj1jeSL+PtJOjNOIOTBSS1Cx5a+0zpgL6HXaZmPhE8Dey72j05TZMK";
+        sout << "FdARb2U2AsRrW7Ri1EGpPPtYfAV7x73oTTWBKJzy4sPapnieK9E7oDq7lN0kArS7df33XbbkO2l/";
+        sout << "Q0EDMuZgT0pwKQOKabaxmIUDDIp0CYAo0B0B8ACTQAE4gqbRf0/xDdIBIxKF7ZTSrAHOIe+QXiJF";
+        sout << "ZmrtCT+Q/S2vZX8yd2o9yGFrkA0fDKMs9Fygd5xZJYwWsYEVPrGOGNhFHmjH9bl/zjSb8evWieYM";
+        sout << "DLnCgJ0yRb4vWs7uHX9/nlWkT6l5qA8sEzGvL+NVtA7Ka0gy+LSMrtGjWzqYQ0kua57m6fKYhWwC";
+        sout << "gD3USfXdApLbs1kgJ6LhI40c7a3pSdw4EK7nhRj+nngFPVZNhE/t3mEb2DMNvI1EDghYCMktxdKL";
+        sout << "60Zp9TkZIU7evSVf0Bukwur1t8AeHjQQ4BYhMaMaG26DhTQjyTfB8gvU/IYL2YTxOgFw3vqTWfO8";
+        sout << "FLnmS5TQzZMAvAKPt6nyYPXRPqPVlywiXrc49sbozaliJooqiHPySu5rq1lkJNRRv6rzHddkJgFv";
+        sout << "/hS2lMx1X3sW9vqobf2XAwSeewiiD6mvesVw5VCLfOWCioWDMw2bMk2MT0E2YwMjdkM/Jg240JwA";
+        sout << "IsYWWfXTBJoU08SNPlUAnMUl5z9wvbKvjTiZgqZpePmWUW9V4YZaoK7p+JM//VrX76xpG7k+C+/O";
+        sout << "kmKzwUlW8X9yhwIJQOir3KIMlOK3zJuE5qvWzFMAtpZ1xyaZgnezaEmpQdVlzLisTJ9p3rQsGRw5";
+        sout << "vpaNo9X4PBViQ1v8VncrmJP0DMIff1iVXl8FRehBgN8rTtELREi/Dkscu77Mpb0g7U7YoEqELPq2";
+        sout << "PmXXZzFduFMUioA2AYH5GTQcqQ+btk2VP07XQDd0ssbCLW+pYq4mSoRnKidxgT4zy1yzyUFOOo+3";
+        sout << "PD32GA4Tz9WngH/WDWMXu1VzsGmAPVdixVwfInjzWZ2nUCrUCEGxXmdXdZ/ZOWzbqpUGjVUqBc79";
+        sout << "XuiulTVxE71nw9gVjS/JtuTuC0tV/144LRHtFCm7uXrgeqZA3M3Nnxn/Ta1lknrpe8Z8MrSRU83q";
+        sout << "ZHlsJRzy7RFgR9tzRop2ehbMb9KK2clK7tFqFs3cIuHVTM79JrJRNoXnbMB7pyZT1QpQnsVU8ksR";
+        sout << "zGhg1qYXOPJL0Dw2kUMSe0YkRSAM3458HSIbfbgkAeDa25XCkSEElKk9e4NCDZ25sHPLFcS45MM5";
+        sout << "wDqOz1uFqXGbIKJdLTGrN4ZfSP9r/Lsl/ZF0Jq9ngvdW4gCU+/SomkZWEOFLAFLquBbsVsxgKruO";
+        sout << "PCfVJgSmKG31Zc3ejqz5obIsO2BtzrUEmVPDvvT3aKDbUvg8IB/ktv+YpdgEzlIC/S1dsOEcahVP";
+        sout << "DdyAercWcjnfcuYpwRlqw+s3pG/U4hdcSidE5jYPOpv2L+sDnXa9iWTThNAEsIn9ZCQCyERGYJHw";
+        sout << "IE0aONTi9HTu8j341qRDYesfKVqrTUnbrJOKpjHdKQtCoJra8eL5cHq1mH+766KEjy5eePIs5TmE";
+        sout << "wNRwH4qfd116+/Gq5n7Jdb+P1pxuzwaBfQpJZhR2Y5oBGvle+EG4ryDpUN0r0FM66Q+wa261D/RU";
+        sout << "yidWxQs6kg83u6EhblsatBFio+rfI5CuWR8waXmAd5ZmLtk/7WLlEFtAlhdvrXJ0/xPPC2En3Kg1";
+        sout << "Em96hgXLcdcj2lJX9/nUhXaSsyO4LJYWUFGkh0pSURoTz0Fxxva8HhGfvlSgOtZBnn0A1kkm0CqA";
+        sout << "zHWBLfQqf3lqCZnXer14bwZMGl3vxo52Zrl0TJ+cXbxnBpgnuil8J0QAtdVZAedLaCgpwzZvty03";
+        sout << "qaetKQMOiIeRDgsp5tyZXNKv5KSFAqjzr3qag7WzMUg/R4MeE5vW+HmHW0sl7r1H8SIEszAZ1Ig4";
+        sout << "uifgLXq8/DWPUu+fKE+WZgBNQNtqFzy8/Ak+lGx9liAvB3rWT9FikSP/FJI3M68xx37o4SzTPRha";
+        sout << "GSUK6N2TIqOs7ABHF+MG8vStSRHk/ldLc028NnpArCEk4TI9VXnYES9EmcEHuikeFduDmUuPEq2S";
+        sout << "5VuXIRsOukjpvA8RylhSwmlo3AHfsvbooF+ubaUvBKVuNnAk7veHRk6TElZtMgkUE6JDzzQfQKsu";
+        sout << "0vL3rZf3PNh+eGMFH6ddvWay5QjgQohLlD9ayQYmleCTphD4raQ0E/kHrfZgUJUx//cK/zNATiPX";
+        sout << "71bDWMzocigIsH53gFB7uPTyPyuqjzaZ4uXEQJZegRNt3TCQ7HVmZ4agsre0IZnYNo7Q9QuAhUMG";
+        sout << "GsNaK04TKz6d8nawoqgW1uzkhuBdLSLELYUIQ7hTl3YpQtbt82RlLgPh2PySWhFj0jmxciS13yD5";
+        sout << "dBxnRwjG8pZfutYp/BnxM5hGZCA29Ijg/zDSbsk6SHoIMnVUScxBK9ZbJ05Xc30VyD65b/H52A2L";
+        sout << "Fg/3+qlIAAqgwAFYzAz+6KLifYPnd29WEgwQekCefzpboSau9ByhwpQz33R1m26AIbc9Lshth6+I";
+        sout << "fu0RGwtCqq5JcwiqIlDNVOMn4QvocrlyDXKnby2evQU85PiU09J5/uYesfWxUQhGcWNfv/XphDgo";
+        sout << "xD3WLC17Ph54GJY7ySCnKrxp8aydkRo0tqbCtdrZaafZrvxJI0kAUEGrlAgRSTfDJ6DzrySwjGK3";
+        sout << "+tFuYIfvDXXBTWIoLM+sE7FcylNgu7phkSccrHuYubPzOAGzszaYrRWN/17czi+1kfs0VP8p4o7Z";
+        sout << "1rFAM5GTw3IE+tVOW3UX59BIIPh7JK/pxj+Wm6jgBW5nmbhn56XQyhWLIKGCTWTbFNS0wZrjqfWu";
+        sout << "qCcsU1xa3fOk+cXsPwQ8QxDEDDgBUH+LX8YGQn9aj7nPZPSzMyKuDStKZ8bXom7SpSJaJ8QTXxt1";
+        sout << "ZYg8TSYj7lRtraKYN0+b2WTPWwkgLVrbcMx/HtpuWmsr9n9tp6hEthhrgecGD8oSc/DZsuRm0Yos";
+        sout << "Durv2h4t7nM51z9CfbNM+TkyBWsoZbyiE0r8IxY8p+70VpXJnmd/z5lqi58aYssu30FbbaoVMwCO";
+        sout << "s1aOjj8GQ7u42oo14zhaGr+ZP4d24Llxb6OZTqq8zE69bYoHyRspqkrdX1thlMrCU8Uq8cUBG2tq";
+        sout << "8vr9j57Xr3FCFxYtQPyzfJJcg3L3zSCFnKmj9xgRaAv3BEGy/cYMBu+dXHe8eLOqcQHI9BhrkwTU";
+        sout << "dctvW0TQmCbC8bsL+jTeOePvceasnObdIYyFM5IlkJpe/jg4QysMTlI5xnaGNW2BluF7CfImErif";
+        sout << "z6AAPBm52Igtmg4jVv7P+ftyYpp7IJwiJM7nzoGbiImmmIsgtV2sN5V1TLOiVEpj/BfSSiOMxRnk";
+        sout << "QnblUQb5qnbKZPSjf/7qpAXQN8r2pDNZSWd/oPomj+4BQ8HTB2EeTAIiwSWPO02CibfYvNEDp58U";
+        sout << "j0LxCwZmlykskwYIqnzNH97iXlZrv9LFqhEM7m5QwkCB9FPrzm7RancFhIdzlkLbPyUUzvvZKACc";
+        sout << "Z9pbSvvvgbYRLxJmUHoQDp57i7noo33USlcFMtQKNZlDEyRi6eJcsR2tnyqi+e0B3+guUyPAklVS";
+        sout << "fo9R/7QJ2+tL9SEQ38kFWG5Hf6AjFLm3AhXjZ9XKZfmP/nn70khHZWtOa/G5bDmu1hzZ5Rl8Kkcf";
+        sout << "48Wu8Y2xPPCbqa02xDmzysctF3fAkrfvoOQsgjIrDAYDJaDL+DuNwg6EdcmJiRzgl2akaxH+K2iB";
+        sout << "L2rRJw2z9cFCV+eYIGzyd2qysgJNsTkh93tpmizF68OlsLx/vr1lZ/xHhRk3kzodnC1JZJVXV5o5";
+        sout << "54fbi0tq9I6F8sgnsg6KreDXIG06L9bZniDD1W2e/asaAC2U/tsp4BpoitsAjCmD+HDOW0PlO1CP";
+        sout << "HLDjwzY2bQ0P7x2+voSBNxoplwRATdG/0OXh0xB8Pdae608P340BrZfS3fC/5QC4qUeIup3Y+eAh";
+        sout << "CMZuq05cXo4hrFuzHNxOSlvF4TcNKpSigAJrFzuxA4P1gFGtlp2VZA63f4AbqemqSvYujSnoZFmf";
+        sout << "2KDf1l4yKmE2E0TP42CkN5UB7PGpWi5A9Dcip2AGtudL7ptbrCqrx9M7Y94F+l3FL/vPzf3Jry6A";
+        sout << "2Hha+oklMyO4GmfJ5Shv1sU6vvkl8dc9nVJxFey55k5zYgQn/UecExAI68e9G83XNeT9KHNwHc8k";
+        sout << "a8txXKspafr5Eydf/64fnSKLlgXIychI7iJ36//adoHwf+AZCvqAn1wFJ9vpFE/Aoa1UMTRJcDCZ";
+        sout << "hhWcxWA3ajbbpdWMyfoTsYVU3X3FdMdo4LDoiJPoXfeF+uJu+0uVenoUCHIzfTYRbq7Bkkw/cf1n";
+        sout << "0rZHQq7w3k/qcrj1FChhLc4Gb3RnSs25gbElTBp50LmLiDAtg6tEItPGz89rwc1CBVbiFKnTk/T1";
+        sout << "4JGriiQt6cquoyY9Z2E8w1UWwQYoIbTQQdyreZbtbHYCGoaxxt0TsX7JH3dTox1QTj/h1LFl4sdR";
+        sout << "wlfOjxZYXrn/LTdyIWOyE1dL/ghNi91LVG7nFMFAq9+hIonaTrlngp9TfkALBcoIoasyCMaHAXUt";
+        sout << "Wr97gwIDWUAnhHhTvHHQNUJMhbYWlTzY4hWo/hzWP8J6fHWpkv7B/rGEN62lx2LaOnQ6U12Bzzy1";
+        sout << "mGRjWAWLWrEQU8hORBSd3Na2cYcpaWrxWvJdsuNOJwkrUIQc4UeFwaZgAAYVTfZBPjVqOJLxZydS";
+        sout << "Vq/uvdKXALEi5i99vSMcYv9PfUM/XSb3I894MonUHQkQKLIFGcAfmIEE7ex6zNkEf//cL4AZm8Kb";
+        sout << "UJdq214zrzeGfhpvMZHxiyUcrYefVKJD4yywBqXyU9K6SqehUtlLK5bvCdMo4xHlS0BJILbKtRxi";
+        sout << "64w1FFYYJpl48l72XeRY+PZQ3iQ4NwZU3Q8e+ittAEEYsy6Pf+LivQswZ6Qc8L145oZiV5vfDMKl";
+        sout << "yTIMBjVFFx7o7c+BcJ5sFf4brxrSreMuecv+WUdGJOzrh5MwzmNSlI/baUgzs8viwaKen0zp2GH/";
+        sout << "pzdgEN6cfUh+ERADYBRg7oR+OYFBVVexb0SVLsnAnJ6hnbEJ0lBXCSirw8GabPUrJlN+TEtHgdrw";
+        sout << "nISwznkUCXI+LuGTuT4N1484bXbi1Y0UUKOKuCHK5/VeJbO95P83+mKEGjyu4Pt84Nr+QCCraZ5y";
+        sout << "bDt+bT0En0LsOuMeULXhjPr5f3/EMg2htlpT6yqBgFJPy1MmOqRVNgqZoPW5RA2+xif5c8/hB05f";
+        sout << "Sx3BALho7L0olnQAhGZ0Le0WrOqECA8n5DNTkiICVwB37FdhRu7WyRrVL5ezYTKL5gh7AxpGFC/M";
+        sout << "ljOzRHFeRBfOFiFbzQEOgyPIqoXeVF/tTIptjia61N7C1lEICIWkNrjlnjvhcE3d1SShCfsWeDk5";
+        sout << "QNJrMigws7NYpzykRqsMFDmK7TKsmND8sxc6C8keI5d0hzcPpw5nsDughxWXN0J1qlEX80sZqQbd";
+        sout << "FhN8WPRhENjFD6pQP//10Aroh6p0//FZ8UPraJo3u+E9hYCqShqpvm3GsnzGxXJtPTGDuAiIkspi";
+        sout << "qOtXirex5WuL8sxyNlHi7COYTNFtHk17m8zZ7qqGC8nr4R0Ds8dOQuHliG+y0Ge/SsH4TAWA76sE";
+        sout << "3InZjAwWyfrFz69dFW+CDW08QGD5qV4rFvTBUsuGsO8nNJb+3rjkz7YuR8fpxdBaXW9VcGC2HsE9";
+        sout << "afDGJs69Bbsf2G+Zv7wNp+ngcigHT1774BN5fHTzxKnkYDtLk8BEKAhzd0SZYygJbYzgXZD49Bqu";
+        sout << "7vK8OMlhssaXxi7B0Xjy7LtROmxz1vAJfmfRi8MXE1qTVJ9tV6rd3fABGx3DgVIz8I0CRi7osWvy";
+        sout << "RDdc6A3NKeWH3eEu12BFlF74HCA8683h33ekGW5//ll/MicdT5dgJJkSeyUYNhov7ECrh25hG0wf";
+        sout << "LoFnkfPnzY4wYHJTgeUxT2TWuq2frdJhqlw5W8k0gDXr1++K14rQBuIBkP61m3md67+KByz2Lao8";
+        sout << "cWdSSAZIxOUJ8KPFADaw7VrDSj3fdRkI9u7qkW4DGtK44bzL0ozy01BmpcOYP4mwoEjxU0i/nYHK";
+        sout << "ganBzi6I6MA+LMdHNViF/uEbW99rErftedzUbvmWMp4Ntcxszhhjamx6lxN3Qb5N1vEvAEmhYIWb";
+        sout << "XQAnMfg2eBPQwrdVWWBkwtdpjmXqURBhYT1y8bqd/6lMmtiBj/Ehl7cqk0pXEvWQr4/xvnMhHbCh";
+        sout << "qZVuAowmTpJwC2I3bX0S9d74QLr9jgMMKgcRrHPgvo+OozC23uHooY7DP08xy1e0SA+0mnn/DvH6";
+        sout << "1Rexp+cJWEEWRdpDiXAe9hyRR0soIUrN53BO4G4AdupxakdiBNcmnWpkPhdtykf2KIOaxitg44ko";
+        sout << "4pC7OxZPJFfZ96gTn0/bZm3KRRvyXzLKh3+YnkX/Pk2sUzjCy9/53tnZKhTpp+0paf7umF95S3If";
+        sout << "CEDlcLc2EXThmHfAuQjkJ2Ud5mYVQAmXUVXe75/XSjUmE6U0CvRKTlbLKHM7Q4tME6G1WLYKrrXq";
+        sout << "te3qRAOavjpe+DP2DGQje+ZkYkXlFhvQ9VGnQ/6qPxaTQJYrXhBBaXnHWyMix8Rgea9L8FaLQk/E";
+        sout << "Iyxr19h1OUAd4Z9Sw6qT364TQa7273nRj4mI+UKT7XQF1AN3ROnrUn/gY33ZE+toro9gQNaxWch9";
+        sout << "bkuuLiyoBtivyA50Ixv4freIx6UAFYWe9AFT3WlXrm/hE5zUMNJuZhRKrax2I3cCX4mX/i4y8jHy";
+        sout << "7M2eLeyY9odYodQrtL2bj3eLovmAvm9s32HfVO+okV5HkzkPhczI3gVaPf8uLT4Wx0EDW48OyB2q";
+        sout << "3PoEqtvJDg/YK5/ielzlWCUSqG0OkV15UUBhv/Wp2YsenT64v5bjVjHYFPEWq5b/YuCpp2nahHbK";
+        sout << "UEBgAggpEk1jIqm8aS1gWUCHb6CkVAB5eAYpTs87DUgrdKzYuuEP5Thvm/oQ9dDzJ6nKEuXeRwG0";
+        sout << "P9tTDsUfWGYVhGd8MwpJAy9HqhIB/05e4zekmno9et/i5onZysDTUDQY4kqpz3CGVvKEOHhW+ZwI";
+        sout << "cBxt46Sy6DQHFJ77u3hCGX0D7GaVtr9QqJ820UVr5RQHwl13NkF79ZQWwMQTk+caQgX1zTaJ1O95";
+        sout << "yeDDo7WydSb4QFHne1+X6cfCOTqOp4pdpwfG36eUiyUGRwRBrRzpiIQLfEfL6sY7cU57e4tnRw7e";
+        sout << "+PRYXEoyWxNn/kx11gzQenOyYL20fuwOgiqVjVISUPxoqWTMTeeOFEn/C9syjscp9/e+JqaAJLuO";
+        sout << "natp1q0p6tepS94DBSoR4OmttbRLJCkkQiCyO8q+tGCcLhxTeUE/gsCQJx2evNKrd+vL3J2ZS/7Q";
+        sout << "5oxvjd3AgKZD0VsXlvZejM55ZYO+drhNo9K9gKP/ZEmzcPNJwgps7WleAft5ZDU92SZ1TzNZUDI4";
+        sout << "no/y4P8fOY0GL2djnfYJKYrQwvwMmHDa+9Z9MENCwedbYaslt+mqjTwJnZ8YzEAKqhw/2JZkSjts";
+        sout << "wWHPZaEbihIr5DIFlnDr/O0quF4lzVouORvY9zxjRdkkEpmhDO1OaD/s3ohiDJqeivJZNXCtuRxP";
+        sout << "iVIL2DHrAKJ/4L5LAN28+6dZ3V7PfuaSjLEUPxatwMkfDHUYLilRIYAjcshJzVdCQfJ+PpLOkh9O";
+        sout << "OfO3eQGGT+vfcevowyaCRQd4RErjy1DvIX99SoyRS7GhttATMzpvAc4bxT5OvQ14uJI/h1gJiAN5";
+        sout << "5TDB49+/PKYFGaB1kfOjISEujZbditjGcy/YbydM0R8sIYQdpCO0f5zUn8Y1xd31zz954xKWbz58";
+        sout << "F1w3sQZ1Kc8Gfs23JwsOWgpypbp+X2Y9sWFUH3JfJW7DZTpo1PGdYFtoDL5eAjv5oQUKloxUsl4C";
+        sout << "TGfK6nTvXxb01E3cek6FuFxNURAnfm0aAhtv230tmZOhSs4LjeeErnElP03ieb+fxD/BS/qRG31X";
+        sout << "pophLzTgNzn3wilCUZImE2jiLy2pjbS6dQrytvexlEQ2URFS9iXqZExJLx7iHHpHDv5uj4JiAnKq";
+        sout << "ZAEUqrVSIuvf8STCk/TycE2+GxSL4Uhakt0nreMutYN0dhgZmCjiI40SSoZCoypcshOo8fsEOLhx";
+        sout << "/CHQqra269N8tAyFAWd3/wFFtViRdzm4XlBdSiioaZ+TzYcefyui7i6N7Uiwm+0/CQhrvgSbLyYh";
+        sout << "7D+l6y6LCbeUpWmE458CWapKWTzbzPG3GQx3tSAzedSBhEQf/vHPVNKae48NUv/DVGciNt8ZdhMw";
+        sout << "67V2lcAZkO8a6vNBMUms7XEVrt+1aBWTqN928QN36D/KAbRWpf/2q3MEnpeh6q8Igf7VvnBH3hza";
+        sout << "NImMnA8ARDhVmvGjNTVAAwhS+bZ6wU2L+X6XB32exA68cBEI9ttMoO0W9ohTOHo9w38KAWpbc94q";
+        sout << "Lrxo1hckWewBBqfKS1CXUnObrQmcCMeScHIhoESomkAh3x+cVgVnw8evDZzP70V1wlT7KbqSxmp+";
+        sout << "jpR1wgK7KaxyTYx8Kisp7r0M2Z6J3hxYCNlF3/NQOUJN/PJLc4ryVCGy7gJPCU8P5PXrmzwSuUu2";
+        sout << "WF0TANCwhnP5KGiDx1AdZK3/MKCWmegtfypubhEdSOSqwS2dlTTndFD0Q0irf90ZlEE3QEIZIX2P";
+        sout << "ZI6IP9y+RgXCuWhtclBJx504x8fb0r58FsEh8aPzC4D6gD3qeMwOE4d/OX5iTrQnqCpgK4XsV2KD";
+        sout << "/WFNlZ1eplQbXYiiKpwT2zZsZzjAlfZ1H58J1ct2Uf3vfYwlCiObj7aT4NRKYnM7VKqLE9LKOYab";
+        sout << "IIRDxRcBP2PmqYaYodH3ThVjY+Nn9uL97HLq4LnHiWc8rXggmK03/TKliUawlS2C3qPuZKTi+5Ad";
+        sout << "Jk4GLFiVchXChvJ0Kehm71f7OKMIi/mZ6utiKNnUpGDz+NKvG3yp+kZx6nwQixHbbJlbko6crx7w";
+        sout << "t8Zp4mRfcR3l5TJymW7FiqXOdQN3YEL3jjmdqQ7e41mUdMGjgeklaZQH10dGZ7bjVyYIKScOetHI";
+        sout << "TZYBm5PdluilGSbJ0Uhhnt1fRJtfFY0u86MmG7y7VBvWZ7BXKyUGrPlznXKwlqG9aZ1raT2Mmomv";
+        sout << "oxhi+U0C9fej+wHfGZVDyh+i7nyX+tNNe4KvZlvc1Xm28wSx4QwZ73KW+ynrYpqGCK4nyEQ6o3+p";
+        sout << "fRSrJ9+/++xzxlkc7MsWwtSBmkE9AsB54b079nWtKea0ECue20HGsfukdUZmmqO0ZAsAjxhtC0/F";
+        sout << "LGNCaGA+Zv/0YEF73Hp5ByQUEqXdJMH29/uUuNkNrVw8iq1m+FARL1L9Ajc6dMMvbZXVVjTzUlme";
+        sout << "EZ34/9a5kLwRLN3qBUt6bwDSZjm103B9Ygw2yxXJb2FnfdkhQvoR7lx7w9xmmr7YYt0L+UHI/bLo";
+        sout << "yTsdg+2AS3KmzkICSTfP99e+U6uai9Is7xYWNPQ1FJ7qkrWdRpW3WKIkBE4RwC0qCib034/dQjrY";
+        sout << "BO+fWbspfdqU0mchgYyxnaDU0bN0fwHd6WOooaqkllSdf6W9e5aUYWDse8Vt9lo+iQoTyytoWVo7";
+        sout << "63sxCymj6P/dc3PQ84DDagvr4SfKLbYGobLxnXoopbXlhJ672kbs0rITseKx5xoVEIDqo9fprmM6";
+        sout << "7KB7PAPet/4SrFpKscliUXWIxRiw7KPHYzwqg8i+iZagmVMocotnFtPTCD1xYHCPZjrhlF1CxZmP";
+        sout << "0/pXP+15KMKHJluPduF6W/LkUNrQ1IJN2hqTsl5FwDv9bzhp4LtkNbsbZv2gA7/vJIHiB3btX2tg";
+        sout << "27g3rvuhGNk3U5MuWLWlT2HY0oiRkFhxBYWjP1MI1/Hc+MPT3QAdAlPp9mSPgByFY3yJ4XWqy5Lw";
+        sout << "eSsDUxYk26cKrFO3QPAam1JMStYUrEaXGckFLV7kqNsfUfCbIJno45XNMylNOuAtgVHNAbQYzQTn";
+        sout << "5LQMpl97ll+5OfqqOR2aWEP+RUue55dgERWRBZH0yLtP69GTYFffpOVZnEXoyv5pJI/SPASxofWt";
+        sout << "fYVHdhdbfvy2xkQvg/5wgOXEBZWFujkxDmbtPG3FU3/UTA406GpZsRilwDsEcyxkQ3IX7lM9iVx7";
+        sout << "WlmugbFAhi52IILozdIliZGWN1leeaVBELkwznpo+zDcEamUPJMpCAaj/RtBXYz63rqjJZ8xhHlc";
+        sout << "mUP9ECb4acsE1i7e0vX0Qej8wgyGsaSfVPdAHV74FT1agtIagzpL+hDrALQ1sX+bheYaiCxhztqa";
+        sout << "HrBQG/vtodb7ABaybo0pHX0YQ/8XCi+yxaYewl1iagAPOzYOYY1eEpw1IG78/doxr89fHpi2bvrR";
+        sout << "WmIlgjUOT3BX1OcLXCq3fVNiQ/JTBX/kgPcLhD4W+GywcV0P5E8n82xVel0P/nKwca2YdHa9A2XO";
+        sout << "yHXaMrXax1sn5PqobEqf96DFS8LkiueThxpFtcV12RscyL+tNzEL6SP2mTmnn36SfxhKRFar4LPw";
+        sout << "b5NyutyXoUlvZ0xbQQ6r94TlSThjV8/BFqjqd/UQD56+GZVWH1bBBrd6DA5ktchYYY1UwrLZ79ud";
+        sout << "1z10elvHy/NUAkJYvsGFIydc7b7J/5b3ev2CRNcqBXWlxfcAr9dSeB6MgLHSmhLKln5NSOChzKl7";
+        sout << "cxI8SVst0OMfaLqsG80Pb8vFqbugTh98HafuiG4/8jY7ZK1ChBS054PqImLQ89zEp29TJmGVsC0Z";
+        sout << "0lLRcikxw+8kpGP6SKIf2uAbMR77RX9//yYkpmLWetHnQ/fAHou637J3kWMwuxC2PtCpnurhG4d2";
+        sout << "ACDIN8PaWOmPcdWXHgAj2mgQdlXu5Pbo/RA6Evogx3udHxBkAECvWAx3nkQCqPBZc6Rlw1DHC3NZ";
+        sout << "//zy4zNYqlw9s+z5byg0rCkasnI6K7AvEW9xUh5QMeGN1Of11FTa5rMke+uheLxXZuCIRzsZp8ee";
+        sout << "ZaQ5WGyj5/d7k7rcdDdXlA2JFuP36I07RPF5x0NLnpcQBFNc+5jWm5XXOUCjQgs8DQHA+L1aJKVV";
+        sout << "JTVnTet2oydKG+wc4601eul2oNLRlSVeUJDBjydf48NLAvzDRX9tBoSFU0cwG6rgX4E0uM0l9G/7";
+        sout << "OtzqUFW0E2Uf8YYkrm+a3AmC3QPJsUYI2ZE/ttID3bj8gHiJ8oxFsbUDpzR8MoqJcKeFH7UktiZ8";
+        sout << "AUyx8i52UtRLM3zItoQky7xhs+w84qGr5xC5iOjyvUbWEtz/Ri1o8wysbTnBkmaIIGdHhsXlTp6h";
+        sout << "DxJG2ZUqNKi0xESkD4nIrllgg2MsTAPlkDNtunlI7aQrHokL1uUrHgjb3lSdIIKKGhjw/xRFXahE";
+        sout << "bMKOFXueOXldqwS98TxHSULmf0lhyJJ2X0Mx1WLwCG/erjqP07kK2/SCZy5CsObeYd9OnlIZ4Pxx";
+        sout << "v18VlK/vSsLqP5MB0hzx8mMarxegk1PMwUOQknO+1g2IQ8vtmPCCbXuNc4+6aQCXSvS0i2s7cBIg";
+        sout << "LHm8bCO7DRx3RcBpSgH2cdd7UZY/8F0bgkEGYtlN9DsOO/JD7dmz11dH/s3ElX95RnhlOKBIbkSl";
+        sout << "Gi3q8NheetdpHQFe0QKb5q8oCLtWZ2VEzxo3SEF/HMASirSI6HA/mQ5t0zl8PPYipFOBauGMkFWO";
+        sout << "QFc14V1t+ukyeuVnbf9t0weBPxE7xM6rqpn0EPhqk1U40iwy8n8ed8ci0VDV4CPr+SJWku+2voji";
+        sout << "jD+CVSdoCwIsWDesba7O+vEp247pGVwERlYSArWLiOxRYPhpVKpiOsQGa4UMn1Yh+3+jUOte40OM";
+        sout << "/CBW6WKZNfPSkBb153Tint3IWhcs83OIO4wW7WBJCYpLj1ub7NxnsTtSAodzfdot7dKdDgcT9JO+";
+        sout << "62WjxBRYZQBqA1G351CaKPJSeXGExYsagOaNmWCi/yNaNoGigYn+JMifBZjxCL6zs6av4p9XkjiG";
+        sout << "JBjqYtogaDjTH6ZDsqw87I5ytpkFq1rk2Q3ml6pMzPYM+3CacoT6lCrkI5/KwApH3QfNlc7pXxUN";
+        sout << "Op+AFt5GnaJvEFCd4m3s3qvRtKvhL+RBB+3Wc7bKBkTfdGYaIjT1x5Xtii6yRNrFIHChVjNI0n5f";
+        sout << "D1fp8+2KsdCvXVL4QmJRi8EPyKkGcB9SzENIS0ljzK+VaLzJGZxrUVQEW95hJ/4wPE1TYC4/+rG2";
+        sout << "QCuWmjES+8CkHEgalY6uwoXfn+yR/gpgAxS5flSJaWBiTA0cAA==";
+        return sout.str();
+    }
+
+    // Returns compressed general knowledge paragraphs data
+    // Decompressed format: DELIMITED_TEXT (paragraphs separated by @@)
+    inline std::string get_general_knowledge_compressed()
+    {
+        std::ostringstream sout;
+        sout << "V04ADFToOuH+JQVlcftY5f4XwipuwRELvzAuVcyJxMdtW1U6PBDhiOkEG2r3Xh+ZME5In87VGIbr";
+        sout << "1bLm0DwQ0ERtCn7vvOWqbH5OE/yws77GDo7K3dp/iNCbAXPp3oeXrQbntjpIid79YOSvgx+GyCCh";
+        sout << "kkUe9XtxfS0AJe5Bosxpfh2Xa3sC3qmB/orWZQMRuaFletOdQctNvioS8I7T2PcqoVOcZz2+VUNy";
+        sout << "RLg6ln2nBVitdt3g/T91FO/wCSl66tu+bR1QKEt1zfP4k4BDtjO5gMyvNcVTLFBp5csEoGRybTaY";
+        sout << "JLI0L+CEA3VuPMfW1wEoTAYuBzrqcz1V94/jjiZK35HXGmGvHtItSObORGDvMhaxmsCodZe6TQ//";
+        sout << "rt29h5ObEKQ6cvE1uCpJNS72nWIDF7V6ixpdXbugIg0ilDLnyKJ8Q8f3cYjVZ3ZKCaBvJJg/os+z";
+        sout << "r0edoHS1jqgt2WOCf2T0unaYUrhU6yd6rqivCYMJagq51wug2L04sx0Tn/W5Xf8gTqgxr/NYxGXq";
+        sout << "9MMr31S4kcWDNCJM3SsgUwYkgxj/y5q9tlj/Qx46Fa+xQ4GA++pz+W9dTq4T29G6QPLJWUIHr9jI";
+        sout << "lIMoms+Oaj3EZdFl1T5QSG0/9r7gMzWYW4f+J4rjK/+xScHu+JacxQNdEo5v6t40nx8UdXYbcRJT";
+        sout << "HVoiF7Bwcs/z+xLeDfyEG8k7BpZApXqFwyj3qq+MWpogRT03j7sSN21Wmo6ZaKhmsU2WCok9Pccg";
+        sout << "A7ej2Xh9QrAzdrtY600L2MPAx9+1FL9Dkn9IivrNS500xLDrg67i0hzKaKf83Lkay1c1L4seTJtZ";
+        sout << "WrnfDSaHFsCel/l8kDgTbJJShrg8YmaoepyCjBc7MizVZ9Y7kR3n6NH/4DbWLlRLlUh8vJDB5OQo";
+        sout << "pbxgg6Q2h0OrBgd3MPav1WBsytfDk099/cd8mf6/3SyYQDCYkuESJtJh3ONyyKrVtVLiLT7W7czh";
+        sout << "oJ4r0TVxiq7UpYlp66k2GWtscm0V1qHWnIOyf5jYuH9irHPKOqECgCdRRUd4ioatfdzJQauS+bf4";
+        sout << "kJLo+M2PLMU7qYoHs6wUOwKsKUBAgAu4rOh22hgbhIawDJd9LyfxvcDg7MBKmLfVSZ1kaSzbllAp";
+        sout << "9xQMWWufhcRJAMW44tONKEbBw9QYu5ccJxGcnI/Nj9m3hk2X1BHSFPiWw/9fvT7u6T296XOg4bes";
+        sout << "f9T2tkgbbC4RgjBMdIe8Tm3f6r5d1uBCkUIR6HYjoiEuPesHXLHKqtCXALYyivKkAYP52fUU/KSo";
+        sout << "PhPv+dzS8W1KrnvQX7PILloosU7ITuj075EmD7rqjlsGmRXIFYpoDe1DVEAM7/jvVKQ+Hx+coEzZ";
+        sout << "93Hl3mAjNQ86Ib4+sTyXcR7WNo+UCVdUOe1+RdAKGZ4fdpv+bEgmBhhDVXTXVKhOwBx5nhMUeCpJ";
+        sout << "KUy1N78Ob7NuucKXf2Ipr6HdB/eetHJ92Nrp+VsC5NmhtJ1QbhKdYQaEfI+HvOBUvsFAhWOH8TP3";
+        sout << "t4x6yCQyGVdK9CFLA7S7xQAIDhsQ50VR7AzsqlPT4LuN3c+OY8ti2E6L1bA6ieXhwgx7FNl65IK9";
+        sout << "iOgZfQOKWsdQ8FzkAnHdRIgzu2bZnWguNDuZdANtzaFAin9c0VnErpUXEuN5x6e9EFtUROSd0C4q";
+        sout << "bbeYnBnu4As5LaUDxsHzTayRfIOBCR9Lot8pa5arHxOVDXg/Q65b65ZfyIpoSox6u+fA9Kbh7yIY";
+        sout << "Jww7j2yZAHLebpYHQEpDvgBX54UxmT7BDnTpBhAdjG/bVoBfuXFmuMPFGnyv7HTxvnaUIzq/ab+S";
+        sout << "VW1pd/u2zxvASDVH7SkqlHM2YdiBCNEOFDiR1Cy4HPEvJYzzlem+pWyuOH6yNRymtPkWkLEA1Jpp";
+        sout << "3xRLgoElavT22GUewvbLjKq09wuSdYiK22R5fuOhiCux2Qi4PgovHazZnimDkb8qZu/dmJdrURU3";
+        sout << "OowaIW28bYlP1ZqQLE5tFfN3Ivk/VJ98dnzV1UWL2+210R4ohhVGLPfPpqk1RjIHz5I0is2ypSFy";
+        sout << "tI5ySaBr0vrtizAQvwGvH3h9draRlyfOXDqMXYYBoJWA7eh29ltcGvaSO0BBEklVUZOIeXy+ZnF+";
+        sout << "NJ8s6Z4XnteKrTsuajetUtt16XNSGXtws9KDGVR1YPYP889tvMk7ClpWwxonMmNwT/U01dxpV7WU";
+        sout << "0e34ehTCM+XGRGrpnjfiw5wZOj8r445gX81p6mIvzXHDNiKs+C8O3txq/98zw1nYmYK3KV776vDl";
+        sout << "ovuTcaxbEo3AJ+i8Vek6DoDo+ZJNHccacmnB+uDvbIH/373mX6QBeYV+JGSIEyQ/BrgfpGLZcTXz";
+        sout << "beI0Ri4+Yhjt5XjL7K62CS3arm18HNOWbm0eIxeOH8h+OhCNfUxsLRIE8NlyDFG0slsxOfCadsBv";
+        sout << "35jet7xCFHZuYG/2jnU++pzPeBkmcJXyIP0fkOjNTJLZluYkLt93NIklfYnpP9Ll3qT+V058S2Rz";
+        sout << "ffa35SALy6hpQUnrMVbyOolQ2Sf9vhzhznNzIJL1d1F9wV7cJm72d4Ax7nDS97t8vemZym/Wu+Z+";
+        sout << "Go7EBx5FepQZJgT13HYHhdh/bQQPfB6oRqgEKqryx0CaZMqTnzW1/PxfLdoDkzP9uY9hJx3y7hEh";
+        sout << "VwrQpq5KHUZVnJ4kIzjS5bpU7Du+eLcHcDevTAb3RJhGDPidp1LttsERcO1TWT6Ikw7ZQR9LpuBm";
+        sout << "f26pp77Cm/r3RaZyWDXGm3N2glBXnjShEZ5nkdYIojuOSFn3qcXTiumbC3UegcH4BqDx5V9JdS6c";
+        sout << "NNadkfNn/9tLVjqKXQBLHwi7ogPfkc4ysB6Aal8UGGFNwGgkxZ91rsqsKTvYufdSvzV246QZayW1";
+        sout << "uzxxPpnL2b92Jw7tLTeNKuSenCJBj0H1ynCa0lOYoQ8tF29h0J8hZqJwpnDAbau/pNna+IXZDzZH";
+        sout << "YYOOmjgZlvgEmQRiPQHo5snIAFERTfb4yVIiNeaANHWEYocTiNYtTJC+c0Z44BbKqZ2aDAy8b8/S";
+        sout << "+dYievINB+jip4Ureb97LtOGImvGhOvLQIRG7QxIaU+XizJw8xGLEkQ1CRXa53PXBAR6MDI2Jt4R";
+        sout << "af7cGTNi+y8vgNi8fVUn+Q7IYn9bAD0EhOAukb4ICXU94bLFSN3TlHSJ8A1sL6kARmLP5dXOC6yo";
+        sout << "h9/B/VzoUJLEsDQ1eQpdBtHWXsXCdAQ/B+54v6z/zxsQBr0h9qTVzbYC9t7KTKE+Rz0QwblY8dp6";
+        sout << "9Ytvn3evyEcoV+y6Fov76OYd3oxbX5UnTPpI5F97P9yNf8VlKwsc4PxjK9eKFI3uSWBBf4nAKqTP";
+        sout << "eMvpmp7siu0pyD5ViY4F+BRDROpK57zNqZqVCbEGbzk/DemaJqvJfyspVL8Na/u6aCmVfIik6Vke";
+        sout << "loxVdIUAGjJyXUuHT8Y8QagKxM+OosCFw+KXlL9+TRFiiMBxE0TbrD+4lV1P3OasSMeLcF/IJvld";
+        sout << "sA7qWvoW7b9E6amLO19uDt8WQMWQmO/0iPX8AgkJIjPpHlzdAq98k94Ux9rvEj9TIcDLo0/oQS2x";
+        sout << "PbSTLEInN0PZfw7KfiMTiGrMiC2mXVOXKxSaKHum5LmNp4b40ThhLYgjxkUt8h8ZdQZtCqJb2t0V";
+        sout << "Fx+7ON5Uup8jlfJJ0YBdxpXCUD26VzcgxpdWiw89nbfOHNgqNp+rR9i22GAaLSLvsRmtQGnl1Roi";
+        sout << "LGElY0eJ08+sXZLE7TmKhU1uESOYtpjuXISLi30b5L4FOUBH8iA8XJDvP9RnyMuLn89DgVgTIvUG";
+        sout << "7vD5HhkVSqYTfyW5+1yTJU8Vl2oYcTha1Yguj7cDg70ZhuCsiX8lDAzgVCX7WwoI6DsnZaiRef9N";
+        sout << "shroRnqXYuKaf/VV6nYfFawXVcwZzFaWIyv7BPqVRpBwMZZvsL0PrPvS9TiKodEN2grd62/4Ikrz";
+        sout << "9DSnPueIweYLPP2RaYWC+abiW+wteNYBrgPvrIWUEdnmvDIfUpXBN3a9cYgPd4CW1k0kzeDhnV0Q";
+        sout << "Ef9OC2/u0Srpl4j5Zij9gyW+KUCxmOkOz9b6FIhBUxCYvV+CH/NPJScqwApUV7az+7L7FfwAwkcv";
+        sout << "DrVcRsg8jywhhJ3pIwxIdAG6Uemft6e8rLJs70EkAMBjpo+g0sXt3yYdKqydqbWiSopDG5vi5dBP";
+        sout << "ATDrugHfFG8trJIJ6/AmRBkrIKFCebOEAVRB1+5vgWhpMMGH8PHU9r1BAHERP8gz7cv6DDzTZ7t5";
+        sout << "rX0E2xUTG2GZgn+9IUOsWefsI1GU1yOKmbL/D9Xxoxgb73ISuLufbPSZ4c/gnEGiQmv2k6LxcKkH";
+        sout << "85eYdWVpmXJQ5k+wx3IM4nzMg2tiH7WIROtBB+mWwkThFrses9pmMSsHgAbaysovz6LCtwEnG/2m";
+        sout << "UW2vijonbTtz5olPLi3DVtr7b6QIDIHaabzkpHC2g6fN+h/vuZzhOuFa8wcttdGIAJ41btBnj6Bh";
+        sout << "OtoBsX5Xr5xoyQFGG4VJnR648uw5Fk6EljFlvr36d0Ci7nr2N19NPJ9BFdW3+3TkFTLXEEo926cd";
+        sout << "0AEF/QwDHupz2kPY9tP6PRqEIAckrvHQ6g3Yq8ZDf1ocaQgujrnSwnsvP9imj1M6K6OgGRIr7pv4";
+        sout << "ocNAfilnN/ph2N5qAOLE8mW2lcDbCguT7KSjmntY9oqBmY4/Gx8If5RACP3pwjrvx1Ee4rnG3kWJ";
+        sout << "kEmb8GMEMKBEbWgXfvpp9lxfUxb0PKiCHLCdQkdhAVx2gHK2s4Gjpswg82uy/bG9bYbEfAnM+oCc";
+        sout << "XUwmAJQPupFVvnLC+8N9uJIqaOu0Zi3Fj2Uc3N2mLkZbtIxsViPL1gIA/AbWyMxZBGlV+Z1wcyte";
+        sout << "1kYGsDfsRp/1wrdQwLmINT7g4EzsVFOce97u8LHxYYhTlIzI4Fmhcodi4B4xpPWAOi14CyfbYm3Z";
+        sout << "w9cGuCSUP7ILsqm94LrjWfX8I07SngK4baEAuTK1h3Tab/bs17QL9CSz8YEWtVPAqP7sQ4K3jRpY";
+        sout << "FtwzsWveWN11jsi1nb/tv966vNOlZiJTAE3A0wxVSbdsdcUwO3cYMfE/iMBcqWv2fw8sOCcowoxH";
+        sout << "8RmZ8hZ5Ejt9xddi3XT1HxDpDwakO3W28lMugNEKthtFL1PwzaqZI8Efm8X1mDmFDUZ9CIo45ECg";
+        sout << "JRaT+yDvNIrm7/LWFcttc54ywR2fq3qxluyPbasFtxL7PFasJjljEv9RFCdGDKFsuSL+imYKAB84";
+        sout << "Nv3YXUbVtesgO2nP77D/scb69XxzagHDGFJ91bCQXZ7b0yNekMaX17MpHXn3rPgUiNvl0u0X+orX";
+        sout << "N7o5G89/Ir/wO6Hxjpqp98ZAc35Fz3hCgUYvK3ABR/x/A2uROcVbggno7TfRlGmy34xSWPKuKCVL";
+        sout << "WKStSJnQQcDKj5GlstsjhpRbeCo29N5a5CHTqXOqXaf816pz5CpyC2A/6vUSSPFeWYTsboCr2dGY";
+        sout << "2dGKCye2+BbR/Gvc0hhzTllr9yliXSNC7ulU8X56UWNWT029Fqrc8Ny9UNQIwb52GQdfnYthmzZg";
+        sout << "FQNb4wYQ66zf/8jxbFH2qR5RhTaMKUWk1uWDXg5lKsXv19tJA0E4R5GWluHUJoISdjueMm/hPkqo";
+        sout << "PqkFs72nRnI4oTPNhHTdgq5Wujqg9GI/qhY3Nu6Xg+7K97vVT5n8duI6a2kyfY1KeItGcUSf7qBX";
+        sout << "3txc9SkusQBUyF7/3ZOwoi3b3eXw08CuqxtcDMXo0ll/K33C2pg4uJgSI802jAcbcVV/PQcQfpSu";
+        sout << "mN3ApnHSInZPyro5KiDVgDIyVNSD2P9x5kWkrKVx+etTOq5sPcm8FFb06i8+3ti+gNXRGg7mBa4a";
+        sout << "ojK+IHN5UpMb+Q5yQYi+CSkBr6Dza2G/NxUfSqLAJUNJWxUWpx6AsKasxPDcPH1dcR/hyXlpn+d9";
+        sout << "ipRkwh6P61kPFokHr5lq1Q3zXg+yXgurDkUCO4JQw+cB3INEfeFanJiRkryORT+WKtpu0x1ISrYz";
+        sout << "vaCflFf1ru1cTr3WR2lNtJcfrDb3fovWwnd5hzd81CThNwy3wYv2+OSoNIjeG4WJ+5e2RCP1kr9A";
+        sout << "E8AlUBXun+bb5rZmAcR/e5z2eIoTz59FaqM3le5UA1/MUKa5RMFlP/lmClbSzluMgo3FoaudaV+T";
+        sout << "S71l+tYYWXvBcfDPNETLnZXFbiPJTmPojfOxyvFGGIdMn1osllrepdkf1JjFcMNjFQsLUzCH97H9";
+        sout << "HuMzG2/Go6jDtMHKjwN+99kfv0Ob5V1xT8f3AmLUXVgXS/kOFsdQCojx+3x3P0kfcDKoGFYWGrQm";
+        sout << "7q+Zd2pDE7kOZEC7OKKJkgQsximwo+PAnkn0tyCYoiOy6MzZm40sLJjARQ42Wc3vIphaJR3RNqV6";
+        sout << "1MqdF/RJBcYVwB7quKysPJVwiu3oH85/ERhU+bOzKk0tyAdZMx4v26mxYJfZrHm8B/OosTkK1IjL";
+        sout << "QZ3hkOFoYVDSziz5YHJ/i1cKY8PxSJFTGbPX/WOnzK626wFo3fGIklFRDkWJfzGrKXZLlpOetu3f";
+        sout << "wSWGi9vm1r/TLCtlskMGjHZfT15M1LU3KhWDchetew00bhPfXBqswcnJVjJ4MXe4/Qg4vfcdTwbH";
+        sout << "SwOWpy3UJ0SexNO8iqEY4T7Ci8H2KVyl+XFk2OdoVw9V788QojGjYHSRt3zXE3QrPcSw3mLGaJyA";
+        sout << "MQe3o0fk3LWBbJxUeE3XuP7EOw6LjIczqcwgzWLMMc2AKM+tMYWAWLLfyf5ffpSP+DpN6T/b55pl";
+        sout << "HqenibQK6VWeBZcaDhCfJUifP0B6u/PALYXfS2bgQu3oVnp8bYov9dlH2t42NU7yQBKTqM3iO3RV";
+        sout << "Cv1uE5vn/JZ6f/mlbKsPAPkh7b3tuyl19LBdYscUTUDqe4cUuEP99Qoj13J3Cf2Vm+svpH7FncjA";
+        sout << "zHu2LWEOi0K/+o1Y1YkoAv6qgXywLLR6PNEWbsvrMs214IL+CpqQDBJv21XccwPegyx3xZFA5PjT";
+        sout << "rVXPvkBjWrXWCysrlEY8kZq5AyVLoOMi/2arT8Cszc9lWojaO0BHQ45I4LLFKSmx2GoLGox8EQ8z";
+        sout << "8KD8G7qYpvbujhTDZAbIoL8QtRSUOOFBXRU5YuiKT3UinsAKfilJuQx2Jmt4ytfVPW/zv2+a/7H3";
+        sout << "1zaa1MHAt6aBOwlrYHk3IvomHyDWljxU7AzAUEGUgaDR5qpDCba/p81caa9g3oN3E20h1oooLKzn";
+        sout << "C9sSp6XItnqO/NYS9vhioLL12VJRlUQukTkmxtPiVg6GE4I3Kbja/M3mY6yZj5DEv+fHmOD9cOKd";
+        sout << "045c1vFFRkRa8BdpIVJ0KRv+zpt4UwdlMcrWhPTlx8RiYqRgjPJFYBKSplO7E5KD9XlBiTCGUMP2";
+        sout << "UqsILfM6JuuYO97JnjNp3nWbsz5nluUKarrPNbibX6J27sKzjEM4xQdvfAmMSgtG0ktU4dRSlTpR";
+        sout << "ipUjDOJt5nt+jlTm2GjW8yTL21qt+V9UEhoGhuZ91nu2Gi0EcDCCMW9OkS++RZycT8MJLLqN068s";
+        sout << "tXLwbj1y7qeQ3VjzwJh1A2jIjd3J1yhDD767EBs81cggfAZ0w/kOa59cBto20nRzUegqGpR0SXEc";
+        sout << "jycQ9eD3YhZs6uFFBEe+OmseCLBewzQUEG0A028rY2RWav8NwUjc8fX/Sn7DyXAHRXKPGdYU+7Jl";
+        sout << "JxX6BmG18jeG45YAwPOticzAdZJ5hbpslqPronrD700neYcwub47ajG7JG4db21T2ctTzp63LBQL";
+        sout << "hZkz0zhezCSL8C9Ld/C5SlrB3NnAUbcCQ2g5xp/nOslhO4XAc1ziSHY11mWUDf4HeFyj5Dgh088m";
+        sout << "Fm2HWx66ewDOIeZF0dMUhaukhO0rEGamKErSC1Gndw3KzbBxbWZhD5j8KYC5iqr/u6Uhiv1scDxy";
+        sout << "Qcpe+Qdk1h8fK1+trvt2B9yXXQVtc2LYam7Trd51SkoxAYaMQ5wA8Wse+XPTG15RQhzS/yeO5ZqF";
+        sout << "whb9nbqwUfhq7SWl1vavdBqWpnLifXFKtBPSmVfsnYpYlZTuMGwq1VfSNcPq4q5ktfn71ZOtZNHJ";
+        sout << "Ru/WKbx1jfXOib7uUCpoLaMUY9w8oudwGuU8Gh0JOiqyYb0Trwmn97/kl72F0pgz6GS0tGrsQSxx";
+        sout << "2leUoYwLfYscZu7N8C5EI9JZrC0uWyeBUW5y3w0Ti9+hDi1Cr4t/C0dOAd7bkJvyIi4oE/iMmTei";
+        sout << "/0IdYyupWHhDtGAmikw5Hhjop6jAxxxckH/iIo7Vetf3gg/RMHxIvmaOmIDCZ/pRDk1ibmU+X8ff";
+        sout << "bj+rSbQXBadyt6HW6xpw7JsnKGLy6qwJPTK2ygbH2VqkZLn/6U6uQLG/wHKrHz03Yd+MaTU22ZU2";
+        sout << "msnkHfTfAXLe4dAqK1GTnl62IuKaUrAut/r4dJH+ZtvVwdZIqs7LbdRMPiXRstwxmtQZaqQFdm6E";
+        sout << "7xeDJtmEeZ9ybZ8T1wqamEkFzQeDHrr9CFhyDhNh7q3Fm9l8sPlfVnM6ZnCBlFvEWxJXCf2h8zSD";
+        sout << "rNyQeAeWmDK9LNNLnQ7opJyGFwO/SiXU3FW/doWPNGIQ7uDlXmjkzI2G50rMwICbEIuoz64N4QOo";
+        sout << "Nx5VHQcacQB9JRVdQXcjvYBPRX5DOlrZPZqKfrVpvOBo0/QSUY1GonOcpSE+Tv2hmtz5EbRmT2K9";
+        sout << "MyrDnkPZOxs9/svdlGzFMkOEb6QJWWj15rGzGouuC206RXvrPFGoWq6KZTQN3/Doba75UPAksg4w";
+        sout << "AbFeLyymHgPlQXYcXPm6cXadtc7Z2QlCk2xkzjwouV96Xuj0W0uyDMs2AxJsxgBvAoRB8I7GNDz4";
+        sout << "N/4FXsQA/8cfssvSFw4a6N+N4RC3ej0VJ/ruTT8QvXJmhusXI+VON1Cojuz8wq9ocEM7pWncmgzr";
+        sout << "wY+Si4UqRtzTM57JjsYyf85ZprC0EzDL/jZEeAmcOXm4n6HiQe2GamT1nGByYdjioY20RANGc7yV";
+        sout << "MLw+qhDuE0bCck91pvXjaioZ5h06bQqaFz5zzaLgiBq721VlP2rXDYs1buKKI27fFogh9axjkuq5";
+        sout << "9cl4Gf7U238Fcr/6d8y896Ba1RJfWgu/sDXLCcdPi42F8J35au/Y32LsYuAGDm2VsjLY5bx3BFw8";
+        sout << "JuZfTeQ2ADI6OOMgnILETRNbX7aixGqPe+bGwsAtO5GIU86gBqivLky8YRlllnioWZ4o04bE2p/h";
+        sout << "6tp5MLbcds/1u/mi0oiiMWl+orXYYSRsGuuSFdqmOhLW9Qwo8P3sUu9FhmGbrQU3gw/I07K5DjWv";
+        sout << "KtnevhHx1ottDTW4YIGOtfKh/kdhJeF6DTszDAY4NzG7novsrq/oJWEbISIPcYcXV5S8C0HRr7oN";
+        sout << "vGxrK8xpM+JZycUhnHqL3An1sp9hUkERLN2CUVRKOi1839e1S90m2dWowPdsMEpHfStnjLimWil4";
+        sout << "Kin310zxMuDLn7MCtgmcWH1h2WSKFPaBKYstMmtIcEC+dRgJevCWwojQJZATEmfg1DYhPkx8o/Ms";
+        sout << "/SGJg3zwqxBjt9BGNBlYWJ2PyVVnqkiubn+hcfQbYu9IdBQAkuu1m4jP1ATMfyMykyrOLd5kVHOG";
+        sout << "yF4Aqutt7jhR2PZHmD6WO2jSYCeWLsdXNoCoLSs6FDuNLZrIq7pL4ATf25aoTi3HSrZhbDyje1gW";
+        sout << "B1DUNq3uGH4g6ZZ1w9Hr9CRffShgI1U9FGj2e6WAQM4DsrLu3A33d8CCVKqS0ExjVbRYzqnXyDMx";
+        sout << "o8AtJzP9o/cXaY4/EZYir5lIYFQ1fq/4evh9gZugNCJUAwImV2BpgChbZIYJiA4NIqboy+OMkEZp";
+        sout << "jWcQABXu9T7RYEKk/swHs5Yqjxz8MqS9tHxKQpjjblJeQ72BOmyX7f3RT+yG2Sm+crzkfeKaqDDC";
+        sout << "f10VRpJyZ6xNcVefyWkENhxVcjyvWv7nhW3MVJzORyBfp+Kqza2FHOZ8qiKQMQcQf0BwH8vnlQ7X";
+        sout << "Pz6ky8pUUFD6buqAejmrIm39kezdYnUj/jZFcwgNVMHg7cpJlC/3uRp7oqGtCdIHca9p6tJmLVxD";
+        sout << "+p4tJD0BkqUEBarG4UKT65+xCaBfkdbU72tEH308/aQl5PXL06hPvWnpVRt7Duf0u5DoP1D8d8Sy";
+        sout << "YpHLDf8gBlLD5S5l9cAfD8otK1qfvYTTW9p+vd96rEjPTgwJ0PAxJKNUICHkDcSeO1EPM2smg3kO";
+        sout << "mu4Y8rDUtKjB6K4iqpupOHTMuOXn8cShs1fcc3oLHoKhB32ZBcaVN5U0j/SxakMaWAQj4QXWOt7J";
+        sout << "l156WpE+EC7xDmkHf4F09ZJLNmo0siDXbBSZrewV9LZKbhKSxJBKOGHpCSqP/3P95XYccM+P3cSV";
+        sout << "EBALHPuCQQJL7kEQu8IMG/fsnsY5baXMA7cOmo0P3mOzniFr7jTBU5LLLGHcGnY1eDZlrbHja3ab";
+        sout << "rt39We9pbruCryZDIULAVAMGYoW6Zb16hNYNcARvn+31sn3sRlwNVB0Vbxr2Cfs/640i7Jz9ZWaH";
+        sout << "aWJDAwIp7kOaR6eYX+UQ7s68IYr9jVdxvOSLnkWde7v8qxEz3SO4dbGFOeDYfJ4P7AWFZCRfjceC";
+        sout << "sxL/cVMzWRlniKskFXG8vRDC4rBBWjNw6UpASVuDIvqVjQ0kmkU3566BmVbnyGj84Ki2d4EauwUH";
+        sout << "yGaJ+tWla5mmn7wHiH+6wJXP46URt20K43kMMcj6ON2s5vrHCLAey/G6fVDCGwj1mRxN27LkVrrP";
+        sout << "Qr436GR/hmQLKsDsOc4DZMrPZbT21qs/h+o0gcY6aqXzYtS1wPTZRNukaQ98aQ/yXe1JN9yY5iqD";
+        sout << "CigSRqGs3FrI4wtZr0kKqvLMVbADASBycQNloV8FxEX0oDs5TONvNVXvdOyPF/nETjLRcYtAb2PQ";
+        sout << "f9Ou5qAL89HQpjjES6Kh48vBJq+0tJQ5Sh8uh/ymX04Q2dLS0326LAECk5GnaV9Q23oD74fxIJw2";
+        sout << "WcLJGQpWm6Zml71+7Bsm9AUfBmQafnM5MsPRHzcA7dSTE3D7uXQLlA0rrlQnKB3XltrLMNIG0Cae";
+        sout << "5Fg1Eukg9M0861rwRzLXm2j27UrPKrAuvRffQMnCaLfMOBf2qgF8kaSHyGd1Bh/QcxBKGUt/qMvJ";
+        sout << "TegpH01jvS1tjz3L1P66fnyVhG6VyZME6t+SWi1aj+2uk02QYSDtAhcqJsuLno/L6msH+QuuAs45";
+        sout << "GE+B07hMP1GcKjSQrXzyDygwehkRrJqIV1egojHQyfME7ESzHdsUeijVznUr8YBwTfqb/68oVqPm";
+        sout << "wtl4t4s0PP2agzV43f0Xmq3wPuj/q06slSZs2S2W0o+2GIyrB8fbnP+RCgulcXh7krrSzaSJo/kb";
+        sout << "eJhAnivCyYBHMHmYSBA4bf5kllUSLg8hiWMFEokyitCS57kzx1bJIFGDJjaVXNL4g0+YILDu4Puc";
+        sout << "TJ4bzuiF9lBun+VYJ+79JstedxcYcFbk9Wu0/mkaCrewfkRvdoycu9urYfSjHvtEViedklHWINkB";
+        sout << "VxYN2/n+YWkMR098yrqCmUGZ0mqhix5QmhrePJJ1QuzePK68AEdjbs/0z85leQhhaQu/ILNOMs4X";
+        sout << "bICnIz93zrjwkCEP8pwkG2y+EUtxKLHbxmDU197WwouA8n/YrDQF8t9YWaoY2ywbs6ze5iYmErUk";
+        sout << "3wuJcMAAQaK70X76pEtNoB7UNvMHIdtW9UmqDqrOoy0BqtU6z1JCXk/RiyQ4UJLjMQlDKi8RZ+H1";
+        sout << "mf/m2rTSXSWJudzBKD4DS4p8BLfqUNubTzBJsI3/wAOQCuKKtC2GbFfZ/Hu2qEMPmeapDE850xnO";
+        sout << "g+Ei7dstnv67JAh54DfC5GCZB6WQJAUpjhx+CnRHVUCswsmuZsZxMIgkfwBPxP/VVsKXlkd/TIEQ";
+        sout << "5gncnRN6P9dfQxyGRr2Hkr6aRP7ZNAvLamleEDGRz4dvEOC0oQvWs/W4nncd/KdevCJU5Jzq3TUP";
+        sout << "CGWKkp9riRff4bVOcNuvqJx1AvU45lH2zo8PYpYRqu/v4cqt6egKVstG9O1qV/xuXvtXXW84Y/Ew";
+        sout << "CW9NjwqwmyJQS1hyEXZAKvZtMAt2ShOIAv00IY4WqYLIUJ+Oh5wSPRp/gonm5X8NzLoIGXzjnt4k";
+        sout << "wzaMhFa/JKwLnC2Ds6G0n1jYp3KcfKM+V5xiFwCB3dhuFfQaP9LTHmWKawUWIvdUvaq9Cwk98gjq";
+        sout << "YMRjUVKvDyfMUW4+d78AoGtUrinNVPttZ6weuklc+XiEAdOHOpDWkFZ2HievlgKwMBBXGlM+UOnI";
+        sout << "MOU/3rrTN/bVUFIdDGr/brsIX1F95MstQDGRmV85nUS08p7znnR8vtSlFpIePmG5O1GGJ+sukaDE";
+        sout << "tB5BePx6+PuyW1qwm0p0v9JqCAsl4sYnrxVjP8B2xfE1FaWI3yjTQfEX6ba3TLQGXriyK/CZdrd6";
+        sout << "v3UQEyf7xgednmxdgyZo0mcRzkEMyhwgWjXrfLeQy6Mft6eQa9lgze6uQTiFbhqM6Ioxivl5pszD";
+        sout << "YAG6emdXkXUkwCRJyo7vK64T6lCZPhaEDSROeh/oA3qhIu8Q8HWzLgwHlP4/O7Fr0EIgvLhg6A/f";
+        sout << "hpbLqG1PzI6gJfImXJYCrKXgsD4AQm4k4gd6DEWPi2nXzIG8lNtn5Pi4cVMhCQi2Exmh3rKUQcGY";
+        sout << "N71j7DmCsu0PsVd5c7hybeqsT1g3JlJ5IrKwZfJVo/Wb5ljkCqZtfTJS+BBZ+DVhRCrYyshjZUMj";
+        sout << "NOr01fGVK1d3j78i0+C0maz8HdjZNy+a9v23iCciICKXKRNvh9eBTxLN7u7xqdcShoHdz5ciW/Ec";
+        sout << "x+dJvlBnxmpq2TzpRY+tLx/xT9Epm6aLStLZ8+PE2VhhYnqoW7RnIIcwIvWFBJXixY8hi3OgKCzP";
+        sout << "wGUwl3z1G23DfUeh5Wc5Tz9HcPV34zjUmYKiCD2zrgQYznM23MQQ6WYuivw+SG9FyJFn8LNzaOP3";
+        sout << "ClouBdGreHaj4RR/8EVALPCj4iz3wJOEZS5dAZ/B5O0AYGSXYW21tLWwipyCdsosfiRf+yJpmfz4";
+        sout << "7mCH0gLEVcppiVqilmaxJzImcMzfcJR5PzPQcp1WgcTe35F8zUEB8+Ma03Ev9dGluBDy8C0VBsKc";
+        sout << "9/NMgKnKIs5kErMwlkE7j1CD/aP+XLjfpg7ZZVpvCga79wcv4dUyTVSngFmgmtjmB28U/+XY6oo1";
+        sout << "+/gLU50R0elJ7/fgh9UHxTPsJkkLKHte3JcP09z8W5xkRzgmOXCd3suyXrU9J2zhBQ9eMosCN+pE";
+        sout << "dBOnK+fUeUd3b9ciS52klwIIIHodl2Fa5uOcxVQMY/yGelwCXtzSKLFYURIWbMmoYhozyJzJGkxj";
+        sout << "/iLwzirss+Ah4xSI9KDpKbXMqVa/sTxnL7CdGG4fTRpGTN6NUYxc2KMGb4CjhPjoivw+kCLtStPw";
+        sout << "hHXJEBwcemAF2w3RGrpQ8F3kw3apoXWLN+lB8wC/9w51+yjPU7BgoH7FHJDNYhvqAkYqJyaANeGm";
+        sout << "Meii+FJAE0rH9vbVpG01Sx+wfW9eltIXVugJd2TQZIxKo2+5tBT6yBT/4M+qIbRe+PfOh0ZXEie4";
+        sout << "SZwN1hZCWx4l4RkLeAH9C6+x2t2voZupPdLe7bFCGqPJpcOk9sVwi9adwQ+YXgNMJXxXUZTr596v";
+        sout << "lGppHLQdWitoHdN656mvzsVJcDePVDYw/v+vlz8GZtBgVyRTwnDQ4cPdk+JL0R9bF5MKB5zZvIB+";
+        sout << "YNOF2koU53WF0J9LPooVKPwP0HHHU4cxqWtXh44rxsDuZ5jszvzdlyt2o0uyzJbfvNhc7RTF8o66";
+        sout << "aSf0YrgW0bytte2dc2rHy7nINrQiAjleSMgNjYE8OCDUgfmvcZ8rjAxa/lxdZR0a/NwKatjztvig";
+        sout << "XVxTNth6IqIPQz84KFVCripTeQQ4GPdCiB28o3Gf+e/qeWBu6BgoXYgS4zFiiDQTOkBqeQPu3MFw";
+        sout << "GLoyrILErYX33zPTtr+K/8k2GOIxqo/futwZoqKWQ2Cv3ZvkhVew0dpAHgr4/xHrO7HlENGVQW3+";
+        sout << "ow6NXLbSjJDwdKXov3Wf3991O3r9ypFAt2YYqIWDtzQdBJjZpmbXLgsPyk/nh0GnkfZyw6wFXVI2";
+        sout << "jjyPYT33prwg9Nz4szJiwY5RGikzXbU0VEi1SRlw8Em30eLuCdHfn/C8Yrux4TEsf0RB8wHnbtx7";
+        sout << "bsTuyMGoQ+uHmeUFmk7jglW/iWN/MgQultCjbYA1Hiu7O9sYoInjMYq8b4TwDDGXFqk+lCUOLLK1";
+        sout << "RDBmR7XMlrFE6IvUxU1RrbM84EzxiVV4Gkc4DZCDQxTe979G0Ubw1pbKMbOs9m8vEqR/dXd34pBC";
+        sout << "NheVzS1k74aGPZWkw+SocXe/Y4PlKlLdBjCNyGOXpBLMGFpqNYirdS8wEhHQJF/XxSs6RGS44OiK";
+        sout << "qryhSCuhLjen3pTGNTpml60BJmr5j6F3NR5CxTm4FKay7Y8+bxTDC/enJLkFNFvlkQe8SaZKzZO2";
+        sout << "D4WY61t8Ah29GbZ33QjlHS04fw42zyEBs018wtEXD5YuE3f8i+5dzZ12fRNLrXzTg91sP4NMFCF0";
+        sout << "+RGEAmT8T3PAuAYooIvurxXYcN0k3PyVOd13D25tYJz4r2maUAwmtB8JLZG6aKEHyccpojoPMVe+";
+        sout << "65hHQiF4cS/Y/D3K/SAqomY140jtzkBSF0gJiX1zCJ4s3jvDnI92F29rEI5jo3eqgS3Z/tKebHpk";
+        sout << "lFRvNadGMKQR2M3Pw5pqVdN82R1VJuwEGDRId8U2h1LNcFToSN7RXHYjMPVgt5Suo13ixXDlHmqM";
+        sout << "FvjoWBn+9Xdcn4dlNK9q4pbKenJfSka4dS+8J1HgKcHN96Bx7Oj5zgmZXpMPL6/Yo9oMnEzSoADX";
+        sout << "aqmeKRTCnKodjnPGmbPWja2CNtRSdFrcPQScWAsgSUyXfrfWLDEhWdGwVvecsG3AnUDXnStFr2bO";
+        sout << "EYZOs4BDML5yGpEraEQ3nCB3tsc9Gfsxn0GcHAaijjbDLimlXFoWRoI0bOdWPU4hWL27DvSaJ3oZ";
+        sout << "25f8iz3AzpEj3Q9g9SHzS4cv1M7aycEZr/hZQXCBwtGlixutotSp44QY9ZlPxbNwqeUrOxNVyaKx";
+        sout << "vBMsmyz1VMgWDyDEtlCnFWmzOyJyunKfXEGRmkRJFd8qjazkSwEdbKcOtP08c8qiJQuKyuAnSFZ4";
+        sout << "MWL4zfHBKx6xME9YOzViW6HeI0foAxjFXb/gUmiOnBVL1l4VrNPkLEQ94z+9ZOyDdn1t9VCLyCor";
+        sout << "ik8BouIwW42sAgI3rjR3x2vrQIj4dAUtCV/j7YJaPfpSbvgXJJE2bH24ERm1kRQUrml01a2WNLm/";
+        sout << "qa4VnebJS7HlWmFw9iS0a/GA7RmdUdpuY/H3LQQY0W7CxfVFRzGsfTe4KiONVjrLg9Iy4bIKXSTg";
+        sout << "MnI8LUlqbBDPt/S1BKfdq5PcGcExvxQwDfgo/jWS/2gGU8tnSkNUCRARyu2uxAb/uY8pB9VcN6fM";
+        sout << "ACEK9H7HXFlRBX/DmVxIcrliOMqnKDmb9UP8SkVr8ywqxJaeLtM/DTtvQYRjaLiGhjQGEA+UnyMV";
+        sout << "asOjWQzIs626QuCfGw5G2SuewYpORwHlMT0+2v5NH00CuwD8OJoPtk3SYLzCDTstM+RZvRQ5VmnE";
+        sout << "QqworcmzFOc6uczFijAyfZqK6CeDfRjwZkFCQtK/tBFH9YnkfKEACy19Sj56jVGHsXAfeu2CMP7L";
+        sout << "mDxNqNTaaOQjSNCi2E+GgYMKA0yl5JndAc+/t7+9W5vV223EOTzZQlwGNWOiquR91+6zE4dHW9sP";
+        sout << "31lMWXzCSasWuGpgoTR2NhgymFPWA7+mz3Jq7qRp8MU7c3yJ8Oz12YkRyZ+TnwGphVpA2mQ/1Yoo";
+        sout << "M4isVHL+tZpEEkrK5iTXwVihWN8pksvim6LlyIFE3I+doguDrIVDFZeKCWznuUC1J+/3/NNce4ku";
+        sout << "SqhRa/1ERs4vIjWwlNNuJ51YtVx7+O3wTt/2U9hTb1Ss5JyqmAgnNEO7bkOFWBfS5rV6FCOpRpEo";
+        sout << "Zd/Xn0vr+F4Hl6iCjssKTiB5JNSBeKOb5ZYcM2iiPy7x3BQFBuLURBw2FGWykq0muUzJt2rsBHRV";
+        sout << "pKoeDJXzrXlOP7EGLwOhL4Vpyd9YuTdOxGEqIuljku1ELsq7tQR55IjowpbyuoB9DG1a9jtAxAx8";
+        sout << "X63uTuIHG8bD2Haqtuj+h+koQ/3/CjGU6+zcZ3Xei7kTWdtxI9nwy7/JzeoBAtpHyTYVauOUwshf";
+        sout << "06R/HTocTMY8omaCgHsmZ8j3fe7KjwFv2jfqcwtQx1VWY60/L/1vuIZ73qgsHEcBb248DOtjlOak";
+        sout << "smCJxU7KP4ExgoS8wC4/7Dv4xk4N+jjgYjCjBMqT8ZosUPhQcw8m0YXuza09pGVLaWvtYYuod/8p";
+        sout << "Z1Up18c7SJArNV2FN+KbtPweFzzMe7IRaGJ8V5bnkVv8lplnZ+fBTsZ+/B8uVzrUfPq9JKZ0nVKl";
+        sout << "Nwp/R794swp8Inbkf3Ypo8NvnF7sXyi7FPS+BsQOI89D67YBP2pHaMid0S82wD7kJmc+rDlVTqzx";
+        sout << "DSv+0qk+537TmRLfYmyU/WzGnZs8CJD+NCc5Y362NP8ufWPRvqR4Rw/3xUZ9OjVeq/1pRitJRngE";
+        sout << "/DZXTd4qzoXwzdnVXTeEKTEJ+iNN4M20naxqSxAR3FrIIWfhRW5O/xoDgSZ967AQDzvQ7TIwjlfG";
+        sout << "Wny85szTbdV8eMslSSNi9lVl4WE80SGvKjn72x68uIjvjNJPCfvfK6Mr8ac+CW+k9r6RTarTHEjD";
+        sout << "R82My7TVsbVd0STVxHee1GWqgut1ag8RjTdShIrIxkn/1l+r6lpAaTgK4cjb7886duXCtFcrIHob";
+        sout << "AzAyhB2o7vt8eSDCJ1DPwboX/ufwu/fhHaAZnIHuhAkt6Bygiq4Kr3BqTUKld8g5cQRHh/YKhsNK";
+        sout << "YubIbEKeL7OG+d6VUHnVhfVwVgboD+lcf49RfbBnsAtDA4gefMcwwT2/qylN3DyBuWfRwwt+tVGx";
+        sout << "t1RfQRSwtiqDKsKOL2UJT0kjWo4ylLDkW5nis6l0zN28jn2ClrCanuVFT6QdiL5N1MbqLWk2P/iu";
+        sout << "UplXNe0RA+e2VUuDgZJ3FcK1drRWuI3QmqSJBQeg0ZSQ1Wglp/5cI1Mk/murW2gctZP2jvLOCU/M";
+        sout << "pEd89JEt8aC8Ijge2GbMFrKHq6UOayNzGIYOz63oAwtQ1fqabMTFo0OLeYoM7La7fpvO26Rl6CcQ";
+        sout << "gLqsbUsslihYtHmXztAu3oAJ8Lfj240qong4fv0RN7huipu1t7lHTnJMw3lpoSJIxqMtZQjvSw3Z";
+        sout << "JBAj5iPUgKjeqW+CiMlpDc4MwcJMcgReHczDJd1f7VTtQMB84+TmfIORk0Tlb2hw72btLB5OzhmF";
+        sout << "M3fF6kbov+hLDzW+35pNzQQgfczJ71+cXdkLGyRIFC8q9j4n+KUUeuhSetqhXb1okTH5cJKAaNKi";
+        sout << "mnmLl1IxOoTiNlXZDGlnsTu187y2hxgmNPrUbpH9m+zr4b2REpRk0NydR3fRgbMkb/OtTnyuEVnl";
+        sout << "4t8MTYGJKPS1HqiLOnsY1t1Epm+ulBYGv/I8t3pGY2O3W97PrXmK+tleC2nKakRhIld8uzspNBQv";
+        sout << "QnLJSzDeMQfAxRqV1ch2q/mtjndqdmTB906JxXCmaKfSiasBoegxnAAwdp+PorcYsIldxEEtFKHK";
+        sout << "nfDfrm74hQavdS3hKFA/bV6m1W8kMz/a/9ZQKk1uuuReNNUUfQFCzNqQtZuKcaugmaOI4XNazMmN";
+        sout << "sDGWxeOZf7RLl483CeEuq5MTvx6p9qp2TuVpGM6YMZG5fTbInpmfJna5BvYYHzaxS6NOQtKDXlQD";
+        sout << "HwRl4lAhKSmnGAUcwKjBpnbePEufayiUdBdOTUuHf7NkmPSulQNfsH3JZJ68NHX83+Tj3hZS8LMm";
+        sout << "HYN8JSMTb51qmJJD583aX1Ch0kCJdkWIIkFXLSumW7cuvmvWRERIC9Z9l4knO4RyRkQUg+Z21JtC";
+        sout << "07ifMHAipjZHYWS4YwwlR1U4zaWI7rNkoajvLp4cLqfw9kobz0I7ghNsk8hXxIkV940hV5hNBoyJ";
+        sout << "GoxgW6LJFJslM0nn9/Uwoa6VNx39fJSVxLjxdx+bO2xu5Ga3fCV+jzflrBGg2OyI7MCVBAvr6/jq";
+        sout << "nTbFYMoYyoU3wqZ7zBT8Ci8YqjtE7eOy4ENdmJHo7GL6MXR39YZ1baM4TZfedUm48q9hliaVrSqg";
+        sout << "M2J63+vzS9Gd8AWxQiHWPieJhRalH1cpbnMlIsXcX82LNNsgD70JACrxrQ5CcPE0F93MCK0FfaOe";
+        sout << "pzGQyDDYcMGYnwYASKXutK9Cl/3vtDYOdzoAcIuErIyCjQbSfu319JhgbHyadu/zokWRFsPES9pJ";
+        sout << "HFqNuBfNGL+52LdbkD9zBYyIGWjle3Sn4NsoSV1JZqZzwUklcsnBFj9xvSNcO0ejp5b+E7pIOCwr";
+        sout << "na5lf9QKBolvqvEJsHauYS2L+e+2+qf6bMiiUcoGloi1PRrFjrFaeYjDsWT9OvZI3VoXKdLOpLY2";
+        sout << "KxlpDMh9GsAedTj6x3L97PU939JEuG2CiwW5HDWN8em/8g5R+PmH3zQI1pTrTAnukqxcD02BdxLM";
+        sout << "y5SyhAfQb2UOmwi1/7S1odhv1rkFnoPjhXnh4Mg0ecQzcEtOJcbKfb/XOKQRD34qt5TosfIHgcJ1";
+        sout << "TO8xE9QM7RDCYv452zTx3exJrp9C+qTTSU7IxdJGxA3VNWSndDXAGD9VwD7wOZvouf+fOlLOart4";
+        sout << "6y/u9h8g/ZFj8DcjClIeFR9iFwODEwqWT/YaBGjCqkv94+6+BNv/B/dIhSEsqDWMo+0Bw97pp7KS";
+        sout << "pwkuxEpNxreaKK34QwFWCB6CmikwuQlUlXuoaTqCO/ObD2u1WmssejOvq0QKjAkxAOtHQEwbrVSc";
+        sout << "qbwZgdOVr1RTZ46Az1QLf9gcdSOZqSYvce9c8e31uwIdFm4aqDHybdNu/m5+LazWUYaoDYv7d7Q7";
+        sout << "Q1CP+kl27dgrsqcy48qfcmZqpHmrBlsy9MXBphdoo+zTeR3P/Ggy7LSBmh33pJDVjA38AV2FDnfe";
+        sout << "JZ9X3ZyvkN97lWXwTa7Ba/yzyp9kDJ3Z0o8PlAkezNYO4ICj1G0rXrp5uFXs/SBBQy7miCTquSzp";
+        sout << "E/LknFXH2CebtXWkmMnyf1HRBnLiCw9hUkULd3kzqwWe+A2kI+e9SS3wxEAcxaR8EMqxyBEIAWlb";
+        sout << "2MOl422BH8NfED+/SCD0coUC/mXqMVyzqGM7IF45LkNFTY3G0lkqU6oEZ84VPYfB7q/qn9WBeZFh";
+        sout << "cHUaSeY3BoKmiYNGrXJrsehrbVy5c5vL/1a/lwdmhkRxQjguhvEsgWfoc5xgul+rkTd134xrLEri";
+        sout << "SN/7e2t3s1tLTBDa1NLcznsjexvdAUSwOc+HThxYz8J0K+B0qq+2yVQzJkBG07C/xZnD9yPxURVE";
+        sout << "KBYhDozz9nbGHlf+a+zsf4ozeErfXV3/olVralDtH3rNW9AnytzIFE/6AdHtvrPNK9m3YCtdZjXZ";
+        sout << "KabHQVofERqyDy52bVnW88URdFfccnZknDZJixZx41ormBB0c5F/UId+CjpsVHx5guEQ8nXpAjee";
+        sout << "SnwlhH0AQo4+kXFGUfeumGRvhh3xTChlZzUF5/1hR+g4DGX4/BjEVBRh5ff5ZfhiP644NJu0nB6p";
+        sout << "vhDEwVffL3T/J2ezy33dD4+UXZ/hZ+e7QMAcSqR1yYlkUOrIA93Q/cLILlGzuFiuwGOLpxSpfZCg";
+        sout << "7pCuBwG6NgDz65da9GwhDnRBaYsZynsX+Fa2Y4K8bQV9ViFCtPJBzFq2hso+Jn03i4RCzTj/ewoQ";
+        sout << "YsxT8eD+0qBegsYi7Zn/SgN/p4cmO3nVK/dnv1Yw7XHieIwy60QMt7jVkZ04g/YsIiibt2SWeLaO";
+        sout << "7BGyXGpBkT4e9UzYFps5gQ35fcMdzqiO15WqN8s6K0J3LxVVs9u1KetGn3Ta2FQhnVAcCsVLBU2f";
+        sout << "KG3f9Lrc0tJKFJhvGNTyhbo8bGED4Bc8atgezh5zYjXzkc6VrTEqVazj7M55MlJhW5WvAb1qR/bf";
+        sout << "0TKu5in3zg+PWgR6snsl9IIvgqyQQzDjCdu8Vk3gsRZuUkHgMDBX3+G9q9KQhCV6VW5U4XcaYIkM";
+        sout << "TWj5VgpXPkZRZs8UjfAvOiBRjPHtXu14ki2L25YSUddfMSP3/4PPLkBekOL1TmWuw8d8fQ0BMOKu";
+        sout << "cBmldgd68hyDsXNHb3WrJ6xXQMIMDNY5dAiLNTo7Q9ypr/7uOBhcdqeuFFxpX28ArQUT10sDlVpM";
+        sout << "f2b2O2HEW+7tMqdu4IkEyusPPPrn+i9Ez7do3HR5HFtIcYIO8Ek5wj0yIwc5t7mc9IxW+FXUgrYX";
+        sout << "cD+51VdUDIgM52FCMWDOYpD1tWOndcYjeu6KV/dmB0DPAkMi9m5kfqEfQ7l5K+79QIg1ngVQNQrb";
+        sout << "vd04h1v9hUtWEYwufPPcxWbFCR+gx/F2K9xY7cX9UCa8Py2NGixgR13/RZLPVhPNaJo30oFQdyvG";
+        sout << "SdOLFtDf2++3SyIhsJUsIxS4h77hxh7ee2REjh7ciM5vuX9q8LxSqx0xaEGuk5an7ewETIlz735c";
+        sout << "jz/PUSkJsqoaqCrJwNCB0xQCH2lKg+vb+SHtwdKud75EmShSGpfjSSdP3glodWERY48g7yaW79uf";
+        sout << "f4QhbY00LTORxluV/pXaatWvPeAey0i80jofHI94RCxPaG1EdJWQDQDS9Hd3aFx6wjGfJcckqd66";
+        sout << "xcuZbpmvmlNlrtSzezwKhjJpLSxLEic+7pJdY6cD3lqpxNbx1J6ZcU+42HAkCS1TpPu8vnq00PGj";
+        sout << "x6nwuuW5OOU27/jsv7/RgJ42Wu8t+BUTl6WDPq/HU+FoCG6RxqqYV64v0ryomYkYC0rkMN5SSNmB";
+        sout << "xxFNHm5DG3p7M3ZftGnbaqGyuVMgcjlOJ4JoRo8Kf+MO8QXFRTfWybuZg1TEkCpnDID/K2Ehbpht";
+        sout << "GtdsSovA3jqRMa4GdJuYw9Lo88Thiz4KGhW4BIYhLEUsMvO4ouMFYjNxW3cFckBwpra6e673iTFl";
+        sout << "XjYSKrBCfbEBksdwnsyvZhzZ8r7SC2EFCcwXZ11aRohC5i3s76cShQnEtdcYE3qR2c0tKwyGMQWy";
+        sout << "XER/Kt7XGeOaWE11F3shDi1QpW+UEIa+Hpi0McgLto540QnXysStf52e6QepLD//xlWJmKpsZSzc";
+        sout << "lpO6KGl7BVT+RlBQSZh28+ldboudlWsTqQZc6Y1PZf38IwWvq1pk1hwYEQSpFfJH/LST62oQx+7L";
+        sout << "NHDAkQms0p+QCGcalgzx4iQRoorwmwEkLEcET5tQ2dhODDHMTHUv7W9Y+xlqw92eAHyW11fIJxkH";
+        sout << "gKDUR6pFtcfD5VHDOPMDMZVqfjEz+PHbfa9x/YPOqTPVrQxZmUPk0ypEFO4VjpCllpiKgYn9YatG";
+        sout << "3PNHpC+MGVG6u/T1/94SozPA+wO9B6JVaW1sxLP0aPnooOb34CQJys0BDEbLG5gTkTazZerUR1iH";
+        sout << "bc5fDqS2zDyGLgK9r3dqF4td/4CcmvpL0/VGagYxi0m+YAqUOzaqp2W6kJAHRcFJ/JxJKuILA4ke";
+        sout << "K/7WNsYZIFnRZTFXwTpS7HHl+L/8CFcCHLZPUqb6tsT4j+Rfyzi5L/qwgbwMcS7l5TbGtOEbQsD9";
+        sout << "jvtTmqKJ+wsXPIF71cehEMqRPsROSajZpo1zxZRgScZNJrHHA/SvtG1wkMjoU4OFNfVqREflLAmm";
+        sout << "/PYpcoTKn1TYcJ6QlEKRztkaMHdCIIdmHPGKz7gjJfNotTSbQzCNP9tkVH8/NO0gTRAD2jITs7V5";
+        sout << "pwkhdAioK0OZHdIdxrHe/eMlqo7UW8vtTcXQKlewNbOQQOuuMCb7EYUAyTdkwE0N2okGsuh/KzOs";
+        sout << "THU4W4zfOvhwrDs3cwI72mCzMQjvoJ/pgpmsspzVLiYinSftTNVzxUxo0cjcYujK2Ak6BfwVT1Qx";
+        sout << "hSvzZxjUCLtkeoUkVeLzDOo52me7Z3o3E2XV4Tg2O/v/XoWBMJotfpoQKxTRdXqyJpuM9n3QAd/j";
+        sout << "OpDqcl8SrHP+cffxYKs38bjnsZcQE17PUaHQ6pOYTSDLPbCHUUDRK+AMYoWLOwbxcDJHZpUctlEE";
+        sout << "EDNfMoaq0s88+/ucAs9tlSI3mU8K72UBs6f/Pz4iKM/2hwVwbHUX/Z0RdNG2f6qiu7qtBTRzokbB";
+        sout << "75n2dbGkt/7x4dbKn2ng52HC9V4wz3TAtk+fS3QDkU+8ZK0HTDBlv7oP5vO2TYAzvMBLBRu4sYNa";
+        sout << "rlKEDQBI9P2Zk0jK2Ijzen7H7G0IvuOxkNjKpuNzy8466P9jbNKBr6c/9yWiiQsenw3DOWONB5Jg";
+        sout << "Nr3/iuBjQ8O494dZ/saz3//c74D6rI1E4b47YOX/npA7Z9m4xYBu+3WqXE0E2K43a6TCKufVS7EP";
+        sout << "yopgcf0XtJbeup303GNaEbGZnXIenLrIJfY2RDijt/XUdYH784pFHRFF+6nQ5kB6/1dnX8pUmT5w";
+        sout << "Y13InHY2UIHOof+2F+FTjlPnIuv+KD2iUTgrrHbgOy2yBNBf8inM0URWXXi74GVaPYW8GNnAseaY";
+        sout << "A+2ETgfCdkGWtRCAjluiTwZCGPID5/FsZONuKDNfYyNP4pl8ZXtMXeQqYTFoVFUpivyuC2gGHhNm";
+        sout << "SIiuKdwhuLJ2Q7CcWipDTLFgkfzyFnA3xbIzRMnyyQjNoc7sBmN0NNCFRSkWVZwADLpHvq8035BO";
+        sout << "jRrP1fRJGrBbXBSdki5/d11JDxLWh/g9TKaf90a+BdPFBjIoHUkhXNlJrpm7P/OeAxtdJrtbdOba";
+        sout << "K2txOV8e0ozO/a1x7MKKDzvqmqu05EVpd8yVWI2MS4iXU2+Ns1mJ8EZkzzmHfvfTpla6w+buZnfN";
+        sout << "aAOsuDu2Ky8mEWvtF8P0LCGVd4cCUdiNcDz8H0NX/4t9VjTDVls02Qi6jzOuyTAlF93mG1AEwowx";
+        sout << "qe2xcyLPgVHmZx5T+bEoEHRmY4BR4eMFc14y7Ud7w02PjahMjO9XZGxkJfWkwCCCySSgO58X0E80";
+        sout << "2jiH9FygSzoAVmuRZ7qYtUJCDgKGqUePp53nHK6IEUfhaFhbm/wc2vo/Gfv600OzqNRr7RcSos0V";
+        sout << "h1/FmDLReXG6JQkgoSeAfsxQ9J1uXJ3qWrDtGkTHVxF5ZuKBPLVS2az6B8xdWS4aAXSkg87RJs4I";
+        sout << "T4LvMawc1w0kr89dI7PLAhdlcfytlL7PRep2gxZi6duziRufgArVwvBslEUgSnUcuQeualKaiMz4";
+        sout << "A3LVhN2ljQZ9Yn/e5Rn0WgwHavVNkVunrkfuvUDnVfoVhLMx2CfEG+a186A/YIVtpkNp+uOhFdKT";
+        sout << "TjwSvaXNbEMgdoNXp7GrKrTlbsvm1ONTav53LzF1Cqqa7l7uMNT7awlqtRo3gO5YtgMQSKfKI9eN";
+        sout << "3eNkj/45zH5WOSogFBudgOpB0kosXVdfLYD8fx2uBu4NCk+rWKJMuqMARF7Iv6iaa0R8oviPFWh9";
+        sout << "MC1iDuNkI2LZKwl/cQee4ZEREme0A4fPGw/UtlPgDr1phiSgPrGD7ZUw9bbCA6HyarLb14O6mRmP";
+        sout << "b+C63sJQvO5Mzxe7Eu11N9jn4GLDdlFxLgxfzYh/NpWf11v1qCbiqhgcByq1gLTcta5ePc46G9ig";
+        sout << "paKFsc2qrZfuC8m/Txrhxz0C57arhbNdjhyMoJGVayVdhX9CsDSStCKMBxzvrfO/L64UMxSJrEQh";
+        sout << "nI38y79oT5uBubF5FuhL8z69rFbgWQ3wvf/3mjBN2pOK3fpYY8kSUELYfTh3FRLQQGlmzt1VoKZm";
+        sout << "WrCq22oRVSi1ge8ltEM/KRPb0ujC9BP9RfxOEHJ9II0BQiCgnugzvYViQwsxAYtKRKZKAJbV9Gdo";
+        sout << "dw9108brkJNRLAmyWQTy6VFFXgcHhoLieNB3r/cFOA0YsGQRfSyXE3DMA16s81Wnf4D2UGTzMEUT";
+        sout << "X99LlB/RBcCJtftuATnX9ONGnpUz0YVUpwnocMF5yEc7JLpaH2m9CFlwM1NsoWZ5d9/pUp+aUmm6";
+        sout << "0UnYh1WhUpZPvEbIbKAievmmvY5SF70B4tfX5mEzQOFPj1z6mPFXw5VUliNeOgFZYk/5vA6eI1K4";
+        sout << "ZJMpihY6wEe0REZT9ZXM2LM+OXWhqYYW9d23tDW+50ZgrJb25rGDJ0hRIlfxS86DaQBRlTD1vzo6";
+        sout << "TRmTnh7driEXbSJGRgc3CEMb+Kn1z2NBYhWvkxJvOUn4f5OygCAb3M9emnIgrlEpjo4uoCaoy7gL";
+        sout << "U7Oj3JLaee30OCvzL5lep3dlWblCO3Fhnmp5SZKVU9OTPUKtH7xIPHlnvnenSeWfm3hc89Cdal0X";
+        sout << "NSB65plcwkjJ9EnRutcXPtrwE9zlGmaogRIhwC+0ESJmVLZjX4exJK1MNvaA9didmokttiSGgU+b";
+        sout << "+KYutmdATBa+MwWTtdvdCF5v6fw8SM+bnPHTWrdUjtpRMTYvUXt8UrRkcnE8hQ5JcBhGusmtFyIa";
+        sout << "qhLc43OP8eZeWQypSS/HSMayGhTo1hVcDQgcaZgFd5mMfsZ+afy5t0vLvVnOwN8r2rdt1tlG3mln";
+        sout << "1wFJHqVhSDkUnPLij2f/erbNn2jFyVwsvHDOO3Ze9UaNfG1JdnXvmkSFcO07IAm0oIgi/Y917Amo";
+        sout << "Evpvo5KhDLV3Q5MLAJfenLjmEHVOpSHfYmk7sdrRpUMyz/Y3kcdK/Z/6X7lCUydwrF6IABrj5Q9l";
+        sout << "PQg8zdSVj5/5KcLLqc5E2LyKr+HnW+PmOEH+n2uVfr3Wa0UEHz6crfuKEdvelRJKjvALPxjdRCuN";
+        sout << "o1T1MBnlwqdHyHdOhfU9v5fBO7dy6gnzHIPzinks0bYYa5rdHdMZw5cdoJatCQRAjx5dsj1+q2mb";
+        sout << "apo4VyqDE3dJAUbxih+K8z+5J/76GckYW1kFUnwwf+WHikIh8+V07U21fEsJXWIfU20rEGLrW5bC";
+        sout << "XUfdbO8I/W0cYqt6uhkxFF5xdyXpjcl0D4spSz9t6Zxy9SDpul84S57Y4YBcCADOKpibprHxWjMD";
+        sout << "OmsNf1yKungV8eAAVk/zy7o+8dD3XKN7a+Nrb4pA7Fc9XlrNHoToONSoo7AhF7Yr4LVuEgzlOjW3";
+        sout << "Vih+D+MZvuQ66CuT3aBWWjIrDOOokmChgcOcBUjfo8Frb69SsknR0jeDL8pMmI1c3qVRBwOd07hf";
+        sout << "a5J28Q+JA9TZV1amXqA1jqFt+y/OwtQ+7fqoU80qrYvSajIAG4C67kV9D/UwzbfkO+FwAJ8W7ZM8";
+        sout << "+W73EWYi3UUErGtcpzZD7qYMqqHBw+bs6I2bqelpwTLmdRpeNVjdHNxNqiGl2L2RLP35wdZvLQKI";
+        sout << "wEes57nCN7/8ibeGe1VESdLHRgOp6MrCT7UlD//3pSrrFVEONjfdN2F1TiS5DUWUC3Q41xlCBw0s";
+        sout << "vsGBiPwBH0FHZ5AptadVoJVFAnJ2hh71X28iL1lxRyQbHog8RwqHv3vYY7nrmOnXt+jsglCoU76w";
+        sout << "OKIuRcRzR+5Ly5su70vX10QSTmhX3y1ffu0Pu/ThKiN91TM2uCCDvOg3cIq5pFtbUImm413mCWN8";
+        sout << "zcHabCfmczuB33BT+BpD0GCvKeEfnDVXTw7c0BlJcHdRD0f+Ca+Gn4DW4ccZq8O99sRdA2+CxNOE";
+        sout << "GxLLcEDLIvndh4SUBq3RqdtD9ULxcXCoaTMOexDzIP7pskfILFIwuCGp5EyTYiqsiXEFRuJiTIaM";
+        sout << "1jjVxn5YRxW1n2xiALyp7B+pv3ZWFVkLuoUNBmbfsAnpWwh3owQcCEJGUiFkVANGq/fQROn5/oOL";
+        sout << "2KVkZGoDlggMbMdKBtG6HoLolLCmZjZSgFm3TmOallnQyOHR18LPzslZOk3FE13NXPnqCDOCLDde";
+        sout << "+LK715rJcDYYyLkMEO1lSOZNic1k7LyLMpZhbuCGwjjhPP98eDC8913XEac2hQC2lrWxKqH+ywgN";
+        sout << "4B9bboKehlxG1htG9Vm/KYO8YHwVW7iWzgtV06Kt8wcGpoUsBCi3TUZOnYutzcGRhEpy1/2n8DLK";
+        sout << "9C3VppikD2GiorC5BKztpejyWR1Nlam8f/DkknVbiVIsNrPx5QQgx1FtH6R7zMQs+QJg6Xemy0zN";
+        sout << "bb4hJrATY7vdxT/1uvps1oIDKm2cDmmQcZPKspzbAsUjZlmgjSJaDA1ZKIItTSY/bY4G6DRhXaAW";
+        sout << "YulCs12y5SfuuT5dMJx673Hk0Qjj9CXJ2Qshd9S00gB5G8hwflO7ckk84sos9KGfNwE+CRDtlYGD";
+        sout << "Rcld1nXSHdg14GLTd79D9nt5vHvBlDEDIO0nJz44Xh164mjgKtP9nxDCbxF0BjZX7qTdmv6LtDCC";
+        sout << "6xrSPdkntdP2ki+DXL4axjZS3Gew96wPOzkkZv51tn+FCnpoFifTlOCA4cVY/bpxJNp5ceZZ9f4L";
+        sout << "+fmhGEVordxoLO1vWYit3DE2Ab802Qh7Ku8jWXY5iU2q4Ek7MDWxt0NTgsfMWbhzMiP82nL0mK0N";
+        sout << "O+6c1o0KUva0td7SHZKjyxpWLzrjQgVsef4ELfgIWDd0ptSIuQgffHr3Rez73ZvZvlP8nMxD+xtz";
+        sout << "/8E8VAh1298sUkELIJauiWt+R+GWx7PMrz/G1ED1XE5X3U1kj3bWHfNv/khSrBXLIfYtLMcNuQSk";
+        sout << "qNX0GDmjZc4FslamUIawP0w2fKSHf7PfUvyoN00NvQNRPuAPpJ55iR1Obd7A/F93XSP1P+vwfyIr";
+        sout << "71w3cbG7KeP6V9/ROMWtlX+JqJSHgIsQtPCrAxBRHcFLS0mdW7KY3V+dIkUghlLv4vWwC28FEAWh";
+        sout << "b+MOTlsT7PPO4sFZLE3uF9BUEBDhAk40zmrBZBXe/TC8OICduN0+oZlQtOTPyxLsOkl1kXCQ8GsV";
+        sout << "AsqQifdz4vLO+XKPD+3ydDFgBvHMElxOyHSFwbF4iDFlYbwv3QvoLJQNuSGDA6xm2DJiphkPpGfA";
+        sout << "b5AmsEyD0Zt4Qn/w0/L53sEckFFYwZt9Rj1JA444rSfqYp6cWRdrZLdlgCF+HoBqGKZTtl/LnWhU";
+        sout << "luk65B9vRNuMzdTqUSWPMOOZSpP+IBfVjUckx3KOyiQKb9W/+HM96rG85P8Yex3G98qhyGf8x7eW";
+        sout << "goZbW0/GUjpKEMbIwYkDqoWgdMPOrExrgv4Dh5DqZivYXTS7OI4+8El6S/E3yU3TKSIsa48HML95";
+        sout << "Te588fKQ54/KXvo3gQHG71WN8QLgQ+x/zqe4OJ8QdMuCt92Z/0MJS8T3dJhKpZa/SPYLolb4BCp0";
+        sout << "ZGZhwkFgTaClY/BR0tiLtBqR989qaGsR0A1gCqg5hTNYT1U6xCtiHDdYSAeSJAXyPrd7Uk2KpLiy";
+        sout << "G8dNlxM/b9SAxzgRCpfEHVqjtapbSQa12HagHsGmGpqdIwdkk1S9FIexzyxcZSyBAfSJSsIGn8Xc";
+        sout << "iQCnsI6jxu2NPXC7ID6I+bGaJrGTrm2g1KxHJmVeCdYvUxoOQ+zmo84v7+UYKYH5mgGSte1zYTdj";
+        sout << "QM+hDk3xLSJr/KE1m4SKBBS0Z+mKlRkiKUxB+fBjo1679g4YN7V5tX62TWVOWdwFmQQjHW/GP9mZ";
+        sout << "at9rO39QLdoWDrTjycs9iaRdD7zGJJKSye2KI2w7XWsG5uT4u/74Xeg3rykxZTtUXw6pWITeBHWo";
+        sout << "Ej/l4CSZ2d93g2uKoQLk/HQ+MYzScsZ0pFsVAdB5vo6xEFveRpk3+CASeamlYe/2ElBNrUYARh+/";
+        sout << "m6pUxaJZ+UwWWAqWj5KcgVpSkWEW/T2WrSiXbHlRr50HusqcaLErf2I8UQmOt201vWfGKp3ejTSm";
+        sout << "KNk5UVjLk1gJZjuW/lkWcDX6q13dL4FNf0aHsMcaPgMsyBVc1YfPuzoqZPagpUWMTK8Hpgbvcy/4";
+        sout << "q2VqrXd8SMphOnRKp8N44raY/ge4UKvDu0OJVXM+5SypO8gt6sBe1H851xZYNNvjaduuK5+mleQe";
+        sout << "eqBCukCdjzkiCzAu7/y4+xqsgOKOVuBXkpigvBeu1gRCwUY6QIc9vkXKy9lc5DxK7h9ymMjepxTB";
+        sout << "7kKVYyS7FsYpJ0DthXNuyj8NmC2RoxaqHl0GVXH+w2DcKxA2WDdsmF2rKRSNVZ2mQmhMGYgJTdMo";
+        sout << "9NGEI8j497I1F9EGHymu7nTVofRu4ZDsUwr0JO9iMze5rtp5uhlUNybPg+JEQCkpBV89NbyQYG2O";
+        sout << "EimSkE+GT+ZVA5Su/UU9FdU5Uv2ATG21iAMoxo0tCGiFBdtLPkmG62c50Fl+nYwvwkGs+7bCnJSG";
+        sout << "e0uzr+XMArEtYmm1dVWkbZBNBkJ2h5FYbuSrjMwurj2NyLxSq0AHMAF8ImKzBg1NHq7ERdrnd1we";
+        sout << "/2z8lUTa7rqjwoID9LNlxKTcQaBLOJw3Li3SCRdlk1pXJLTFHgwZvx2o6ccqRQriy0M/NbXys6nq";
+        sout << "HnePV0B5KhH8aXrpg7hkCcIkNHeVA6TOcpivGs6arik5d7O2sZgIP6b9FzPvArk7ZlQGHzCCsRgE";
+        sout << "C/dsLraOvnW4bsr0wI/M17WkVqBshuMy9iDtAxUJQvUGiGrdGWUaA6MWLOhRYa+gG31XUYRof0lj";
+        sout << "SrYxEfPYwg3dby/IPZslvPhFcadrIMC5bFgCJydh6WSXur/5JY4OKNAQ4YwmUQLqyd7swCZ11xAn";
+        sout << "1tfW/qg2HWVk8Q7m51xdSTaLAJP4MssM8CCErxEC0JOVm2IjPy1s9rVfi8S349qthINh8Bz1h9St";
+        sout << "SeZ0vS3z/TFvm5ZR0xehVNLffMR9UI9N5gBh6COonXGWQ/ofNfGAvFZtvNlzQYzgiH0SGUl5f5Dd";
+        sout << "HO3SKN1L0PnUw1CU76aoVMBxT2fAiIRh40dI1CYyyFFdvbGGn6nwvKk0tpfPnK0aDtRy4drNWre+";
+        sout << "/RM62ddDxCS4lJbcXB0wtXIG7oB9IBIwR6lrTPu5VwOdkKUGSMYiN+GeTp+6VJw6qSiQEgNsP39h";
+        sout << "YbTL11zvY7Bsh6TgDftLf/IIioCmmKZ/rfk2fAYcvOSWAATAlHpCFHcuVH+/GyVw3C/W9m3MFJ3u";
+        sout << "Bz67vzk9tfQ6jTG6QYbwafBUeGRLNIaVU3u5nZAPrv9CR7JOXU1ay4NapCwdLdjYfirb3/gGTR2X";
+        sout << "wF6d19v94BAW3u4XL6UyXqYpt8bJ82jv+WZ9VYXUjk1daObqX73OBQPRwtn1em+QI0JEFQb/VX9W";
+        sout << "rymhsilKkraDViLqL0YGCMGd1Pg0qijZ+mxi+LakZwDBaafyM3P15LCU07r+klOtareBgkdvO9DB";
+        sout << "ZNEBP3tcVwloiYZe+hmXCFbSScwBjsou7IB205O6w5lWrVNn2o6CtF3SYkT8+4Ucl5K42D2zo1uA";
+        sout << "s3bjCQQ4VplEI8UEt4ZgyToZigaER1hCuZ2ypXXWzOkEk9pzO5YkDj6Uwn0QJVO9peiDKTCmRhHW";
+        sout << "ipyMyU0DtVKr/dAlmE4siqWdRW9mz5P9ATmc3WVAXGK+M7y48YxmBvLglhMEFuURH+w/s0aB+UeQ";
+        sout << "TmDAInUDA2mOxUUU25Y8caIXJIQMGch+bvEXf99lfw8ee5uw2rMpszj3fDdsQQcE0doEfSL8Qs63";
+        sout << "6guAaeTjDVYEwGpptklo67deRqmzoRPbY/0VPZn26ScmNPF9XkfMyC+I5egCMeIcQb05DZPy4zNy";
+        sout << "7hdUHzVlB5EOAYzBU8Lbw8CoS9VQ0h2eeyY7H+4MDjzdgyTjNOAZDBKM32+LQ3p2EpwAOa4DVc/h";
+        sout << "eIC8kE77LCoYyCqeOWau7OJn7eIXHk6ewkYJ6Jr+HrqPbGWcd+BtYm0Yx6WqgQyGfdqDT4fgCUp1";
+        sout << "YGpT7SNLI951jY96a5BzZsJ0703RINpLJSjs3QjhsAPTdP2S4MqnRV+YkMRRVX7NNp6SSI/iaDYK";
+        sout << "FaRowA5D65+gef29nwMfLrWbC0RHJzKfUC978Wr6lM353VSymQwj2tQd74JoXu9zEXm7d7yg4l8w";
+        sout << "fHVAsS65ATYH2yCV6MzE9r83Qn10wWU7vxxR0PPCcGv4KJO21atBeY2JF591xgrQlHujrzdM1Ppw";
+        sout << "dbd13nZFtEMiT/WA/5pWem9eYIrITVFSW1Isb3QRCUg2AvfwbD2FSqrRL/IAfDIV1mtYGQVtgnsm";
+        sout << "9CrRw7/z2CDnZxJE7Zg9i+VtwZXoWZSRz0pwg78vfmWVgoZrgf+5JUVYLwZlT4qhEzDSGf7zHRVm";
+        sout << "45ZwJXC9qM3r39KFtJ90xuTwGBMaWNv9t+7LZfnHPxahg4UMOcuy8oW6QUck0sboYXJ4EUUzl88X";
+        sout << "8jcqC+EH6Y8FQJD6tsJAyLe6OzexzCKnms2t6oqW0unPwFMmPcpL+5SbUBifp7aqJLUDDhfTHCUA";
+        sout << "zrwUrHfr18VXcllJ9SAo6PN/P+cqUR+NpIXs++Q45AsRCg5cI51448LrfCOmxctusWX275c7vW/u";
+        sout << "HL6ZDmpsRUO3mVRW+uZ0xZbGR4oRowKZW8XsOxyJqR2rYwYkrdrq11P329pqZ2NjkwWHIEcK2W86";
+        sout << "uq+5ZiJ+XYQmj4tstX6p1ShATSm5+NYiMuBV06GdVIXtpfq81HJp7Ziqw4mc3SSPkZ5evGA3eo69";
+        sout << "+hwf8cfdRy2NSag02A7aFMXFIh2aSuJuVaLeApJGULiL1S1q9F6YwrDcAHbqo4vH9EBLkCMfLFzu";
+        sout << "RdMvtBQeMyRnBKy4ziZPzchjvxlxzARirEO7DkT/kOGuK2T3nNG1bG0ljToqDpYbBQJ80/EVBf4s";
+        sout << "GRy6/HpycthEQ8/FovbVweH1TfCmEL+f7S5AuKvDkuBh9BXrwoC9Tz3gTJUm6uVR9bRuGzumcTou";
+        sout << "/Q1VFUxaiCgUrn3Pf+37AL9gARr8EIoNnK3JV9upmwlS/vpIk+R2rZXcWGaviq3zYHPwB5bwugB7";
+        sout << "3rJ++oM4lEm9l9wS7zRkvgVSxNIicXbR1Liaxfavdgx71RYHT1XktBpGcnoZlRlrMGjTdVTxxWhI";
+        sout << "hxU0DwTO5DIGDBCn5iLrZI3NvWzESEQV/K5bACA90W8sD6LOdQZYEBK5YwqcifcAlM3V7hCwbGtH";
+        sout << "SQEfR9QHj5LHUHOGl6obst/kIADQfybj+Xtd0jDAWE2JLs8RoLjLazG/X/csBZ0I+8uv3ox8APSV";
+        sout << "2osP5zZxkU62MgHgEl7en6B9r3VBq/vTE25hrlgCE+z6uP5tkVgNXplwv/HP/rCjqv5Wv4q4+bI/";
+        sout << "NuU8suTZQlpK24NT3GiE+mXzoQ2FG7TN7t7R3l+fs6+m/iwgvep56RgySrRlkHqTNxNjMOqFqb9K";
+        sout << "fmmSDFR34pyHiBYOoHv04OHZAjGIJGPUtScKcm2ip6U5et1uctAV+mwdm38sghhA+nPnm+Gp50yq";
+        sout << "3NoJc3uGdxye3WBq27PL38eMy3bW+sIeQqZbGVkfJln+4R2UJwczA7ngMBF1EZ3zZQw433/L8bRJ";
+        sout << "FehgBFl6VUORUZ6iAsLK5bzm4xTM4/BrsS2w+bQU0PtCikth9xMtCFlaz4l+xioV4yvmtoVH6PwH";
+        sout << "4LL0xlxsCbg93/0LiGZZZOVyFwr5ZuBy1fkivRp6Revpl2QW+DgHkTODWCpFr1trBszFQPDRQQbz";
+        sout << "kv45wI3aeUBWNr2qeI9aDsqKpCq21EInPn4Y7JYuIkJLU0wKOqdZg+IXVXtSMx26bIweJrqcUDNv";
+        sout << "yZRNNg64GLP0v9SRQI0XxzpoAb+gMwyDwHbPISmRGdiiEFHaXuMFSptlR1SNPqsoMquvDHQMkaIQ";
+        sout << "8Ndem/odQmcKjf7QzfGiViywVA5G1pMIhbHFVnBpTvndSW7E7gIHSwXscCqQGcB49y7PNpifcDBh";
+        sout << "EID5vzaTg0IfvqyPDVNdr8rPmD90HImHaErHMhjZD6ZF5G2xGZ3Oa4vpnC4agbuhUarEGHRTElsl";
+        sout << "4UJDAtwBC+OVPrXxAcYwZCFJUQnTqaCMyRVX3suiNPeB8DSeKBFPIPVUUgxZtRfhzspDj9EQuInI";
+        sout << "UIPGjzWb2okFqsUkw2+avPDvku/gZsqKSg4Nb6wxcJ5uFQhkZ6hrWgmfKTo4uy4NdPZzZvZOW2Lj";
+        sout << "bCZbGB74v2NVGdpfS6XgYcXXRE9FeAiX/OrH9QE7Vn5zaLAYYvWp9PQlwX16tME9OAqk0Ii6Uuz4";
+        sout << "+E0mCoviJM7qUr0x8Qra2z/TMpLHH1LtyYBXBmA1aLKvtpZmBWKMMcBvDxa5h+j2KqiptM4UAObj";
+        sout << "LZtGCYwkpNRcwLrYYhnQH78gl3m6rpLjWvRAcGjcW8ttrb7Olz4q3edJ45Hrb6u0lWyKV6MT+Sxp";
+        sout << "RDso0oZJrPJKP/eWNQkZB398oHLNgxn7WA2mQQjeMF+USXyqlToTaC0QlLNOLpmKkLOjH1Arkmjd";
+        sout << "qI9253wrbmngYK6Xxi1tzUkAAfrn0GHgxYtcgTGsa1Ob1hK0NFwYwKDaGnU47WZTJ5Jamp9P8xN9";
+        sout << "0SepcclG0QcTFl+HKyE8SjfCQD0pNLkn6wqEKTtGMKj2U8fbIiwg3SYX3bEwdbVJ+J7fYPwwMkNk";
+        sout << "9g8M5VT+zv3FD0SNujmlD6gvxgC1mugrAy3zWrBSStBPNw7ysvgzlczR8dqlvqYmLW6XH2b6bXg6";
+        sout << "coskoaJmzMfd0z3N17eLC5LnA0cy/xMLANhu+IGVu3PXOCu6eD4u/wg0DctMbVU8PCshMk1oC7pA";
+        sout << "c7ELHcz2doCBYXybwyqiDtTlNHxDiQJdlE5gg+0jjXyJezX2b5Pm+n/WMgGXaYWo6sw0mlVPkU/2";
+        sout << "4MEVg+0+iOmBxy+6SmtetGeYuU8n0KJWRA1uwsGVvZImwpCjC02zEWikaYBTStPZO72OR1byz9Ye";
+        sout << "rzTvWi4D16/wMnl/ORRcnxVFTsMGk193UXQMhUAHcYK1cCIX+L81DhxrETJ5AUPE1Vb3CNy8Rs0G";
+        sout << "rL7Kqajrkpa6iMdyAv/WCYstVBWxQvoSoCm0Pn8K0E+tUBLuMjDwZbGNhyJ8kkwjZ2V8PFPjRj2e";
+        sout << "bfS85L/IIeWUIKNGcXyKSoVsoFNpzxoyscupJ5MDrh2OI44KvNDGE4eXi2Ectf0s+ihwo/lN+2VQ";
+        sout << "BJwa9hJwUQj1BIjlHeUls2I+K2wEQfikQTduycabyaWlkaXvsAsoWMZw2JZkMTew9Zg3vAq0M/Ch";
+        sout << "1iz67SRayLIBm34LGBWvyO6jPZdBaQCag6RBk7jM4jEVeFJLWCrhQTB6nqfJsOWYW/WoM4G4jkwp";
+        sout << "t4TApbBveUg8plyr/6X4cLmbG9IfzanFxw40Gr2jeFT0PQozNG0U4o+f2uyP6X4O61Brh4ZWOcVI";
+        sout << "ZyJS+iYRTlnAxRxOgr8W3fDGhFmDHbZHpubJU+DmQdr2DDdFLt7tDnkhZFmvuSsT45L3bm2zihM+";
+        sout << "E52GhRtV1Nc+bQVapip86VCtsQFWkfdUMhUD5qghAY7CvQaBk7HhQ1qQ8HoqCjTIWvxM02LPjecr";
+        sout << "8U0MS8yyL3BWDP7b0mC/RqKguJZSpi5u9v9/WK+IHSIqN8ke7ZDdf+d3ZPBrYMiMVG0M+1L39Bm0";
+        sout << "B2Qxh+3Ao99qroPpXKLxllnsE/k9aGe+gtJOWnl6gyDoQd/vJJKjgw5pdUNM1VENHuR/e2rSXsr4";
+        sout << "Cz1+NMQc5e3390CJlnwE7DX5C9t590tZcP9s6y8DpD8gVb7aHI6YuMAcJseJHEA1RP5Ye+hoScPS";
+        sout << "RJu4r/Pm5tH0uaSUuu561NOGCt+ydyv47im3C4kSx99QAESCffHr8bJTygkPLJAlwf5iaCxFKp3m";
+        sout << "9Edy+NwS0Wn21ZZzuwDnPTEOAtut1xKRqLjTQsGp50F8+L8Yev5tvkxfNkOGl+6GRdITgpG//7fa";
+        sout << "YIxP3InBFsqa8JO0OxUsX9P2dAZbMwiEob9SoE/lMnfyvYiUhra0afbl8myh19TtPik//cRaJdpE";
+        sout << "WD+JvRVdE97nV+qoUEm9PJ/Z6u7fAQ1DttjHo1CXzvK2XkSVuQWEBINQ8U8AJfKJ8T8T494jx9sI";
+        sout << "mzhouA2iD7/pgsLgaEr4Jl8cpmuEL9hg3bhG2q4TgDywdezFcYLmO5OwYsrcPgjlcyNNC572LWWW";
+        sout << "S5u6YWNcNFLg+dbF0GSA0keiC21ny4nZKHyY3LGTHlXDppRVIP2JRfkyGbWVOmA5K4jqu+/kYESp";
+        sout << "0KS/y1TtkE9o2J7Oj8P0VIxtd3YMUUN2ccyR0+t83RUBmM4hBOMp2c1xHK15snFDUDjbQZs/KsDg";
+        sout << "QH9/a9Q54AVMfX13IqsTPr6R9C2mnanIL27F1ii17LWLTwQnMg5DtCB64w4Tuzb8kd8z8pIrvhIi";
+        sout << "6CehcCsUP0JC96cvxVEbAz8PiogvGgIcyvtV/Sl4UD6wxlFdD2fiPt+gobigqEXddFJHShRhQMkV";
+        sout << "oX36v5X7f8bHAmkx9MiYuAN101g7Iwh+lpVe/gtSW38mm5340i2EKc9wC/51WKkZOTQF5SMD48IK";
+        sout << "+aYnr7gqDr2PQbMB9hWXbYo6oBIR+Kpldy158B1YuB7KA0WE1t4L8HU2Mp410wqSSAA5+izv0daC";
+        sout << "0/cX4xCv7MLWLNuEPanPLKY4Ml5oBP/8NjqY3bNjSS+MhtPGN0uCNNE3pl+W51kZftS7ikjrtL2m";
+        sout << "HQ+TKkoPNc+BlqkT1AR1gOkyGzIq12JUXGcpVRotwxFdNpravb9ApmtThCgCiYlpWe/FR3soapgF";
+        sout << "4kbL6reYwddUtxuF1RL4n9yn7zyQydl1wS3Joi44NJCAboU0nLkrXDH3qkaL7L0yM/wJ8o4EArVX";
+        sout << "1yexZ59AP9UIu1wtJiCkKutIe6Y0UGDMHJXoCZywZnwmChofkDWLdW3f699AF5Wns4UI3zfoTNmy";
+        sout << "xScQro7000TJ0q1s36joirwnXMNlqBkTWs8GMjsEwjFAC+cybBRxt3a8lGII1yLGnT6ykeKNCcov";
+        sout << "3nChbmZYul8QRji7jsCI1BzTKkC9bPt8RPvikbre7hazd1CPHHzZxkd4Tx4IhYXDBwpvqVbjf/oF";
+        sout << "6CiHTgq6XShz0Y034DS9rYvpyIZadPJna2XtOYSW8XCIzr+RTnZlaNlcY7LJ/juEAlx/9Z8rg/9n";
+        sout << "+7upLtBHQD9CuL3EUNL3lvwnRGXCr4OgFpZeVA6vTZeyjUsouJOLQvGmyZmg10OyvdWrzs3bv3qD";
+        sout << "uknBEW/Py4lak5ZlquDjDJyYlQJNf2hkXu90FbSOEspxfxQKF3xFZYXHhY7h9jBH6ab2Ecd4d22z";
+        sout << "5uSywKcyDYZjc57KlW9fgZH6tyYX25QHGJV2yK1FCV/PUvd9JJW1J56YRhBLJedEmP4k6OsFhe1R";
+        sout << "V6Sx2wxXZ4W0O1UliqN7JvijGtMGBCMMChsB8BIB4TId/3Y718pILeFPhSsaCC4VvNBQ7f9USWka";
+        sout << "3oEZppphVdYrLqBd7QAaD+0dOFHqDKcxONBSq/nR+aCNThY+FzMQdlUwN54UkCM4eFqdoQS30YEp";
+        sout << "oKznC/9hOQbn+FHq0XkfTxu/z54pr4SzRrjMmIzWYzCAwKrLXJ+5AC7Oksho3WCCITlyt8yhqn8B";
+        sout << "dxGJw7ifMYoU0t7QB0pP0TkphYpBFS7C1U6DNYJV8+LNz+Nu+XTEKzOuKtsYkwr2KLY78flaPEPd";
+        sout << "ZE6vQ2pUcJ2V3XGKKHsiebqb8yiGhwsgcqKuYByNZVVMWtFfZ7jQ/nra4HdiqUgfvvHteSd3ryqx";
+        sout << "qpTaET8s7AChEe2t1x49HRbHmce67oTUR7UjMDUk6w0NYAwb5MfToFNUT5z97MbWa35bm4VEyO7S";
+        sout << "kb7XD3hgi7DgUfuixfVbo4V5E0nj09LP75jIivk5XIbl7Vhz/BsvGcimBkqzKBXjwaB6TNfgKly4";
+        sout << "C4u7Oi36Mtr7cz12xzP1UHUG0y89X0sQCp24c75rsYi3vdi+tsqp6aZ5TI0QzDuBcDvKfUyIWJS5";
+        sout << "zIpHgW4EeDN88jCxjIdyG0crtIQA/P9vy7hX+FacR7cdl7BacOyN9xFvaF/tJhKK1vTTc9rmp4ib";
+        sout << "4R1mNKX2Li7Pbi8RyOQKG1axIQpjBi3j0ZxiCiYFvyrwpRpWE79d8OmQq7UIT38FJEsDVKgBgZVE";
+        sout << "5/qi6znE0Rl+alR4rec/tflEqZKwE0ZgdC007rKBZYZfqa8+pykJdWnb9QT0jvHrApzcTxfGODqV";
+        sout << "UwlnHHoOs5reyXhEkXgzlkA3DiNhT0ks5GPCzEr/mRHYbaB8lxjb+MnvYkrfVxyqUKFv3PENsltk";
+        sout << "5xy5prsHw5x3KWT9DZK2mLdKlxIMIkBvV36ElluknIucVhEJS5p4QpdTkxma/Kw0Ax1ucJ6wQp9X";
+        sout << "PH30+uK+TcCINiqZMvIWuxerov0z+fIKTfcq/2tfp3gZntQ5aWDs2hn3AW8YfAuaIWd2pgMCsE7i";
+        sout << "eiIJ8JPMF7XhoQkMEL63viIy7RrmS1gvXNMua5kW36JBq7MFsS6eDVcosygZNzZb4gGeuwRRHcO/";
+        sout << "ViKZSqdgWm9FpDjcA6wi1k7J5lbhoKAkRH1jwLYRh7dgzj9Aqkzvk/sxp/K/pdTM1nmEGNpwdGSU";
+        sout << "GrTqMFp8f8nMBIW5WADridT2rB7m/rPQJ6+S8wrHEqbQoIQ31X5vX4HT7VBXIC53zx+e65sm70Ol";
+        sout << "3iWfcwR5K12x2ulia5LyXqcLooz+9Uy2lk83cDrqHhqxPNlyXrW1DNL15HwuxPHEfHbydt6mpQoZ";
+        sout << "drGsCX2bH9YFeFKSFzYc5MHNuj5pyhxCrZzWTiR1aP9sYUUhf2l6agU9vUOzbn01aIvwqVhFPGQ/";
+        sout << "gV6BeD+zG9ugjruHZVLoXdR/ohx4XOQF2Xpvx0wUHPLa0ojZe32s8IEGf/hdX1TzdATw5dmWkqF1";
+        sout << "O13Ohko3+CORnA3yABmnrytSJE/ambQb7jPjfo5PLAOM7tFjuFmHh1vViEBJLjNkSRnAn2Q8zR4R";
+        sout << "H9ci2vl/Zuv4CeO5gsSbLGpPQsledj1fr7/wHdPVp9o53iNjM12SlN/1M/xfWkBkefJa4ipdDLaV";
+        sout << "qEb1rew+7LezSJmj9bh/dU7UDrydC/qnmKaB6vT+43OS/E1QfDR3PWmO3zAG9SmA3nvITP7eTQpe";
+        sout << "9NA4ftKXImtdywIrzM5ucueWKhQ4d7fsMin83GWbLiBdqJCFwbX+Fo6BmFQ9ZBXILAQaNQSFIXxE";
+        sout << "52QpnNyFfFrlRCbGpuSJ6WnvJ/TBuGkU/Szmnoghw25TyFegjogldgdybeMQP1bErP1kfkhu/Z03";
+        sout << "aI2ttSieHOt3Yxbtnl3xOn8QcP39QPEReCHhILDXdDcTAt/qwQvS+sOwGOaqQLG1pylHF7jpM4ZB";
+        sout << "gYL+5wgwWj6KfxQpJY/B/agP0lNCFAc5Vmc4Hf1fnsbMRq2/1YxvGVOg7/uQDmMfC8SdjM9rjte1";
+        sout << "MjGaAJ94fr3vnNFWHsy86LHN9o7vhnwPiGuzv2lZI4fDiryL49QonmwviOb2PeHlOwwSOuBCgd3c";
+        sout << "TdCqFbDAovaop7ZGpxWDAiqY4bgcnexLZPWnf9WbHE9ZbyoX5BuRV2wcvbZsP42XocOcac7tMkt+";
+        sout << "oix6NJw3P4NIA4zzAe6lq+1+Q+8SwSEAF99ux4oXzuu9C9BFG/+GyvvPayihFYqj0Wu6ZloLCd8x";
+        sout << "9QkLieg13E7u/OWVrWaIi40ID9Z0Ik20ZJnfdGcVA5MUYAYI6LM9Qn9LhPYOvFSGl3Bs7jtkFCzq";
+        sout << "dXlAbRthDqb6oPpcZijo+zSTjioE6LsXgvFSHb7B6l/Yqy0U7W8I3MC8LBM3UBoEDg9rhxuHT3R3";
+        sout << "Fya/RrLhG6dqMGXqEHlTMZjoop3o5HgqY2jbUJ943f61N08DpbCKBGf31bkGgLOuwWu8jcSW6bky";
+        sout << "p0hyQ694rKUK4GzKb3fRxbtetNCtTh8rS+LC9n9IYzjyYeYHc2s8BnfIob8yxNJGcpd1XUA1uz2i";
+        sout << "XW5xr+EyL6L67VcfUut3uEGFZj9ypPMUdUyA28oZ/9NnZzSUhSrs4mt8zLxlKIvneq/hsSI1WPaE";
+        sout << "vLNQeJqIaoi4+crUnvpbtS8eKbuMRsF1ylvyXz/FRuJgflV+zMcgPXY7WlOe1q+x2OvbcMyEXXdj";
+        sout << "bLSGX5NOdAH3LayNvA67yI+kXOzdRomvcFkimZysbMYpR1F8zbQDnrQaL+L7g4o4NIxRE1icgEXm";
+        sout << "lcRB645lZceTNCU6hPQH6Zi0Ii+bUkCJwA3FFwjhxSnE17Rvz0yF4rtacUHGfkLLXMZftfWnHdxg";
+        sout << "lCCoj1g3kBfM4p74NQS8jRxW/biLdV/R+KDWkD1CdcHvEldwjh1TyQK8C3ExaBKtJbzRo77SgmCw";
+        sout << "JiyEnA5++QFussmeOkwLbk2hJAlFab/kYkn2eEmOXxAN3TJk1PvPiefZ/rw1aBi+Gmwd5m5gXFCN";
+        sout << "CwH1F81kMCGdqpuzzNNi/vHRD2SAqPMdxn6lQNmWKri/odf5EDdrr2oY+YDPLEahPYXxX+j5B3vJ";
+        sout << "/MWL2m13iQDYeRsmkEuuYivYf+p6LpAmM/Dr/UsLVJgPgaW9GHPQKq5JQ5MBGSUfhsxjhulr4Wom";
+        sout << "cK1yUjyz9WdfWD5EmBIV0hGCBlAw1RufwiTpaLKb5CazOiaiL3/trS9NBmf8wien9WI0zBCNhgPu";
+        sout << "dYJ76ns20VygJficBk0URUPzLbeOiXIgwlYQTXxdnJAmqVgLjWV3AvGH58vK7yZsk4KmjpjL5x1s";
+        sout << "6WdoeZyH3u+OsTgvIE3nsPlZ7XW585Pb8IXNePC3+r3ei+tkJVDA39yjtdI3dYHxe/9UyJD1fBx1";
+        sout << "BGr5ld20IvCh3W2nbOpPjAwt6SY5Be6L7oJKyDSS5oWwfcf6vXXgPU1mvy3g8x8jXEuz+RuUyFJX";
+        sout << "+XTD2FDrEgA9iz/a8Enhc3PC6IGf2VWIAZIbTtay0hxyu9h0zTSS4QWo0l9EwIXYRxIvT6U1XTNu";
+        sout << "3LKREGDLEXnSb30BbPSz/+fu1Ah+qOKe8fFvNimePJ7xRlUt6AsWlCtIVtf1Ho0tFMFqVCPH0jrF";
+        sout << "8hlyO7Z0dSGS4tJdcvNs73UpDpGFMAb2R31O4a4i7tj+GFtFiIB6/mqgCCArFkzjnZj6/Wg2OvXZ";
+        sout << "pyIPeTFQ9F31EvlYRMj1/xEHExucIoOLMFjsCcqJL4O55mYkwRZiH0sMtP1gaiXSmY8/VxyU5M+4";
+        sout << "s+aL0su3oWHIsYRAxPUfqTPxR1oqsSvSCi7rIwqr7Z8XWXoYFk6mQZ6l1C8hydPXsO/Daxad5aH7";
+        sout << "aqX47fJiAMJJq0q2AtoLPxXFjMHBsPqAIutjK+C/cGnv2+KL/NGPJrpDydXQoSJMMU275nflIBQ8";
+        sout << "BPUdrh+13NF5dkcZ/ksDL+Sn0w5Cw5aPoIoFDSyQMBsjJgBlpWJN0lVzsrNLkRDCumM6fgD7WA04";
+        sout << "iWRu5s/RpeKZXJtcBulQCBA7dHPKx2tPOQdzwFk53/jGVT8VKydbnnPm/1kD4ooirz1WbJ/8RUa6";
+        sout << "lTXCK8qp7463Y/5VUtc6ozHwiatvwuEtN9VxQLbl9aIyls3+s9Syt/t7YBiE8cGHgnwnZRU9BdV9";
+        sout << "GOegZRdfIJidHmaIio71I67wkT2ohFLQX/FI5wrRuV1K8k36IwM0nAm4kMwWdPm2aQsQ3QoZJLlR";
+        sout << "I6sQwT0HozTo1pxcbZH3PURnvnkKTg+7qe1GpzrZL8d6NfdRo85+K0/rSTtyzGtxrNZVNM/+qLun";
+        sout << "lNiJ/aPHRNbEpBiSH79wXF184ZDu8sVG4+ElfLrKdBFl2HUoecTgztxEQFH8f5ioBKD9mg3FNFSU";
+        sout << "Duwf+KLvmuZJuJzpsjqEwebNV/EdFSh/3yuT9rCGfyzmi6e+MYwpK8Nu4nvLHlpEt/vWbZNMX/cs";
+        sout << "vBtOoSlhSMGeUD0jyGnR6GtjKdwbJG0DUDc1b4WKjzihPyZXqVJSlcGgsh9vQ26vUs5dlZx7MzPB";
+        sout << "Bj5mOT28rdIEfoiFMx9rVYxrgosZTKXiHcQqrMPXXWzqWFVqB6gKgY2+Kbu1eZCC703iNbFaRtKr";
+        sout << "YXBeOmC+8M4XbmW1sfpeKacNKrSnqvzAlBrB4xIDG1d3U9qetfeKJZ1BLmkxRJBtmQyVxfAcwt/p";
+        sout << "FDQCSRvXj20z7WIeoTx21FgDrplhm1UaqsgB8w0YyoqcfM2V3IIL3t4d3/XZMZZoNd/N6hBTuFpH";
+        sout << "W+8WpbVR2oaMalKsy9S7YrqLvuk/WuuZExGH/gn7IywFu2uldZx2k9W7+g0hhMoz0yCOxNjvog7A";
+        sout << "ADnlAISVQmmamr7mkEcSYbNllmakfJXxQvTjkgDRSwC7d6feWIC/+FD5qhu61qdn51pumUiKpSZx";
+        sout << "L+DYB4GbJOyoWVyyMnV/Eo2nmpAP2qIC4bTVh9o0YvGBRQFffA5AkKPpxTJCnxTKfDTdpvtugEmO";
+        sout << "eK37QjSJ7vROmbSAElNhK6aDpQBhKleklAjzSmgPZLmAFmGQ6s918oqAMDSndTvSfv8Fn2jeKRwo";
+        sout << "oIx/pI72ceUYkwP446s3/r+q/jKiRFWeHUA+VAhUdHav3U+Fq08InvwgZA+H/3kK3TRnsFsVI9YN";
+        sout << "R5+96UNxSlg2iCNXTCf4KcJyssLtZTTVjaxC50xZAmLDEnDC3ztcH9GsbpcvTWYywXgSlez/e/Se";
+        sout << "A5+dj4/AOFibxhicXqMiQPplFuDWH0AJ/6SLMfEqccL6TWmhHXQ60syfORUVdAQKWe7p9QpsjGIv";
+        sout << "m6vlSFlNNaQfuKHLC+UZXVXnBFkDST91FjYNE9NKJCjTWvHXE7GrwaWBHhMBXrDuoYYFC0tIy9bn";
+        sout << "VtctuJf8A4/SjddhMmL2WUQtkrEqWH0UBhv/mp3Dl7RvNZqf3VRzTkNMdT1H1BFucyooIrj9J2EE";
+        sout << "NEdEaFnQCySLPqgLSuUylKQzuYQhYksJbB2/4J4G9gGoa00plIjM9J0vtd0aEHkUy7boo8dg+VHD";
+        sout << "ydTvdmJfw9FEKP0Bx7FsR/DzxXljZltYAJ2mtLkqfLXfc9PKhp7svHGndXFSoIo0AkorYMrNZqzt";
+        sout << "wrpTRkdYmuifxPQP4NXsISzci1VPHPpg3y4T3O4IjfTe4QaF1pqWiYzTs595oohTxLa4LFhrkFCO";
+        sout << "i/w9sYGvKKcavmRGaeGyJyGXDIMzKJhoU7Naci58eHaRa5dgEnyy/OpAHbMsF6aILEwG5Ighjjq+";
+        sout << "dRMCJjs2V1tiJ29LoYbMpFjGS0sbhbQzXcS5yocPbNV97aZoXTpYXTqO6bU1SnbZzzi4nmQdQSD3";
+        sout << "D2XGdwRT1spKApouVaTMUr4iXV61l/HVJNGxUCBcmdVz2m+IRuwL8D1AUcxTERV2Wk0R3cM+qKWD";
+        sout << "6JH8bxix7EF4JKyf4XlrPTI8F/qCQ35E6zMCcyOxpnoFUcWQ2Jo1LXzmrUcSM6p8eNd9rYAKj0wu";
+        sout << "iRAe8GR0o539Zdd3TSUUgkvUxCjLrNE5LcL2gWUJJtXMCe0zHbvpCVDEP9uCeGa/gWhjJgirtVeI";
+        sout << "RDkJxRZQmacp+d/Rxmnh/dancmSWS0NqEcmo2vz7SzCRGK1q3Rl8bvUzcm3Ys3CKTCUP6YR3qT/Q";
+        sout << "m3fPHO+xyk5qz+kZJxdasMndADLdfCykLiqNOVz2gKBBV/W058i7XyCRfsad5NI1bEOlAoYzaWqp";
+        sout << "epQSjzCbzcEGv9H3+oLhpol5E30G6D9ALhAmZps0lXtGhPuhP9BAO6Ew5o039DuOFASCiLaWwyuo";
+        sout << "RZ7D8d3SLlc2OoeWN46XWXf8AEPwED5ShQBK9rVzoosqjvORlJ0m/p0Qjtf/MGKkp5aJBrISUhfF";
+        sout << "tUTyq7/slEF4FgiEch6QAT8UX4jzCoL5xojjbYF8EaufhI53RP7uAT9nBrTTQDUxr4+g1rwXGhDG";
+        sout << "39vA78crS5yTM46mjHs1H+2z6y+rJ8mIwBfW5q+jNRGT/lM/NfPVaKYlcy+TCCE+F0Z6jxhWJEcM";
+        sout << "+nXI5QkuuWpsYIZZfO4HHxnxDcZ6bHtFih0x9kMQue8PrBypbHy6yp0OPewO1pggUtuexrI8pfAj";
+        sout << "FPJVASNsFH6mG20VrV9qoLNuf60RXam4uSeYb4I/rA/SRwx5ytacBxG2yHGuVYLhJzLK16S/ZY6C";
+        sout << "J33WtvxvYuVsSckly7wRJNjduxWTcNcd2ny5VM3izG5Vu2L0g/jTWJ/lzURG6a8cEsVfTQ/XgZXB";
+        sout << "DK0QuJSkUoWDPSKtA2EzzilU5zLcoPHHxjlFRHruGPGw3GpasF/N/nacYzjVTNJ6zL+ccgGCAXtQ";
+        sout << "MfQ4Ylg0YG6+YQEy8yozdROGP6CnY7hzc75aPWx7MJAwBZ9vBTHntcPvNSnrQzlmE2NzKx6tE3Gl";
+        sout << "GYsyr0a4n7stz5c8Jm0tFABqzwQrTes1fPiyn5Ppf5LP9e/qXJ4hWFBvxhW2FgfqWuR8FgCRegxF";
+        sout << "jlZi2YKoFsVnkoqfa4zGEwHdQ6iQZTjhzoC6eL4eZLbRyHGUnMQbs4TEuvlY0GJRbEYdWfTi0rfB";
+        sout << "/TIfwNMo6w7BiaiADK4LXd4vEhsFpKNlT9MccG9hF5/Kkk9svBMAfUIkHDZyX5SXH2h5fnqg5Em6";
+        sout << "qIehVeInGozV5bGq3Ax52Byn1f0Qsp2q7HaUj0IaqdwswLsPAwT7+nj6qEaTr6+r1u8PwRczahlH";
+        sout << "6ldBCs89/Ywvg/VTBMvmns8/N/3l4OJ7rTaB08uGafEE2EI7DMDnHoABfaCUZ06WclLcEpJcEV3u";
+        sout << "zK8tt/uNPM/eXr5Bh6neOMj7NaPffmh34NE6TQtJ19tkxqhcMHu5E0f1CrBOd5EBQfYV6swnenkw";
+        sout << "RAHA+NPl1ZnTWB3cgx4Pog0o0Lbr/xddxgqIAiuqb1pnjsnGgxG6HQvwnrLPDV9rMLD0XwDfBMAr";
+        sout << "dV4hLXfP5JpRvRQoe/qhgDgxPiVUI2nAk7idUnkAJ8OtCPmt5wf+udKD9E4betdTtWI9aHB0F2Cw";
+        sout << "x2FW/GrP/P2ROOwJUbYR3j66n0xv+0o9kKzfBfT9ZlaEDQEbYdo0TDSIJBYs28llvsyRZX53W2BN";
+        sout << "IVQaJOh4vMbQ76sWkHTQj0yiUG8WqPbf75Ofe6EzgwWMOf71ruf0E/ZOx1zIhMhpZJIVN9Y7zdlz";
+        sout << "GLZ6DCphcnAGiLvONYodzom+p5Sfa5gGXhbIU+VsEaSyftlDmZADVK9VLJvzcbUY5UIk5CyI2LVg";
+        sout << "6JwAGPc4oIp86vCCniKUvNn5e/InEE37wQLKQ+yTMw7o+8pNWLFCNYLy9dv3et121O1nTvfKYdXH";
+        sout << "FTUEJD5ZML/9zFB6qAWRdUShekfCeOx7Typ4JyV4uGSJNEdsxgmM2g0MXh/+W63Ung+oW60xCiTW";
+        sout << "KoK4bJHrQ3fG78uZccXGgJ0vAADQvt9OLcpchwJuf8w/QhFMt01ELezmhr8W9RkDc0dcB/U8mSvm";
+        sout << "Q/BLsat/IQV4oYkmfdRJhILe9DPmP60M69d25piSIinTwXJf15OmFmpp1Khm+5ygKnF/+auseybx";
+        sout << "6F2Yj3e5jJbwE4l9EJVK1oCyoyWhGVdAuEERLGYkDrgGmxFHgeP+dtF++a2hCQlYJm4S48dDHwl8";
+        sout << "SjcN1yt85e4jGPlumzrKQ+zwVd5stX6oW6iJ+Wy9mk48j8DcjMVU9cYuLWREIzyetzabbnTFBEbM";
+        sout << "oHX1zElx+F2AFqGlU/2GHwBisLRd9yLqthwndjj+0H1TzEzjDaFHgHijnupTi/mBRHiwBmslrGK0";
+        sout << "QW1yTUpWv5Wh3+95CPycEBMShYYMvSUtzKnJ5OWcMAzE5TNC+y9hVi/YiXTrs/Z0SqSAr58ky+38";
+        sout << "9Nhz7iqcBS/kWJJegEp5MiF2rR29f+eVaj4QsJ7essxWzlgVoURsHVUeoOEK22zf5hXvzxc8GTRD";
+        sout << "z8iCR7GiS+2jKfZHc1LW6xYsnlJPT+rT/JZ/lrcod3nMqbtV+K7ZsBnjXfhJvqXTFJx/wlMinY1X";
+        sout << "/Ux4LOPTfKR/+SQGw6PSoKvr1WfyIS3jse8K0v91y2/60oo7jivsRnnv3AU4g1rQfbe29yHrXOtN";
+        sout << "mdyTt9ojqGvLRA1dV6q3xf0R5mSAHcumQ36WgwHLVhsp9etIhdl40/eQKHW65VeMjVDbdfADYpy2";
+        sout << "3uJ3G33KfqOgH+IxosfNht1MwzoTQNTt+l6vMJIVzyEu72trK+IxWoKd6vpNpcZTFvNHaRmhSsQg";
+        sout << "dDqPOdvnH7pozfD3eGUmKAydPCXlf3Uf8h2ZztcuHXnHeINc0DXfBcWVY2p6iDTJh5zbYaMeiODs";
+        sout << "rvtnUYjC3k95Xm7lNNBonmR1MkwEEO5JZ8GVYHUielEw3Ul7lp+pdT7BPFzogXPFVfa9Rjw6aDA/";
+        sout << "WzFzLIXVIRSvXTL1jMsVNmkMaLN6eR8vuot1IUBMvrswqrLelzCT4ejx5GX47ONcK3qN/sR1ptmv";
+        sout << "fGlbDPEQrQrvsSfkhZhZdtUL6+suEqY5AUYu1palMr5ztc+1NREg7BEBHaO+hXJYtsoPoEqTf/6k";
+        sout << "ist9UDp/uRyav2HySaYfsuKZ6SAy/+6A1FRHPT9IIXs485mg9HbgVrriSl7Hb50nA6F9udV0iRbW";
+        sout << "kyJd0ZADMHlXvELe+Zv9oOggPMMWlXFCY1No1HNgG6z0HJqtFgOW7ClgVRO148oxRafKxuRzGhHg";
+        sout << "J2HMaTFO1i54w+yX0qtV71Nbw8z0WdDuzPX9+t33ggwaaNp4FYcvw+TX68TNuQ6lqKVhbz1wyR4b";
+        sout << "1PA60faiyjYDDzjqpmagJVYSQsAN39iOiYg/9yqL9FPrrfFS8Fmi936TyWxHjLUWSuMTLkMMNDVj";
+        sout << "fY8eAKiJKrNW7HGbopxQhU8cAPcO7EZHhzUWpsySI4BbTB6Ye/Gu/o3+8fLkgFqN8IixPcxGQNtr";
+        sout << "xLwFntqzR+rdwPZlfQhkgh7e4JDJbBY7Ab0PjgLXHjZPqSg8RIvoPtOUVrbwDhDqVlB737v46ajp";
+        sout << "giBBxsLb8H46FYb4S17Q4jjGviasHP14FPcYZw+GSdjuRPSwbAk8OD40kVV4HB/ycwI/qS4HFznc";
+        sout << "OlsdK6R9r6gtnsjBqvj3Jw8LzcgATbTe42itdaUnHslVnXddERZTL6xJD4fDWY10qBzKrGTfFbU3";
+        sout << "P0yhX40/sODJbOnNlpdd3XIofpiTbKMN7uW5OXzoYtmdphHRyAkdDeUnzgVDLEMChSbecnRErAq+";
+        sout << "uXpd07lSwp1KgfuXukWWipXJLXLJ7cKBLgkMVK/CXvRl/PnfAlJspAn/OW7usbuhYygQXP1n1SSA";
+        sout << "ozM5Ij4Z0ROqMlsT+BYVHVyUYDOMpPz8cNs5GpZMB6sOBMLIfBciGLd47rz8ldouuFbaA+2bL4EO";
+        sout << "os6Cxu8uRjAicwaDkis2cD50qNE+7LG0eGJHMtEJErsRI5HCDX0Xo/tzjw/t/7RDlkPYiWSv8rAB";
+        sout << "DeIW0SSmgWcICBW+ipQCjVkcf+tSzgoqZj7VcNwJCyfgm9ptEZnjmIuXxaDSRU8veajcWlwcvpzy";
+        sout << "whoh169BfXxL9JE+YeGdGipDsF2X+FzmypcpyA66TDvyJUuybcxwGlM5CIwnzSsrAgvOgy3uVPdC";
+        sout << "ZWW+LhLqEeJAF3oCYyDPl7PFgqEKWHOn4parvz/z16lX3WeU6pz63BeW4pR4s+0DngBx7x58Ov1t";
+        sout << "abQnTqxflrIOcO93pm7h4G7r71JsP5hwfnfs7f+SHVlv+skU7373xX5xgWbNGoGhZbFW4J0YUxQf";
+        sout << "A7kWKmr9KGNeKvLSVJdRLRBeBB2My93uztw5rIr1KTUlV7jFSo3EIwHgLikuk1vwEQDuclqgDXJw";
+        sout << "5XoL+fhIP+Hds8c7O62yd8jGTM2goyii1tG7fy7CJzuDffkFbkUsPXnohujYDormCPS6027uq+Nb";
+        sout << "sZ4xfzT0tM55g0n+ofT5XgptjGLWICL0N8uouJnEaskJF++AejXXVyIC0iGXM2PXUHDP4/z3Zso0";
+        sout << "u8L8HaTtKY1uw0Sj+pfX6OprB6WlomVPvDVLFbTRhn4FliazWAQSSgaF76OTKm+h2adW2V8eBlVK";
+        sout << "Zl2u7F5jeoaImVv5KwYF1v2+tv0Jems0cbJ2gCRTLtlH7s7K+Ev7hEsydks05+4n/+enIxIuC9rm";
+        sout << "csYLX5Wegp06BfHxaLxkDM+MC2NF1GZmtQW3GbAfq5GlX1URXWVHe8NacDTtF3HaIUwNhCI+Us8x";
+        sout << "JJfYKCb8PAML+Itpcvzc43ucS6G5E1ENA3kp1h5nJ/z9sxIk69wApnzprj8axifjsZuzwURj82jZ";
+        sout << "qLnFtBS3NqGeGk6/kWTpYSCPDSQe3jzIYKCt29OdJ33C47gQA7Q59KxZ5cHwfyYYiug4CSu7aXnj";
+        sout << "ZtE4fShHeYx5BrMRFv+Xr7c78dfjG0h1nKRvwzh9ECddxQhwN81bk45WKU0m+LlTBmXB+xmT+kZg";
+        sout << "UeOKTb9I/lFBOHVeNLyz18Qst3HcUqqyhj2enG7eW7Uz7rI/FQl0PGnvHqGUvmNZuMWNKcsmenSC";
+        sout << "0i8Bog/i1Qb/QYCBXk8gHycVsKza6gIki8HK+WaWnI0PKBSbC3buidE6cHQj+SsEZd0ctGDfopa7";
+        sout << "jcEk2qau6gZ4M1dL6s1ZbWCS1u6dvFxLSLne3dmg88srevuXFzhQHV3Co5ZFym4s1mHrQxdpXjpU";
+        sout << "zFAxlbXjGGd/lKTGUrDxUfWEybdBxK64OQ+piwQe81/N9tXzQnWu+NXTTSGQH5QmgMRatEGs6hPQ";
+        sout << "suaBYVoHX0CO54FefRzgzNzXL0vpfkUcREPilvDeMAI+Xv6yfkmyIVpBm7TmCHGoAlxOglfimV0s";
+        sout << "RvEaYuxKmd7yyjMRys617yfzOFn+or5QIcqOLX0/g9pt65WEnQ8vO8rR8aJmJP5ZnzMvZaaGvArO";
+        sout << "sxh1iV7miw3FspAYshOUT0NZtKX6YarOMejqxjSoVUrPZeH+PU7UUVqQHVyaAxImwkJ/70Y0fLAp";
+        sout << "YAr9N6KtZcmNlx0ShIz+UMMcrLxDEq73NvPF9u2KA/7BYoB2NLCPsEYogZtCTvHpuFsGXmz5tYLJ";
+        sout << "TWJV9AyydqUnOgg6hqNHUkYRTYxRV4rzozVgn9CVgqkh3avFqycoXZ8CWswHE5stp+ij6GvGqmNg";
+        sout << "v6yHah+mPxSCyA1XVbDpgxBUV2HjGdv9TxKW/37WJVwvQpmJLQ1as8b7qgvuJ3l9Fx055KnGJfXu";
+        sout << "wsMLA9LBBImi/9AU0FC42l7N/lTy7k5xTHNSM6gWL4jObS74e9cb8yNm9y3DdveE02SNjYojKkh4";
+        sout << "C4m6/QedUm+dJBRz9Fpb0hncJ9zjmVF6HDILP/Og8DiLVgRd9R6uUb1Sav5bQhVPDvqqq/z5/p9m";
+        sout << "8AGAOvMZ4ctiqm2fJxRYDBvv0B0VX9T7kIbPK2iVSRm6fmHA0NLqmQ/KCJUnWYt+jNtPGPvPGMgY";
+        sout << "J1hMOxwFBgJmWSsyvtvNkfkjj/z9MK1LMPwnaCxD4uqjyh3q2erOLpeWCBWRCBuyUAo+btuw05lU";
+        sout << "PGLOKOpXDuK4b2kAMJS3RtMlpRENPdqXpyVyaeOAIxMr76JR4wBxzRNklNyUGPQJfZPD6gODvgut";
+        sout << "2S7tDUee7z5c5TWyoG2+L+mrtIKOas7TJ9MAzGthQ38mMrRTahP4ZlOa/O5XDCmpOgaieWqutRZJ";
+        sout << "DiKZDw2IwTBiDtilK1vx9jb1BBkcUbjTv6kGRJe3OWFMstlfh34cc1nOrkFfGdFWJ2tW2bUB9iJT";
+        sout << "jDAxk7qiY1gOIABX2tPy6vfVJNJLlGKFr0et+k/CAMmDRmoRWcUu3NTaunHMudTsspDAHqj3/u6R";
+        sout << "cPX6pDZcnjxoVVN6ie5I2vmOLwyKfICIyMuNbeE+OJzxSajk002h/eoIZP7SKzuT6xn3FqY+Tfxe";
+        sout << "0IgiGU1iD3t38Q5ED++MG4DhmAM13bjM4wex05onTMmokgq4z/Driy9ulYJT2wyjMWk531LSRGnv";
+        sout << "rykIqV7ynBiFLHbydmSeMcvXfhd5HL9iLdVfLd8DmvdVNEiuSTMMIMhCv7K+uUmB7za0PshQEWPD";
+        sout << "m9G39ZuRugsSdi+i02R7fSeGWrUNluwZS/1pbW3v/ROU9Tjg3j5hIb7qSvVuE1rwiWIPhDUP6iXI";
+        sout << "/1Ta6S0aWQztmWQW/f7TsVVnL55YJx3DXeFXXS0bJ564Wb9gMFuC5HwLfvDhjjOh5nP4K5IKbZPS";
+        sout << "cQtdBWE+X3PqRz0zV7a2p/8MdAPZRQz6aCkqGTFigRAg1PIuI2RIqhE2UV2cdik1jiNz43/jneZq";
+        sout << "vxII+C5I7DtTF31wwMaj3xtslLvXvkQN2i9tQ4M8B5ThzTDG1stf6gTElZRQ60a8Oc6OkkPA2Gk2";
+        sout << "H/yaXeVLr710mR5BCppKQeD706k4AuCqLiqmxadG98c4j9t1VtTd/+qp6Wj0cuNHrkUHqSrTFj9R";
+        sout << "W3csGZQxATb4yatOmLPObzrRAnhDdvpPVbIVQFSEfI2BOuuIEqKeM4SMaYBtI7F/oupvdnKqwX+L";
+        sout << "XRe2vvXu6T2+ZDH/lCfJm6M5ExglHoW45D97CNe9KXdKIFDyfK/l1TMs5pBT0Jv/Vjv+ra8T/GvA";
+        sout << "sKjL9AJDSrQoi1PSSoy2lt2n7GaZhGIKj2F4ct5WfPWd6NMLWRZWTQF4JnpuzlroXDI5kC2328EO";
+        sout << "SRpIhybdrOsh6gwJEB6fBO/c0cbCLdZ/clT+U+ng0MDw1ZO2B6VidQ1g4NJmNhru7tIMg4LwiJeJ";
+        sout << "by/3zwNhAAeTSH4kQrgv15wUYqAQVNlg8gZx5vFH1rIrPHixQNFEgKAWusjA6YzEytATaF6FcheY";
+        sout << "x26FqfI0rFpCcXmNWqB3dRwmGIZ58b0VCZRDCaxPVJprXB9MTmgxMGwiuUkTcIfGuSK4+8pKIcuK";
+        sout << "tdvwMWRECpQ4PXwafh6vxn5fZ1I7NAy6OVV4rt4HzWa6yjtR/fJhILqqcDtkAipN3JQ+kf3hO080";
+        sout << "W/bdqcnJ7lcVK+R6k3kEOpdOI0DzYii0bgdHKjZBvOps2jBfcfGJF7ER4p3sCM6Q4gkAUm0Ama/N";
+        sout << "xv8jU2I80sbE4UwrCte5ViAW4ZMDV9BMpZ8NyWmUpmgHalwVqMdC2YTvuTyE3MbIUL0iDOdPlabD";
+        sout << "sghn5W5M7h4GSWrCFXZJxvM6QQqWgeFtpCjq6dVsvJ8VT7sgNKWyHUsmik33qyPWeOIlaAhTlofv";
+        sout << "px9sipxB1ec+7kfPrEpPFB4hDij46HOURLaZhpMMeGCmVQ7Ilvq4xxCbWezoXcQVFXM/Wqadd9ei";
+        sout << "LJzFhiSollP4NirV4lMMlYJFd+KHn+f21xJ4HmEvq7e/sZuCVnZXEDtNJcdXoJdd+bg85SPoYFaD";
+        sout << "Fw26E0RL+CnCEFB9hLbXqT6Ts8Z2p9c/1rgwxt7gvsgwHOLuF+j80PAFOunEcLGF3gBiTdKk5fM3";
+        sout << "1FJ/mrBKYNSd7BnQHNc3HJaVp3+WOFqcE+V473zEQG7FTeNDp+//BzsbTWor2nrs7fMLz1NVY95R";
+        sout << "FqRm7sYUiLQnqhfUlhTxwa6OrKqsG4UhqIUBzE1suHDBSQ1QSvz2BosXCoU86IxAcY3NpzSSmyf7";
+        sout << "fZgZhE6VvncL/QzXJVwcAZlx04InJbpOXRDVfKD/0g7L0Xd3hnsFODzX6a8FHhFjV05o/wHsC2XB";
+        sout << "rAUJetk0NMuJ4Z1nkcuVNxS9JVQMs6+5rjsLurbU1SuAC9LYbW5+B8xpiqu319P+3yEayoIYB09j";
+        sout << "RqlNnPPGpr6ai8/Y3vnIXaVoyNfWCAhhdlnPISuIa9OC54qDcuUn4jzwthYhWuaih5cz+ZLpOsL0";
+        sout << "FpqCILSDkUZZPopqxQbVwLwQ+RazOvCcnKNFachkCXQRchr58ULsdiUNTJxk8wJTM7rxfFhVL6BN";
+        sout << "QboYBP5nnWFragV1KeJqeo93cVN6/9LD666fz/GXQWl6foIswuszFH36Qkq7mFMpLUR8d/7NHx5L";
+        sout << "aNzTxIDDqga2QG3IW2IjgqTscvQU8it73uFbnTY4/Ap6jTcxGLH/e4NlaGExnLx/TZuwa+1EVypy";
+        sout << "ieOwRH/XVDpsK38Zoqn4J5+LtyDUBGZbObr3SPfCO5WjS+3BNcwSZwRszFnVUgIbEmKEFNwc+eaV";
+        sout << "suyslIipE4EwdGIjMvZWYKvSZou4AS3M1w5nf35oHK2ox0UT7V4GwEHFJ7ivU9XHHxk9P8VUYbBz";
+        sout << "Fm+QyVMwewDLjcTQTepplO2AKgggzt3uHh8Rpb81wcG34udWkKZC3+6gqO1qDt2RE7OoMUsDhvj2";
+        sout << "vCq/hMxuIyIl0eybEiWdHDMo4BIJmv22+JU5zO5uCV7g6kR0Qm1Fh68Lef4cKo+YNZfIQzCh/05R";
+        sout << "NDQ/zG9r4DOXy9KfiFDN/PHb9IlSPQbVYjW1Exm3C4NEQN1PxT7qHmGBtu+SSBtsOsAEScW89Jzj";
+        sout << "MPITgiBa23ay0e3ZTdxYDfzTOINc06TYfLJlLX+0salnE5545QfXg4LUAcN8I1teyru4FopJIRFr";
+        sout << "9tBTnrU6oD3Jr3vH+bj5rKsoN4R+TZrf5hLpIn4yCCJPbm1O9LL+iuHnNkA7DiIOBdrYt22HY7CC";
+        sout << "kydyxXD/v17hq7XiqDAH4VGrlxyGiZvAtFnelPx84jiyMmTIX/aasP/DAnkZof6mqJ+HA8JbjE21";
+        sout << "77bzm8O9Pw7lQzJVlYFRDOAiA6HlviT6xK4t+VtdwPIrtku2bJRgaYfT9gptG5Uf/HGHcNwl4eWR";
+        sout << "OR2h+DG5mk0L8t2yS1odauKRoOtbC9EwU+sUDNpry+44TUOXYNtw+aaGpju92d3qIZuY612V5hmB";
+        sout << "wFHftW5olecfuZ9g4WjaT3AEY7YsglPoyYcl87neT7wsdfW1g0ecD+2KPwAP2wnNkPKRtB3RTUGf";
+        sout << "AIolNUzMtA2tPXQMOwV4dxyCq4+6/LVfxz4Ryd34O/SJkoryDP3S9SgE6ni6ytwg6vZcv8BTdd74";
+        sout << "yrRWqVyLdfPPLmzLtd/ygj8NgeCoivMCUHRwoyEynx+pZtbnP3ivmyHmBPYlL4R6PbWvdTTv6SnW";
+        sout << "Svjop3lCmJ286Tp0f7iLrKT017gHWZrgbJ1Y7jjVqSAp/3Qa+4iST6ail72O0Aso6GyB5Y1ZLEml";
+        sout << "WNT6bHPhnCe/EPCaW8D+OvWxMJvly0bVwKWiLRuteHcve/oenn5B2a0jJl0T22kxXZzwDifGUgIy";
+        sout << "Sr9ikEzAL2NHqv0sQ4pNk0ccLV29/h6dCwLudtMtgnV8zvimJ+Z/Ji2/SejT00QWe89cpWGDNFCM";
+        sout << "6rVLuCGPSEsymrzhZ5Hlt1TpCuCnFW/PjPILvBRTq3hlob8xAM/FOU3MmFG1fnKp28m23w2yt31U";
+        sout << "q312QfYBE6R3z4WmM80SvV/xCAXFWPWHjPLLoInRiF0HRBWeAX1j4xsnF85p17XRe5KsxnjRemu2";
+        sout << "PjWw1Np+6OqNBwXOH/CHTmqxzaBNQXPJwGEGvFh/pgh+s6090UPxb30/2k8Q7C62S6cgI3nloWdb";
+        sout << "CXk2T65mUYC8yf1CiO3o3NmrxeszXoL7UpZlt8Hb2K78OlJopMd8NpYQB9GCvLva7nnb+ptPamME";
+        sout << "KAA6b5II2/0tkX388yryJO2pC9ZqrPqoOhXx/JuQtl13yJ83wMRE3RmEvYohd5SFkVSBEJrP42bI";
+        sout << "JsG+dj8tekhVCe0FrOUqOZLrlamcVS7rsQpIei5oXCyHIwvIi1yeU4lqSo3Z6kmdOrMpXJuGU0hs";
+        sout << "7wTMD7GvLKxWtdGZDWwQBREP9KVW/Vr2VSIEbOgDaxHP3b+WhGBD8gAVMc8P7C8qYhvuPLiaIF7R";
+        sout << "0LsEZEkG63NtqhfNaTGXAwV0CWteiOQzzKayuvrX/JRiFsRH0Dm7Ox+cvNh+/t4EcN/NNRgD5mWt";
+        sout << "s+MrbGz+rH5kDq9AYTK7eTdus9Hz1BtIO6Bijm9uLTP8DzyGTM3GgpVEYN5t8mDeTfqDUzRNgqkk";
+        sout << "6RZFhMtnObP88HuhZGB6fNJlhm1SCC/CsphFIqUQ7t4LvudFmfoaJ2YGNKD8PSC1aGuL6h484Knf";
+        sout << "lgUsGOSY3k/b8+cZC16QE6jJa2LXSXLX/+asn56XsisCoODZLWSQ9N8R4Ovc2gR4QZnAsdu4dLjD";
+        sout << "AxhVBjqEYbizyDfEBhDNGfSP1F6WRRguCQNUILrBDIy2BkuVqGCN0gznCZWl4hsYPaCOCCEUAM9R";
+        sout << "TDYK26wdpFlHeZCR7CbW23Y0FPtbGlMYlmVgwb593sTZE+slWFAfBJmASDIkUzBxnqfl3+YBiuzb";
+        sout << "GYiqUjyA6nAlp9pp12WJOvGgJEbwJip0j8tg3bEWNYto7NRLWCNza1q/m3f5Zi9QW5m7fA5dwBiV";
+        sout << "XhqxipmzUtwpw5kniH5DPltBL3XLaKHMyD9aRqX2WWy+DkH/bSz/OIjovTMuag51evGiscNgwey5";
+        sout << "8fU4cm6W8dalHbkHSbFkJ8V0pMa1lmasRbk7mT2iqOLtP18+ClR8PHVxAp7yNyYHjd4w3FJ0AVot";
+        sout << "ja5myBFmxb9uIqJXkzgnbQu9F5SxDZ2PyP9tVH+kqKj5fRDdent+SoUcbrMcq8qJOA61/CTITWk9";
+        sout << "YiAxbveLWt3LmvDv4U4dkuyZW2i3VhBmp4ZUDOwSbYA60w0duo8QRkaygPlJWuNyolJ7usv435PP";
+        sout << "pxl9uwGUEMxa3t1o5eUpwZ9hZ0vGfIygEaAfImKsvLyEvZYW2kovpZszsj3SBp1zA9vwVsbk8vEI";
+        sout << "HFyIybB9ozXyNinfl9w5QC6avi3oAH0FKOOX0tv1frG0d/Yx4OpAMpGUitIyAOh0bdV4iDMfA/+e";
+        sout << "87/9IztHYfmmao5WHVSeIZEtjvJoMVOU/c3PA4nZnSZIFGlr38v4MFJTVMCYKrYV6F0dL2VElyCi";
+        sout << "Arudkz6NSDusyRk96yE5h91C9iibXaNCAYI6rs7vk4hrtIhkxO7kMHrA5g1mXMgd4F0z/dNa3Tm6";
+        sout << "kHWGs0DlqvtRnzRrNn7mf/9DgN4HaxI5Jw8Z/COJSLjQflrHHiYdojrC0PEZswFaD0FyGV9px2ht";
+        sout << "/7Ospktq5l5o7qoz8YQrqkN1mujwDLfnrYjV0eOlC/5Ok31sevdQS6J+jmEK/cmXh2UPZ0+p2qMB";
+        sout << "er1ne5zgWWtO5AvNecZGNVrgFBYnB/o7f7wy3l/zHBjOJm6Q1jtO5hlzasKyrVRcSsK5GwSbmO8q";
+        sout << "0Q+dPCqkLwYuKqutsIFRCU0s3ck/8FYuPeHZJr4dLQfkfhgeArPoTX3wiPF51p6WukWYXJnW8nki";
+        sout << "cE+7a6cGQKjXeqWW3dsrEPNMnylvdE7u2pK3Qwj3rygGJ2r4o+M3ErC8pl/22CPTH5+g2AhwVhoD";
+        sout << "wdETPoB2u462uKV5MEbdD42MMWd6U/RJ4rN07+gqFTFxlhviEGjN400dSnOLiy4KteTrAN6DTHT5";
+        sout << "XuXq4OudmmJxZBLuiPzjQuwG47oxZ9I8IAgRtjl9g3KzjDzcNSxa6b5a84a6g5wI7DcT8Ukr5XGI";
+        sout << "t9isw0C6/lkkW4vJFrhstCbsUJ1g65Eh/g4BDsGPCjaaeyBs4uyL2933pvCvH680PKw+C3fLZZLo";
+        sout << "dIofrzV58VKmM95py9D6nAGYJhxZIx/Yce/cQQImRLyQ+9sqTeHacfrSIs51EwV3f8xAENoTfZQY";
+        sout << "WWt1scNMT59nvEY72jxf4cNiChqnmoAxrNSC2+tQaPV3RemCDjhBcrDXyMr9zt3RR1xuYjS6/Lv9";
+        sout << "afov788m565FcKGREqDUgGcHP6VRiy5PG06/NUn7ovn4LGf5hBfH24tX+oSl7tbRrUwl/j8sfpUF";
+        sout << "1h9c1fWwXw7VQId3/r1EYfA3+ioHP4OwL87hmvkcMrATkBz2mYtfMhc+/avXxQxfW3YKf7TH6AJy";
+        sout << "x/TdqZjJGwsfjs77qi2ePT/Vtsw3KsRfqfLdvPKcOgsJOkxkopYwFLspNXdZcL9TQHmWTXFWBaew";
+        sout << "Xdiox/BEx+LCYlqOVhxv7quBaa02Pq8yH8UCWcSRqnWdgrhbEvHlA0b9fPM2INAKfMPi/embGmAV";
+        sout << "Pg+DFOZkRm0xsfyEGe+rDO59BK+I5hLOZwu08s5gwKFNRzxaED3TwhxTiqgTmTQPLbqv6MZiQN0R";
+        sout << "7GP8jy//J567XhwmEejJGy0Dc1AVutfNLgjp8u9GV7hXVvlJJfTrdg/hUDyPgWYj//DBPPOxIKez";
+        sout << "/wX2uANxqGHRYtruSFLXh/POyAlxzeE1XAnOo/mAKUmFMYldZgzwnUbXMpwCDw22yp3gzNkmdIxy";
+        sout << "RELLDrlm3yWhXMaJCMV8mTrlam/WEtFIHuXFfQL5eMZHILnXV20sFAQNg69NJv4+m799xR5+4bNF";
+        sout << "5pOq+OMN++vsR09uNmSFXegmupLz+jjZGMhFCqpEJNPRcYhKHhLb4GAmjhVbe3vkATazZcIBbvdo";
+        sout << "epbwuYccMpMF4GvqdgCCNgHAK/Yhky87R+g9npUfAccggkqG+nVu0vUXHwcFkJcHanftmtTd4+9u";
+        sout << "LWOXlwXOByzD6tFGN4EqjXjXmou31Oksb4C3A96UOHaLh3u9SZrYPOSxqD/9uNyE2bSsl8pky9QT";
+        sout << "q8tjflS/lb8C1uAAAA==";
+        return sout.str();
+    }
+}
+
+// --- Generic dataset access interface ---
+
+// Returns raw decompressed string for specified dataset
+// This is the base function that all typed accessors use internally
+inline std::string get_dataset_raw(dataset_id id)
+{
+    switch (id)
+    {
+    case dataset_id::SHAKESPEARE_EXTRACT:
+        return detail::decompress_data(datasets::get_shakespeare_compressed());
 
-// Full text for training
-const std::string shakespeare_text = concatenateTexts(shakespeare_text_parts);
+    case dataset_id::SHAKESPEARE_PROMPT:
+        return detail::decompress_data(datasets::get_shakespeare_prompt_compressed());
 
-// Prompt for text generation
-const std::string shakespeare_prompt = R"(QUEEN ELIZABETH:
-But thou didst kill my children.
+    case dataset_id::BLACK_HOLE_ARTICLE:
+        return detail::decompress_data(datasets::get_blackhole_article_compressed());
 
-KING RICHARD III:
-But in your daughter's womb I bury them:
-Where in that nest of spicery they shall breed
-Selves of themselves, to your recomforture.
+    case dataset_id::PHYSICS_PARAGRAPHS:
+        return detail::decompress_data(datasets::get_physics_paragraphs_compressed());
 
-QUEEN ELIZABETH:
-Shall I go win my daughter to thy will?
+    case dataset_id::BLACK_HOLE_QA_PARTA:
+        return detail::decompress_data(datasets::get_blackhole_qa_pa_compressed());
 
-KING RICHARD III:
-And be a happy mother by the deed.
+    case dataset_id::BLACK_HOLE_QA_PARTB:
+        return detail::decompress_data(datasets::get_blackhole_qa_pb_compressed());
 
-QUEEN ELIZABETH:
-I go. Write to me very shortly.
-And you shall understand from me her mind.
+    case dataset_id::BLACK_HOLE_QA_PARTC:
+        return detail::decompress_data(datasets::get_blackhole_qa_pc_compressed());
 
-)";
+    case dataset_id::GENERAL_KNOWLEDGE:
+        return detail::decompress_data(datasets::get_general_knowledge_compressed());
+
+    default:
+        throw std::invalid_argument("Unknown dataset_id");
+    }
+}
+
+/*!
+    Returns dataset as plain text string (RAW_TEXT format).
+    Use for datasets that contain continuous text without special structure.
+
+    Example:
+        auto text = get_dataset_as_text(dataset_id::SHAKESPEARE_EXTRACT);
+!*/
+inline std::string get_dataset_as_text(dataset_id id)
+{
+    return get_dataset_raw(id);
+}
+
+/*!
+    Returns combined datasets as vector of text segments (DELIMITED_TEXT format).
+    For each dataset ID, splits the decompressed text by "@@" delimiter and
+    concatenates all segments into a single vector.
+
+    Example:
+        std::vector<dataset_id> datasets = {
+            dataset_id::BLACK_HOLE_ARTICLE,
+            dataset_id::PHYSICS_PARAGRAPHS
+        };
+        auto paragraphs = get_dataset_as_segments(datasets);
+        for (const auto& para : paragraphs) {
+            // Process each paragraph from all combined datasets
+        }
+*/
+inline std::vector<std::string> get_dataset_as_segments(const std::vector<std::string>& docs)
+{
+    std::vector<std::string> result;
+    for (const auto& d : docs) {
+        auto segments = detail::split_by_delimiter(d);
+        result.insert(result.end(), segments.begin(), segments.end());
+    }
+    return result;
+}
+inline std::vector<std::string> get_dataset_as_segments(const std::vector<dataset_id>& ids)
+{
+    std::vector<std::string> result;
+    for (const auto& id : ids) {
+        auto segments = detail::split_by_delimiter(get_dataset_raw(id));
+        result.insert(result.end(), segments.begin(), segments.end());
+    }
+    return result;
+}
+
+/*!
+    Returns dataset as vector of string pairs (PAIRED_TEXT format).
+    Splits by "@@" and groups consecutive segments into pairs.
+    Requires: Decompressed data must have even number of segments
+
+    Example:
+        auto qa_pairs = get_dataset_as_pairs(dataset_id::BLACK_HOLE_QA_PARTA);
+        for (const auto& qa_pair : qa_pairs) {
+            auto q_tokens = tokenizer.encode(qa_pair.first);   // question
+            auto a_tokens = tokenizer.encode(qa_pair.second);  // answer
+        }
+!*/
+inline std::vector<std::pair<std::string, std::string>> get_dataset_as_pairs(const std::vector<dataset_id>& ids)
+{
+    std::vector<std::pair<std::string, std::string>> result;
+    for (const auto& id : ids) {
+        auto pairs = detail::parse_pairs(get_dataset_raw(id));
+        result.insert(result.end(), pairs.begin(), pairs.end());
+    }
+    return result;
+}
+inline std::vector<std::pair<std::string, std::string>>
+    get_dataset_as_pairs(dataset_id id)
+{
+    return detail::parse_pairs(get_dataset_raw(id));
+}
 
-#endif // SlmData_H
+#endif // SLM_DATA_H
diff --git a/examples/slm_defs.h b/examples/slm_defs.h
deleted file mode 100644
index d556fc0dab..0000000000
--- a/examples/slm_defs.h
+++ /dev/null
@@ -1,286 +0,0 @@
-#ifndef SlmNet_H
-#define SlmNet_H
-
-/**
- * @file slm_defs.h
- * @brief Optimized Transformer neural architecture for language processing
- *
- * Implements a Transformer architecture with multi-head attention and RMS
- * normalization, designed for efficient learning and inference. The architecture
- * leverages cognitive principles of parallel information processing and
- * selective attention.
- *
- * Key features:
- * - RMS normalization for enhanced stability
- * - Optimized residual connections
- * - Causal masking for autoregressive attention
- */
-
-#include <dlib/dnn.h>
-
-namespace transformer
-{
-    using namespace dlib;
-
-    // Scale Weights Layer
-    template <long d_k_>
-    class scale_weights_ : public multiply_ {
-    public:
-        explicit scale_weights_() : multiply_(1.0f / std::sqrt(static_cast<float>(d_k_))) {}
-    };
-
-    template <long d_k, typename SUBNET>
-    using scale_weights = add_layer<scale_weights_<d_k>, SUBNET>;
-
-    namespace def {
-        template <long num_heads, long d_model, typename SUBNET>
-        using query = extract<0, num_heads, d_model / num_heads, 1, SUBNET>;
-
-        template <long num_heads, long d_model, typename SUBNET>
-        using key = extract<d_model, num_heads, 1, d_model / num_heads, SUBNET>;
-
-        template <long num_heads, long d_model, typename SUBNET>
-        using value = extract<(d_model * 2), num_heads, d_model / num_heads, 1, SUBNET>;
-
-        /**
-         * Multi-Head Attention Layer
-         *
-         * Structure:
-         * 1. Input processing
-         *    - RMS normalization
-         *    - Single linear projection (d_model -> 3*d_model) for Q,K,V
-         * 2. Parallel head processing (num_heads)
-         *    - Split into Q, K, V tensors
-         *    - Key transposition for attention computation
-         * 3. Attention mechanism
-         *    - Scaled dot-product (Q*K^T / sqrt(d_k))
-         *    - Causal masking (tril_mask)
-         *    - Softmax normalization
-         *    - Value weighting
-         * 4. Output
-         *    - Head concatenation
-         *    - Residual connection
-         *
-         * Template parameters:
-         * @param ACT: Activation function type
-         * @param DO: Dropout layer type
-         * @param d_model: Model dimension
-         * @param num_heads: Number of attention heads
-         * @param SUBNET: Input subnet type
-         */
-        template <template <typename> class ACT, template <typename> class DO,
-            long d_model, long num_heads, typename SUBNET>
-        using multihead_attention = add_prev1<DO<extract<0, 1, 1, d_model, multm_prev3<
-            DO<softmaxm<tril_mask<
-            scale_weights<d_model / num_heads,
-            multm_prev4<query<num_heads, d_model, skip2<
-            tag4<key<num_heads, d_model, skip2<
-            tag3<value<num_heads, d_model,
-            tag2<fc_no_bias<d_model * 3, rms_norm<
-            tag1<SUBNET>>>>>>>>>>>>>>>>>>>>;
-
-        /**
-         * Feed-Forward Network Layer
-         *
-         * Structure:
-         * 1. Input processing
-         *    - RMS normalization
-         *    - Input tagged for residual connection
-         * 2. Transformation
-         *    - Expansion layer (d_model -> 4*d_model)
-         *    - Activation function
-         *    - Projection layer (4*d_model -> d_model)
-         * 3. Output
-         *    - Dropout
-         *    - Residual connection
-         *
-         * Template parameters:
-         * @param ACT: Activation function type
-         * @param DO: Dropout layer type
-         * @param d_model: Model dimension
-         * @param SUBNET: Input subnet type
-         */
-        template <template <typename> class ACT, template <typename> class DO, long d_model, typename SUBNET>
-        using feed_forward =
-            add_prev5<
-            DO<extract<0, 1, 1, d_model,
-            fc<d_model, ACT<fc<d_model * 4, rms_norm<
-            tag5<SUBNET>>>>>>>>;
-
-        /**
-         * Transformer Block
-         *
-         * Combines sequentially:
-         * 1. Multi-head attention layer
-         * 2. Feed-forward network
-         *
-         * Template parameters:
-         * @param ACT: Activation function type
-         * @param DO: Dropout layer type
-         * @param d_model: Model dimension
-         * @param num_heads: Number of attention heads
-         * @param SUBNET: Input subnet type
-         */
-        template <template <typename> class ACT, template <typename> class DO, long seq_len, long d_model, long num_heads, typename SUBNET>
-        using transformer_block =
-            feed_forward<ACT, DO, d_model,
-            multihead_attention<ACT, DO, d_model, num_heads, SUBNET>>;
-    }
-
-    // Positional Embeddings
-    template <long num_embeddings, long embedding_length, typename SUBNET>
-    using positional_embeddings = positional_encodings<embeddings<num_embeddings, embedding_length, SUBNET>>;
-
-    // Classification Head   
-    template <template <typename> class ACT, long embedding_length, typename SUBNET>
-    using squeezing = fc<embedding_length / 4, ACT<fc<embedding_length / 8, SUBNET>>>;
-
-    template <bool USE_SQUEEZING, template <typename> class ACT, long num_logits, long embedding_length, typename SUBNET>
-    struct classification_head_impl;
-    template <template <typename> class ACT, long num_logits, long embedding_length, typename SUBNET>
-    struct classification_head_impl<true, ACT, num_logits, embedding_length, SUBNET>
-    {
-        using type = loss_multiclass_log<fc<num_logits, squeezing<ACT, embedding_length, rms_norm<SUBNET>>>>;
-    };
-    template <template <typename> class ACT, long num_logits, long embedding_length, typename SUBNET>
-    struct classification_head_impl<false, ACT, num_logits, embedding_length, SUBNET>
-    {
-        using type = loss_multiclass_log<fc<num_logits, rms_norm<SUBNET>>>;
-    };
-    template <bool USE_SQUEEZING, template <typename> class ACT, long num_logits, long embedding_length, typename SUBNET>
-    using classification_head = typename classification_head_impl<USE_SQUEEZING, ACT, num_logits, embedding_length, SUBNET>::type;
-
-    /**
-     * @brief Transformer Model Configuration Template
-     *
-     * Provides a flexible and type-safe configuration mechanism for Transformer models
-     * with compile-time parameter validation and network generation.
-     *
-     * Template parameters:
-     * @param vocab_size Vocabulary size for token embedding
-     * @param num_layers Number of Transformer layers
-     * @param num_heads Number of attention heads
-     * @param embedding_dim Dimension of token embeddings
-     * @param max_seq_len Maximum sequence length
-     * @param use_squeezing Use squeezing layer
-     * @param activation_func Activation function type
-     * @param dropout_policy Dropout regularization policy
-     */
-    template <
-        long vocab_size = 5000,                                 // Default vocabulary size
-        long num_layers = 6,                                    // Default number of layers
-        long num_heads = 8,                                     // Default number of attention heads
-        long embedding_dim = 128,                               // Default embedding dimension
-        long max_seq_len = 100,                                 // Default maximum sequence length
-        bool use_squeezing = false,                             // Default use squeezing layer
-        template <typename> class activation_func = gelu,       // Default activation function
-        template <typename> class dropout_policy = dropout_10   // Default dropout policy
-    >
-    struct transformer_config {
-        // Core model parameters
-        static constexpr long VOCAB_SIZE = vocab_size;
-        static constexpr long NUM_LAYERS = num_layers;
-        static constexpr long NUM_HEADS = num_heads;
-        static constexpr long EMBEDDING_DIM = embedding_dim;
-        static constexpr long MAX_SEQ_LEN = max_seq_len;
-        static constexpr bool USE_SQUEEZING = use_squeezing;
-
-        /**
-         * @brief Compile-time validation of model configuration
-         *
-         * Performs static assertions to ensure valid model parameters
-         */
-        struct validation {
-            static_assert(VOCAB_SIZE > 0, "Vocabulary size must be positive");
-            static_assert(NUM_LAYERS > 0, "Number of layers must be positive");
-            static_assert(NUM_HEADS > 0, "Number of attention heads must be positive");
-            static_assert(EMBEDDING_DIM% NUM_HEADS == 0, "Embedding dimension must be divisible by number of heads");
-        };
-
-        /**
-         * @brief Network type generation based on training/inference mode
-         *
-         * Generates different network types for training and inference
-         * using the configured parameters
-         *
-         * Template parameters:
-         * @tparam is_training Determines training or inference network type
-         */
-        template <typename SUBNET>
-        using t_transformer_block = def::transformer_block<activation_func, dropout_policy, MAX_SEQ_LEN, EMBEDDING_DIM, NUM_HEADS, SUBNET>;
-        template <typename SUBNET>
-        using i_transformer_block = def::transformer_block<activation_func, multiply, MAX_SEQ_LEN, EMBEDDING_DIM, NUM_HEADS, SUBNET>;
-
-        template<bool is_training>
-        using network_type = std::conditional_t<is_training,
-            classification_head<USE_SQUEEZING, activation_func, VOCAB_SIZE, EMBEDDING_DIM,
-                repeat<NUM_LAYERS, t_transformer_block,
-                positional_embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>,
-            classification_head<USE_SQUEEZING, activation_func, VOCAB_SIZE, EMBEDDING_DIM,
-                repeat<NUM_LAYERS, i_transformer_block,
-                positional_embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>
-            >;
-
-        /**
-         * @brief Model configuration information and debugging utility
-         *
-         * Provides methods to generate human-readable model configuration details
-         */
-        struct model_info {
-            /**
-             * @brief Generate a detailed description of the model configuration
-             *
-             * @return String containing model configuration details
-             */
-            static std::string describe() {
-                std::stringstream ss;
-                ss << "Transformer model configuration:\n"
-                    << "- vocabulary size: " << VOCAB_SIZE << "\n"
-                    << "- layers: " << NUM_LAYERS << "\n"
-                    << "- attention heads: " << NUM_HEADS << "\n"
-                    << "- embedding dimension: " << EMBEDDING_DIM << "\n"
-                    << "- max sequence length: " << MAX_SEQ_LEN;
-                return ss.str();
-            }
-        };
-    };
-
-    using vslm = transformer_config<>; // Very Small Language Model
-
-    /**
-     * @example Configuration and Usage Examples
-     *
-     * // Creating different transformer configurations
-     * using default_transformer = transformer_config<>;
-     * using large_transformer_with_squeezing = transformer_config<
-     *     50000,  // Larger vocabulary
-     *     8,      // More layers
-     *     8,      // More heads
-     *     512,    // Larger embedding dimension
-     *     128,    // Longer sequences
-     *     true    // Use squeezing
-     * >;
-     *
-     * // Network type instantiations for different modes
-     * using train_network = default_transformer::network_type<true>;
-     * using inference_network = default_transformer::network_type<false>;
-     *
-     * // Utility function to print model configuration
-     * void print_model_info() {
-     *     std::cout << default_transformer::model_info::describe() << std::endl;
-     * }
-     *
-     * @note
-     * - Supports compile-time configuration
-     * - Provides static validation of model parameters
-     * - Enables dynamic network type generation
-     * - Offers advanced hyperparameter tuning utilities
-     *
-     * @author Cydral
-     * @site https://github.com/Cydral/ERNIE
-     * @version 1.0
-     * @date 11/2024
-     */
-}
-
-#endif // SlmNet_H
diff --git a/examples/slm_mixture_of_experts_ex.cpp b/examples/slm_mixture_of_experts_ex.cpp
new file mode 100644
index 0000000000..3dc2cf262b
--- /dev/null
+++ b/examples/slm_mixture_of_experts_ex.cpp
@@ -0,0 +1,1133 @@
+﻿/*!
+    @file slm_mixture_of_experts_ex.cpp
+    @brief Transformer with Mixture-of-Experts language model training and generation
+
+    This program demonstrates how to build a transformer-based language model enhanced
+    with Mixture-of-Experts (MoE) layers using Dlib's advanced deep learning capabilities.
+    The example shows how to integrate the moe_ffn layer that replaces standard
+    feed-forward networks with dynamic expert routing for improved model capacity
+    and specialization.
+
+    Key features:
+    - Mixture-of-Experts architecture with dynamic expert selection
+    - Sparse activation pattern (only top-n experts active per input)
+    - Automatic load balancing across experts through auxiliary loss
+    - Multi-head self-attention with causal masking for autoregressive generation
+    - Padding-aware attention masks via tril_padding_context for variable-length sequences
+    - Learning rate scheduler with warmup and cosine decay for stable convergence
+    - BPE tokenization for efficient vocabulary management
+    - Checkpoint support for both trainer state and scheduler state
+    - Complete training and generation pipeline using internal and external datasets
+
+    Usage modes:
+    --train      Train model on internal datasets with MoE layers
+    --generate   Generate text from trained MoE-enhanced model
+
+    Training considerations:
+    - Warmup phase prevents early gradient instability (default: 2000 steps or 10%)
+    - Cosine decay provides smooth learning rate annealing to minimum LR
+    - Scheduler state is saved separately for proper training resumption
+    - Padding context enables efficient batching of variable-length sequences
+!*/
+#include <iostream>
+#include <string>
+#include <vector>
+#include <algorithm>
+#include <cmath>
+#include <random>
+#include <fstream>
+#include <chrono>
+#include <csignal>
+
+#include <dlib/dnn.h>
+#include <dlib/data_io.h>
+#include <dlib/cmd_line_parser.h>
+#include <dlib/tokenizer/bpe_tokenizer.h>
+#include <dlib/misc_api.h>
+
+// Include internal dataset
+#include "slm_data.h"
+
+using namespace std;
+using namespace dlib;
+
+namespace dlib
+{
+    // Expert network architecture for MoE layer
+    template <template <typename> class DO, long d_model>
+    using expert_net_type = swiglu<DO, d_model, input_tensor>;
+
+    /*!
+        Complete transformer block with MoE-based feed-forward layer.
+        Architecture:
+        1. Multi-head self-attention (from canonical_transformer)
+        2. MoE feed-forward layer with multiple expert networks
+        f
+        This replaces the standard transformer feed-forward layer with a
+        mixture-of-experts that can specialize different experts for different
+        types of patterns in the input.
+    !*/
+    template <template <typename> class ACT, template <typename> class DO,
+        long d_model, long num_heads, typename MODE, typename SUBNET>
+    using trans_moe_block =
+        moe_ffn<expert_net_type<DO, d_model>, 4, 0, MODE, DO,
+        add_prev1<multihead_attention<ACT, DO, d_model, num_heads, rms_norm<tag1<SUBNET>>>>>;
+
+    /*!
+        Classification head for next-token prediction.
+    !*/
+    template <long num_logits, typename SUBNET>
+    using classification_head = loss_cross_entropy_per_logit<linear<num_logits, rms_norm<SUBNET>>>;
+
+    // Core model parameters
+    template<
+        long vocab_size = 15000,
+        long num_layers = 6,
+        long num_heads = 8,
+        long embedding_dim = 512,
+        template <typename> class activation_func = gelu,
+        template <typename> class dropout_policy = dropout_10
+    >
+        struct transformer_config {        
+        static constexpr long VOCAB_SIZE = vocab_size;
+        static constexpr long NUM_LAYERS = num_layers;
+        static constexpr long NUM_HEADS = num_heads;
+        static constexpr long EMBEDDING_DIM = embedding_dim;
+
+        struct validation {
+            static_assert(VOCAB_SIZE > 0, "Vocabulary size must be positive");
+            static_assert(NUM_LAYERS > 0, "Number of layers must be positive");
+            static_assert(NUM_HEADS > 0, "Number of attention heads must be positive");
+            static_assert(EMBEDDING_DIM% NUM_HEADS == 0, "Embedding dimension must be divisible by number of heads");
+        };
+
+        // Network component definitions for training (with dropout)
+        template <typename SUBNET>
+        using t_transformer_block =
+            trans_moe_block<activation_func, dropout_policy, EMBEDDING_DIM, NUM_HEADS,
+            training_mode_tag, SUBNET>;
+
+        // Network component definitions for inference (using multiply)
+        template <typename SUBNET>
+        using i_transformer_block =
+            trans_moe_block<activation_func, multiply, EMBEDDING_DIM, NUM_HEADS,
+            inference_mode_tag, SUBNET>;
+
+        // Complete network type selector based on training/inference mode
+        template<bool is_training>
+        using network_type = std::conditional_t<is_training,
+            classification_head<VOCAB_SIZE,
+            repeat<NUM_LAYERS, t_transformer_block,
+            embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>,
+            classification_head<VOCAB_SIZE,
+            repeat<NUM_LAYERS, i_transformer_block,
+            embeddings<VOCAB_SIZE, EMBEDDING_DIM, input<matrix<int, 0, 1>>>>>>;
+
+        struct model_info {
+            static std::string describe() {
+                std::stringstream ss;
+                ss << "Transformer-MoE model configuration:\n"
+                    << "- vocabulary size: " << VOCAB_SIZE << "\n"
+                    << "- layers: " << NUM_LAYERS << "\n"
+                    << "- attention heads: " << NUM_HEADS << "\n"
+                    << "- embedding dimension: " << EMBEDDING_DIM << "\n"
+                    << "- architecture: Transformer with MoE feed-forward layers\n"
+                    << "- experts per layer: 4 (auto top-n selection)";
+                return ss.str();
+            }
+        };
+    };
+}
+
+// Utility functions
+
+bool load_tokens_from_file(std::vector<int>& tokens, const std::string& filename)
+{
+    std::ifstream file(filename, std::ios::binary);
+    if (!file) return false;
+
+    uint64_t num_tokens;
+    file.read(reinterpret_cast<char*>(&num_tokens), sizeof(num_tokens));
+    if (!file.good()) return false;
+
+    tokens.clear();
+    tokens.reserve(num_tokens);
+
+    for (uint64_t i = 0; i < num_tokens; ++i) {
+        uint32_t t;
+        file.read(reinterpret_cast<char*>(&t), sizeof(t));
+        if (!file.good()) return false;
+        tokens.push_back(static_cast<int>(t));
+    }
+
+    return true;
+}
+
+// ----------------------------------------------------------------------------------------
+
+// Structure to hold MoE parameter information with breakdown
+// by component and computation mode
+struct moe_param_info
+{
+    size_t expert_params;           // Parameters per single expert
+    size_t other_params;            // Non-MoE layers (embeddings, attention, etc.)
+    size_t total_training_params;   // Total parameters during training
+    size_t total_inference_params;  // Active parameters during inference
+    long num_experts;               // Number of experts per MoE layer
+    long num_moe_layers;            // Number of MoE layers in the network
+    long top_n;                     // Number of active experts during inference
+    float efficiency_ratio;         // Ratio of inference/training params
+    std::vector<float> expert_usage; // Usage statistics per expert
+
+    void print() const
+    {
+        std::cout << "=== MoE network parameter analysis ===\n"
+            << "Architecture:\n"
+            << "  MoE layers: " << num_moe_layers << "\n"
+            << "  Experts per layer: " << num_experts << "\n"
+            << "  Active experts (top-n): " << top_n << "\n\n"
+            << "Parameter breakdown per MoE layer:\n"
+            << "  Single expert: " << expert_params << " params\n"
+            << "Total network parameters:\n"
+            << "  Other layers (attn, embed, etc.): " << other_params << " params\n"
+            << "  Training (all experts): " << total_training_params << " params\n"
+            << "  Inference (top-n experts): " << total_inference_params << " params\n\n"
+            << "Efficiency:\n"
+            << "  Inference uses " << (efficiency_ratio * 100.0f) << "% of training params\n"
+            << "  Savings: " << ((1.0f - efficiency_ratio) * 100.0f) << "% fewer active params\n\n";
+
+        // Display expert usage statistics
+        if (!expert_usage.empty()) {
+            std::cout << "Expert usage statistics (EMA):\n";
+
+            // Calculate statistics
+            float total_usage = 0.0f;
+            float min_usage = expert_usage[0];
+            float max_usage = expert_usage[0];
+
+            for (float u : expert_usage) {
+                total_usage += u;
+                min_usage = std::min(min_usage, u);
+                max_usage = std::max(max_usage, u);
+            }
+
+            float mean_usage = total_usage / num_experts;
+            float ideal_usage = 1.0f / num_experts;
+
+            // Calculate variance for coefficient of variation
+            float variance = 0.0f;
+            for (float u : expert_usage) {
+                float diff = u - mean_usage;
+                variance += diff * diff;
+            }
+            variance /= num_experts;
+            float std_dev = std::sqrt(variance);
+            float cv = (mean_usage > 1e-8f) ? (std_dev / mean_usage) : 0.0f;
+
+            std::cout << "  Mean usage: " << std::fixed << std::setprecision(4)
+                << mean_usage << " (ideal: " << ideal_usage << ")\n";
+            std::cout << "  Range: [" << min_usage << ", " << max_usage << "]\n";
+            std::cout << "  Std dev: " << std_dev << "\n";
+            std::cout << "  Coefficient of variation: " << cv << "\n";
+
+            // Balance quality assessment
+            std::cout << "  Balance quality: ";
+            if (cv < 0.3f)
+                std::cout << "excellent (CV < 0.3)\n";
+            else if (cv < 0.5f)
+                std::cout << "good (CV < 0.5)\n";
+            else if (cv < 0.8f)
+                std::cout << "fair (CV < 0.8)\n";
+            else
+                std::cout << "poor (CV >= 0.8) - possible expert collapse\n";
+
+            std::cout << "\n  Per-expert usage:\n";
+            for (long e = 0; e < num_experts; ++e) {
+                std::cout << "    expert " << e << ": "
+                    << std::fixed << std::setprecision(4) << expert_usage[e];
+
+                // Visual bar indicator
+                int bar_length = static_cast<int>(expert_usage[e] * 50.0f / max_usage);
+                std::cout << " [";
+                for (int i = 0; i < bar_length; ++i)
+                    std::cout << "=";
+                for (int i = bar_length; i < 20; ++i)
+                    std::cout << " ";
+                std::cout << "]";
+
+                // Flag over/under utilized experts
+                float usage_ratio = expert_usage[e] / ideal_usage;
+                if (usage_ratio < 0.5f)
+                    std::cout << " (underutilized)";
+                else if (usage_ratio > 2.0f)
+                    std::cout << " (overutilized)";
+
+                std::cout << "\n";
+            }
+        }
+        else {
+            std::cout << "Expert usage statistics: Not available (inference mode or no training yet)\n";
+        }
+
+        std::cout << "\n";
+    }
+};
+
+template <typename net_type>
+moe_param_info get_moe_param_info(const net_type& net, long num_layers)
+{
+    moe_param_info info;
+
+    // Access first MoE layer
+    const auto& moe_layer = layer<4>(net).layer_details();
+
+    // Get MoE configuration
+    info.num_experts = moe_layer.num_experts();
+    info.num_moe_layers = num_layers;
+
+    // Count parameters in one expert network
+    if (info.num_experts > 0) {
+        info.expert_params = count_parameters(moe_layer.get_expert(0));
+
+        // Determine top_k (either fixed or auto-calculated as 20% of experts)
+        info.top_n = std::max(1L, static_cast<long>(std::floor(info.num_experts * 0.2f)));
+    }
+    else {
+        info.expert_params = 0;
+        info.top_n = 0;
+    }
+
+    // Count other parameters (embeddings, attention layers, output layer)
+    info.other_params = count_parameters(net);
+
+    // Calculate total parameters for training (all experts in all MoE layers)
+    size_t moe_training_params = info.num_moe_layers *
+        (info.num_experts * info.expert_params);
+    info.total_training_params = info.other_params + moe_training_params;
+
+    // Calculate active parameters during inference (only top-n experts)
+    size_t moe_inference_params = info.num_moe_layers *
+        (info.top_n * info.expert_params);
+    info.total_inference_params = info.other_params + moe_inference_params;
+
+    // Calculate efficiency ratio
+    if (info.total_training_params > 0) {
+        info.efficiency_ratio = static_cast<float>(info.total_inference_params) /
+            static_cast<float>(info.total_training_params);
+    }
+    else {
+        info.efficiency_ratio = 1.0f;
+    }
+
+    // Retrieve expert usage statistics
+    info.expert_usage = moe_layer.get_expert_usage();
+
+    return info;
+}
+
+// Reads entire file content into a string.
+std::string read_file_content(const std::string& filepath)
+{
+    std::ifstream file(filepath, std::ios::binary);
+    if (!file) {
+        cerr << "Warning: Cannot open file: " << filepath << "\n";
+        return "";
+    }
+
+    std::stringstream buffer;
+    buffer << file.rdbuf();
+    return buffer.str();
+}
+
+// Replaces all occurrences of double newlines ("\n\n") with "@@" delimiter.
+std::string normalize_paragraph_delimiters(const std::string& text)
+{
+    std::string result;
+    result.reserve(text.size());
+
+    size_t i = 0;
+    while (i < text.size()) {
+        // Check for double (or more) newlines
+        if (i + 1 < text.size() && text[i] == '\n' && text[i + 1] == '\n') {
+            result += "@@";
+            i += 2;
+
+            // Skip any additional consecutive newlines
+            while (i < text.size() && text[i] == '\n') ++i;
+        }
+        else {
+            result += text[i];
+            ++i;
+        }
+    }
+
+    return result;
+}
+
+// Recursively collects all text files from a directory using Dlib's directory class.
+void collect_text_files_recursive(
+    const directory& dir,
+    std::vector<std::string>& text_files,
+    size_t max_files = 0
+)
+{
+    // Process files in current directory
+    for (const auto& file : dir.get_files()) {
+        if (max_files > 0 && text_files.size() >= max_files) return;
+
+        // Check if it's a text file using file type detection
+        file_content_type content_type;
+        if (detect_file_type(file.full_name(), content_type)) {
+            text_files.push_back(file.full_name());
+            cout << "  Found text file: " << file.name() << "\n";
+        }
+    }
+
+    // Recursively process subdirectories
+    for (const auto& subdir : dir.get_dirs()) {
+        if (max_files > 0 && text_files.size() >= max_files) {
+            return;
+        }
+        collect_text_files_recursive(subdir, text_files, max_files);
+    }
+}
+
+// Loads external text data from a file or directory
+std::string load_external_data(
+    const std::string& path,
+    bool normalize_delimiters = true
+)
+{
+    std::string combined_text;
+
+    try {
+        // Try as directory first
+        directory dir(path);
+
+        cout << "Scanning directory recursively: " << path << "\n";
+
+        std::vector<std::string> text_files;
+        collect_text_files_recursive(dir, text_files);
+
+        cout << "Found " << text_files.size() << " text file(s)\n";
+
+        if (text_files.empty()) {
+            cerr << "Warning: No text files found in directory\n";
+            return "";
+        }
+
+        // Sort files for consistent ordering
+        std::sort(text_files.begin(), text_files.end());
+
+        // Concatenate all files with delimiter
+        size_t total_bytes = 0;
+        for (const auto& filepath : text_files) {
+            std::string content = read_file_content(filepath);
+            if (!content.empty()) {
+                combined_text += content;
+
+                // Ensure content ends with delimiter for next file
+                if (!combined_text.empty() &&
+                    combined_text.size() >= 2 &&
+                    combined_text.substr(combined_text.size() - 2) != "@@") {
+                    combined_text += "@@";
+                }
+
+                total_bytes += content.size();
+            }
+        }
+
+        cout << "Total loaded: " << total_bytes << " bytes from "
+            << text_files.size() << " file(s)\n";
+    }
+    catch (const directory::dir_not_found&) {
+        // Not a directory, try as single file
+        cout << "Loading single text file: " << path << "\n";
+
+        // Verify it's a text file
+        file_content_type content_type;
+        if (!detect_file_type(path, content_type)) {
+            cerr << "Error: File does not appear to be text: " << path << "\n";
+            cerr << "Only plain text files are supported for training.\n";
+            return "";
+        }
+
+        combined_text = read_file_content(path);
+
+        if (combined_text.empty()) {
+            cerr << "Warning: File is empty or could not be read\n";
+            return "";
+        }
+
+        cout << "Loaded " << combined_text.size() << " bytes from file\n";
+    }
+    catch (const std::exception& e) {
+        cerr << "Error loading external data: " << e.what() << "\n";
+        return "";
+    }
+
+    // Normalize paragraph delimiters if requested
+    if (normalize_delimiters && !combined_text.empty())
+        combined_text = normalize_paragraph_delimiters(combined_text);
+
+    return combined_text;
+}
+
+// Parses text with @@ delimiters into individual segments.
+std::vector<std::string> parse_delimited_segments(const std::string& text)
+{
+    std::vector<std::string> segments;
+    std::string delimiter = "@@";
+
+    size_t start = 0;
+    size_t end = text.find(delimiter);
+
+    while (end != std::string::npos) {
+        std::string segment = text.substr(start, end - start);
+
+        // Trim whitespace
+        size_t first = segment.find_first_not_of(" \t\n\r");
+        if (first != std::string::npos) {
+            size_t last = segment.find_last_not_of(" \t\n\r");
+            segment = segment.substr(first, last - first + 1);
+
+            // Add non-empty segments
+            if (!segment.empty()) {
+                segments.push_back(segment);
+            }
+        }
+
+        start = end + delimiter.length();
+        end = text.find(delimiter, start);
+    }
+
+    // Handle last segment
+    if (start < text.size()) {
+        std::string segment = text.substr(start);
+        size_t first = segment.find_first_not_of(" \t\n\r");
+        if (first != std::string::npos) {
+            size_t last = segment.find_last_not_of(" \t\n\r");
+            segment = segment.substr(first, last - first + 1);
+            if (!segment.empty()) {
+                segments.push_back(segment);
+            }
+        }
+    }
+
+    return segments;
+}
+
+int main(int argc, char** argv)
+{
+    try
+    {
+        // Setup interrupt handling for clean termination
+        signal_handler::setup();
+
+        command_line_parser parser;
+        parser.add_option("train", "Train a transformer model on internal datasets");
+        parser.add_option("generate", "Generate text from a previously trained model");
+        parser.add_option("learning-rate", "Set the learning rate (default: 3e-4)", 1);
+        parser.add_option("batch-size", "Set the mini-batch size (default: 96)", 1);
+        parser.add_option("patience", "Iterations without progress before early stopping (default: 25000)", 1);
+        parser.add_option("max-epochs", "Maximum number of training epochs (default: 500)", 1);
+        parser.add_option("weight-decay", "Set the weight decay for AdamW (default: 0.01)", 1);
+        parser.add_option("beta1", "Set AdamW's beta1 coefficient (default: 0.9)", 1);
+        parser.add_option("beta2", "Set AdamW's beta2 coefficient (default: 0.999)", 1);
+        parser.add_option("model-file", "Path for model (default: dlib_lm_moe_model.dat)", 1);
+        parser.add_option("tokenizer-file", "Path for tokenizer (default: dlib_lm_tokenizer.vocab)", 1);
+        parser.add_option("output-file", "Path for generated output (default: generated_text.txt)", 1);
+        parser.add_option("external-data", "Path to external text data", 1);
+        parser.parse(argc, argv);
+
+        if (parser.number_of_arguments() == 0 &&
+            !parser.option("train") && !parser.option("generate"))
+        {
+            parser.print_options();
+            return 0;
+        }
+
+        // Default values
+        const double learning_rate = get_option(parser, "learning-rate", 3e-4);
+        const size_t batch_size = get_option(parser, "batch-size", 96);
+        const long patience = get_option(parser, "patience", 25000);
+        const size_t max_epochs = get_option(parser, "max-epochs", 500);
+        const double weight_decay = get_option(parser, "weight-decay", 0.01);
+        const double beta1 = get_option(parser, "beta1", 0.9);
+        const double beta2 = get_option(parser, "beta2", 0.999);
+        const std::string model_file = get_option(parser, "model-file", "dlib_lm_moe_model.dat");
+        const std::string tokenizer_file = get_option(parser, "tokenizer-file", "dlib_lm_tokenizer.vocab");
+        const std::string output_file = get_option(parser, "output-file", "generated_text.txt");
+
+        // Model architecture parameters
+        const long num_tokens = 2000;
+        const long num_layers = 3;
+        const long num_heads = 6;
+        const long embedding_dim = 192;
+        const long max_seq_len = 128;
+
+        // Define transformer configuration with MoE
+        using my_transformer = transformer_config<
+            num_tokens,     // vocab_size
+            num_layers,     // number of layers
+            num_heads,      // number of attention heads
+            embedding_dim   // embedding dimension
+        > ;
+
+        // Load internal dataset
+        cout << "Loading internal training datasets...\n";
+        std::vector<dataset_id> text_datasets = {
+            dataset_id::BLACK_HOLE_ARTICLE,
+            dataset_id::PHYSICS_PARAGRAPHS,
+			dataset_id::GENERAL_KNOWLEDGE
+        };
+        auto text_segments = get_dataset_as_segments(text_datasets);
+
+        // Load external data if provided
+        std::string external_corpus_for_tokenizer;
+        if (parser.option("external-data")) {
+            std::string external_path = parser.option("external-data").argument();
+
+            std::string external_text = load_external_data(external_path, true);
+            if (!external_text.empty()) {
+                // Store raw text for tokenizer training (if needed later)
+                external_corpus_for_tokenizer = external_text;
+
+                // Parse into segments for training
+                cout << "Parsing external data into segments...\n";
+                auto external_segments = parse_delimited_segments(external_text);
+                cout << "Parsed " << external_segments.size() << " external segments\n";
+
+                if (!external_segments.empty()) {
+                    // Add to training data
+                    size_t original_count = text_segments.size();
+                    text_segments.insert(text_segments.end(),
+                        external_segments.begin(), external_segments.end());
+
+                    cout << "Training segments: " << original_count
+                        << " (internal) + " << external_segments.size()
+                        << " (external) = " << text_segments.size() << " (total)\n";
+                }
+            }
+            else {
+                cerr << "Warning: no valid external data loaded, continuing with internal datasets only\n";
+            }
+        }
+
+        // Tokens filename
+        const std::string tokens_file = "dlib_datasets_tokens.bin";
+
+        // Tokenizer BPE
+        bpe_tokenizer tokenizer;
+
+        // Load pre-trained tokenizer if it exists
+        if (file_exists(tokenizer_file)) {
+            cout << "Loading pre-trained tokenizer from: " << tokenizer_file << endl;
+            deserialize(tokenizer_file) >> tokenizer;
+            cout << "Tokenizer loaded successfully with vocabulary size: " << tokenizer.get_vocab_size() << endl;
+        }
+        else {
+            cout << "Pre-trained tokenizer not found at: " << tokenizer_file << endl;
+            cout << "Will train a new tokenizer if needed." << endl;
+        }
+
+        // For GPU usage (if available)
+        std::vector<int> gpus{ 0 };
+
+        // Variables to store tokens (one vector per segment)
+        std::vector<std::vector<int>> full_tokens;
+
+        // Training mode
+        if (parser.option("train"))
+        {
+            cout << "=== TRAINING MODE ===\n";            
+
+            // Check if we should load pre-tokenized tokens
+            bool tokens_loaded = false;
+            if (file_exists(tokens_file)) {
+                cout << "Found pre-tokenized tokens file: " << tokens_file << endl;
+                cout << "Loading tokens from file...\n";
+                try {
+                    dlib::deserialize(tokens_file) >> full_tokens;
+
+                    // Calculate total tokens across all segments
+                    size_t total_tokens = 0;
+                    for (const auto& segment_tokens : full_tokens)
+                        total_tokens += segment_tokens.size();
+
+                    cout << "Loaded " << full_tokens.size() << " segments ("
+                        << total_tokens << " tokens) from file\n";
+                    tokens_loaded = true;
+                }
+                catch (const std::exception& e) {
+                    cerr << "Failed to load tokens from file: " << e.what()
+                        << "\nWill tokenize again.\n";
+                    full_tokens.clear();
+                }
+            }
+
+            if (!tokens_loaded) {
+                // Train a new tokenizer if needed
+                if (!file_exists(tokenizer_file)) {
+                    cout << "Training new BPE tokenizer with vocabulary size " << num_tokens << "...\n";
+
+                    // Compose training corpus from multiple datasets
+                    std::string delimiter = "@@";
+                    std::string tokenizer_corpus =
+                        get_dataset_as_text(dataset_id::BLACK_HOLE_ARTICLE) + delimiter
+                        + get_dataset_as_text(dataset_id::PHYSICS_PARAGRAPHS) + delimiter
+                        + get_dataset_as_text(dataset_id::BLACK_HOLE_QA_PARTA) + delimiter
+                        + get_dataset_as_text(dataset_id::BLACK_HOLE_QA_PARTB) + delimiter
+                        + get_dataset_as_text(dataset_id::BLACK_HOLE_QA_PARTC) + delimiter
+                        + get_dataset_as_text(dataset_id::GENERAL_KNOWLEDGE);
+
+                    if (!external_corpus_for_tokenizer.empty())
+                        tokenizer_corpus += delimiter + external_corpus_for_tokenizer;
+                    cout << "Tokenizer corpus: " << tokenizer_corpus.size() << " characters\n";
+
+                    // Replace all "@@" delimiters with spaces
+                    size_t pos = 0;
+                    while ((pos = tokenizer_corpus.find(delimiter, pos)) != std::string::npos) {
+                        tokenizer_corpus.replace(pos, delimiter.length(), " ");
+                        pos += 1; // Move past the replacement space
+                    }
+
+                    tokenizer.train(tokenizer_corpus, num_tokens, 1e6, true);
+                    serialize(tokenizer_file) << tokenizer;
+                    cout << "Tokenizer saved to " << tokenizer_file << endl;
+                }
+
+                // Tokenize all text segments
+                cout << "Tokenizing input text segments...\n";
+                long text_start_id = tokenizer.get_special_token_id("<text>"),
+                    text_end_id = tokenizer.get_special_token_id("</text>");
+                if (text_start_id < 0 || text_end_id < 0) {
+                    cerr << "ERROR: Required special tokens not found in tokenizer vocabulary!\n";
+                    cerr << "The tokenizer must include: <text>, </text>\n";
+                    return 1;
+                }
+
+                auto start_time = std::chrono::high_resolution_clock::now();
+                full_tokens.clear();
+
+                // Format : <text>content</text>
+                size_t total_tokens = 0;
+                for (const auto& segment : text_segments) {
+                    std::vector<int> segment_tokens;
+                    segment_tokens.push_back(text_start_id);
+                    auto encoded_tokens = tokenizer.encode(segment);
+                    segment_tokens.insert(segment_tokens.end(), encoded_tokens.begin(), encoded_tokens.end());
+                    segment_tokens.push_back(text_end_id);
+
+                    total_tokens += segment_tokens.size();
+                    full_tokens.push_back(std::move(segment_tokens));
+                }
+
+                auto end_time = std::chrono::high_resolution_clock::now();
+                auto tokenize_time = std::chrono::duration_cast<std::chrono::seconds>(end_time - start_time).count();
+                cout << "Tokenization complete: " << total_tokens << " tokens in " << tokenize_time << "s.\n";
+                text_segments.clear();
+
+                // Save tokens for future use using Dlib serialization
+                cout << "Saving tokens to file: " << tokens_file << endl;
+                try {
+                    serialize(tokens_file) << full_tokens;
+                    cout << "Tokens successfully saved for future use.\n";
+                }
+                catch (const std::exception& e) {
+                    cerr << "Warning: Failed to save tokens: " << e.what() << "\n";
+                }
+            }
+
+            // Prepare training sequences (sliding window)
+            cout << "Preparing training sequences...\n";
+            std::vector<matrix<int, 0, 1>> samples;
+            std::vector<unsigned long> labels;
+
+            build_single_token_prediction_dataset(full_tokens, max_seq_len,
+                tokenizer.get_special_token_id("<pad>"), false,
+                samples, labels);
+            cout << "Created " << samples.size() << " training samples\n";
+
+            // Augment the dataset with 5% additional noisy samples
+            augment_training_dataset(
+                samples, labels,
+                tokenizer.get_special_token_id("<unk>"),
+                tokenizer.get_special_token_id("<pad>"),
+                0.05
+            );
+            std::cout << "Augmented dataset size: " << samples.size() << std::endl;
+
+            // Release memory as we no longer need the tokens at this point
+            full_tokens.clear();            
+
+            // Build and train the network
+            using net_type = my_transformer::network_type<true>;
+            net_type net;
+            const long pad_token = tokenizer.get_special_token_id("<pad>");
+            layer<0>(net).loss_details().set_ignore_index(pad_token);
+            cout << my_transformer::model_info::describe() << endl;
+
+            // Create trainer
+            dnn_trainer<net_type, adamw> trainer(net, adamw(weight_decay, beta1, beta2), gpus);
+            trainer.set_learning_rate(learning_rate);
+            trainer.set_min_learning_rate(1e-7);
+            trainer.set_learning_rate_shrink_factor(0.1);
+            trainer.set_mini_batch_size(batch_size);
+            trainer.set_iterations_without_progress_threshold(patience);
+            trainer.set_synchronization_file("chkpt-" + model_file, std::chrono::minutes(15));
+            trainer.be_quiet();
+            cout << net << endl << endl; // Show the model architecture            
+
+            size_t epoch = 0;
+            size_t batches_count = 0, batches_seen = 0, samples_seen = 0;
+            double total_loss = 0.0;
+            auto epoch_start = std::chrono::high_resolution_clock::now();
+
+            // Estimate total training steps
+            size_t steps_per_epoch = (samples.size() + batch_size - 1) / batch_size;
+            size_t total_steps = steps_per_epoch * max_epochs;
+
+            // Create learning rate scheduler with warmup
+            lr_scheduler scheduler(
+                trainer.get_learning_rate(),                // peak_lr
+                std::min(size_t(2000), total_steps / 10),   // warmup_steps (2000 or 10% of total)
+                total_steps,                                // total_steps
+                trainer.get_min_learning_rate(),            // min_lr
+                lr_decay_type::COSINE                       // decay_type
+            );            
+
+            // Restore scheduler state if exists
+            const std::string scheduler_state_file = "scheduler-" + model_file;
+            if (file_exists(scheduler_state_file)) {
+                deserialize(scheduler_state_file) >> scheduler;
+                cout << "Scheduler resumed: step " << scheduler.get_current_step()
+                    << ", phase: " << scheduler.get_phase_name()
+                    << ", learning rate: " << scheduler.get_learning_rate() << "\n";
+            }
+            cout << "Learning rate schedule:\n"
+                << "  peak learning rate: " << scheduler.get_peak_lr() << "\n"
+                << "  min learning rate: " << scheduler.get_min_lr() << "\n"
+                << "  warmup steps: " << scheduler.get_warmup_steps() << "\n"
+                << "  total steps: " << scheduler.get_total_steps() << "\n"
+                << "  current step: " << scheduler.get_current_step() << "\n"
+                << "  current phase: " << scheduler.get_phase_name() << "\n"
+                << "  decay type: COSINE\n\n";
+
+            // Restore from final model file if no checkpoint but model exists
+            if (file_exists(model_file) && !file_exists("chkpt-" + model_file))
+                deserialize(model_file) >> net >> tokenizer;
+
+            // Training loop           
+            cout << "Starting training...\n";
+            while (!scheduler.is_training_complete()
+                && epoch < max_epochs && !signal_handler::is_triggered())
+            {
+                total_loss = 0.0;
+                batches_seen = 0, samples_seen = 0;
+                epoch_start = std::chrono::high_resolution_clock::now();
+
+                // Shuffle the dataset
+                shuffle_training_dataset(samples, labels);
+
+                for (size_t i = 0; i < samples.size() && !signal_handler::is_triggered(); i += batch_size)
+                {
+                    size_t batch_end = std::min(i + batch_size, samples.size());
+                    std::vector<matrix<int, 0, 1>> batch_samples(
+                        samples.begin() + i, samples.begin() + batch_end);
+                    std::vector<unsigned long> batch_labels(
+                        labels.begin() + i, labels.begin() + batch_end);
+
+                    // Update learning rate from scheduler
+                    double current_lr = scheduler.get_learning_rate();
+                    trainer.set_learning_rate(current_lr);
+
+                    std::vector<long> pad_lengths(batch_samples.size());
+                    for (size_t j = 0; j < batch_samples.size(); ++j)
+                        pad_lengths[j] = count_leading_padding(batch_samples[j], static_cast<int>(pad_token));
+                    tril_padding_context::set_from_lengths(pad_lengths);
+
+                    // Train
+                    trainer.train_one_step(batch_samples, batch_labels);
+
+                    // Advance scheduler
+                    scheduler.step();
+
+                    total_loss += trainer.get_average_loss();
+                    batches_seen++;
+                    samples_seen += batch_samples.size();
+
+                    // Progress reporting
+                    if (batches_count++ % 50 == 0) {
+                        double avg_loss = total_loss / batches_seen;
+                        auto elapsed = std::chrono::duration_cast<std::chrono::seconds>(
+                            std::chrono::high_resolution_clock::now() - epoch_start).count();
+                        double samples_per_sec = samples_seen / (elapsed > 0 ? elapsed : 1);
+
+                        std::ios_base::fmtflags old_flags = cout.flags();
+                        std::streamsize old_precision = cout.precision();
+
+                        cout << "epoch#: " << (epoch + 1) << "/" << max_epochs
+                            << " \t loss: " << std::fixed << std::setprecision(3) << avg_loss
+                            << " \t learning-rate: " << std::scientific << std::setprecision(2) << current_lr
+                            << " \t phase: " << scheduler.get_phase_name()
+                            << " \t speed: " << std::fixed << std::setprecision(1)
+                            << samples_per_sec << " samples/sec\n";
+                        cout.flush();
+
+                        cout.flags(old_flags);
+                        cout.precision(old_precision);
+
+                        // Save scheduler checkpoint periodically
+                        serialize(scheduler_state_file) << scheduler;
+                    }
+                }
+                epoch++;
+            }
+            tril_padding_context::clear();
+
+            // Save model and tokenizer
+            cout << "Training complete. Saving model...\n";
+            net.clean();
+            serialize(model_file) << net << tokenizer;
+            cout << "Model saved to " << model_file << "\n";
+            cout << "Final step: " << scheduler.get_current_step()
+                << ", final learning rate: " << scheduler.get_learning_rate() << "\n";
+
+            // Evaluate on training set
+            {
+                cout << "Evaluating model accuracy...\n";
+                my_transformer::network_type<false> g_infer;
+                deserialize(model_file) >> g_infer >> tokenizer;
+
+                size_t correct = 0;
+                const size_t eval_batch_size = batch_size;
+
+                for (size_t i = 0; i < samples.size(); i += eval_batch_size)
+                {
+                    size_t batch_end = std::min(i + eval_batch_size, samples.size());
+                    std::vector<matrix<int, 0, 1>> batch_samples(
+                        samples.begin() + i, samples.begin() + batch_end);
+
+                    // Configure padding context for this batch
+                    std::vector<long> pad_lengths(batch_samples.size());
+                    for (size_t j = 0; j < batch_samples.size(); ++j)
+                        pad_lengths[j] = count_leading_padding(batch_samples[j], static_cast<int>(pad_token));
+                    tril_padding_context::set_from_lengths(pad_lengths);
+
+                    // Predict
+                    auto predicted = g_infer(batch_samples);
+
+                    // Count correct predictions
+                    for (size_t j = 0; j < predicted.size(); ++j)
+                        if (predicted[j] == labels[i + j]) correct++;
+                }
+                tril_padding_context::clear();
+
+                double accuracy = (double)correct / labels.size();
+                cout << "Training accuracy: " << (accuracy * 100.0) << "%\n";
+            }
+        }
+
+        // Generation mode
+        if (parser.option("generate"))
+        {
+            cout << "=== GENERATION MODE ===\n";
+
+            // Load the model
+            using net_infer = my_transformer::network_type<false>;
+            net_infer net;
+            if (file_exists(model_file)) {
+                deserialize(model_file) >> net >> tokenizer;
+                cout << "Loaded model from " << model_file << "\n";
+            }
+            else {
+                cerr << "Error: model file not found. Please run --train first.\n";
+                return 0;
+            }
+
+            // Display model structure information
+            auto param_info = get_moe_param_info<net_infer>(net, num_layers);
+            param_info.print();
+
+            // Check that tokenizer is loaded
+            if (tokenizer.get_vocab_size() == 0) {
+                cerr << "Error: Tokenizer not loaded. Please provide a valid tokenizer file.\n";
+                return 0;
+            }
+
+            // Load tokenized segments
+            std::vector<std::vector<int>> tokenized_segments;
+            if (!file_exists(tokens_file)) {
+                cerr << "Error: Tokenized file not found. Please run --train first.\n";
+                return 0;
+            }
+
+            cout << "Loading tokenized segments from: " << tokens_file << endl;
+            try {
+                deserialize(tokens_file) >> tokenized_segments;
+                cout << "Loaded " << tokenized_segments.size() << " tokenized segments.\n";
+            }
+            catch (const std::exception& e) {
+                cerr << "Error loading tokens: " << e.what() << "\n";
+                return 0;
+            }
+
+            if (tokenized_segments.empty()) {
+                cerr << "Error: No segments found in tokens file.\n";
+                return 0;
+            }
+
+            // Select a segment for generation
+            dlib::rand rng(std::chrono::system_clock::now().time_since_epoch().count());
+            size_t segment_idx = rng.get_random_32bit_number() % 100;
+            cout << "Randomly selected segment #" << segment_idx << " (out of "
+                << tokenized_segments.size() << ") for generation\n";
+            const auto& selected_segment = tokenized_segments[segment_idx];
+            if (selected_segment.size() < (size_t)max_seq_len) {
+                cerr << "Error: Selected segment has only " << selected_segment.size()
+                    << " tokens, need at least " << max_seq_len << ".\n";
+                return 1;
+            }
+
+            // Extract prompt tokens (first max_seq_len tokens of the segment)
+            std::vector<int> prompt_tokens(selected_segment.begin(),
+                selected_segment.begin() + max_seq_len);
+            cout << "Using " << prompt_tokens.size() << " tokens for initial prompt.\n";
+
+            // Setup inference context
+            const long pad_token = tokenizer.get_special_token_id("<pad>");
+            inference_context llm_context(max_seq_len, 4, pad_token);
+            llm_context.add_tokens(prompt_tokens);
+            auto input_seq = llm_context.get_input_window();
+
+            // Open output file
+            std::ofstream outfile(output_file, std::ios::binary);
+            if (!outfile) {
+                cerr << "Error: Cannot open output file: " << output_file << "\n";
+                return 0;
+            }
+
+            // Write initial text (corresponding to prompt tokens)
+            std::string initial_text = tokenizer.decode(prompt_tokens, false);
+            outfile.write(initial_text.c_str(), initial_text.size());
+            outfile.flush();
+
+            cout << "Starting autoregressive generation...\n";
+
+            // Generation parameters
+            const size_t tokens_to_generate = selected_segment.size() - max_seq_len;
+            std::vector<int> generated_tokens;
+            generated_tokens.reserve(tokens_to_generate);
+
+            auto start_time = std::chrono::high_resolution_clock::now();
+            long end_of_text_id = tokenizer.get_special_token_id("</text>");
+
+            // Generate tokens autoregressively
+            for (size_t i = 0; i < tokens_to_generate && !signal_handler::is_triggered(); ++i) {
+                // Predict next token
+                long pad_len = count_leading_padding(input_seq, static_cast<int>(pad_token));
+                tril_padding_context::set_uniform(pad_len, 1);
+                int next_token = net(input_seq);
+                generated_tokens.push_back(next_token);
+
+                // Update context window
+                llm_context.add_token(next_token);
+                input_seq = llm_context.get_input_window();
+
+                // Progress reporting every 50 tokens
+                if ((i + 1) % 50 == 0) {
+                    auto elapsed = std::chrono::duration_cast<std::chrono::seconds>(
+                        std::chrono::high_resolution_clock::now() - start_time).count();
+                    double tokens_per_sec = (i + 1) / (elapsed > 0 ? elapsed : 1);
+
+                    cout << "Generated " << (i + 1) << "/" << tokens_to_generate
+                        << " tokens (" << ((i + 1) * 100.0 / tokens_to_generate) << "%) - "
+                        << tokens_per_sec << " tokens/sec\r";
+                    cout.flush();
+                }
+
+                // Stop if end-of-text token is generated
+                if (next_token == end_of_text_id) break;
+            }
+            tril_padding_context::clear();
+
+            // Write generated text to file
+            std::string generated_text = tokenizer.decode(generated_tokens, false);
+            outfile.write(generated_text.c_str(), generated_text.size());
+            outfile.flush();
+            outfile.close();
+
+            auto end_time = std::chrono::high_resolution_clock::now();
+            auto total_time = std::chrono::duration_cast<std::chrono::seconds>(
+                end_time - start_time).count();
+
+            cout << "\nGeneration complete in " << total_time << " seconds!\n";
+            cout << "Generated " << generated_tokens.size() << " tokens\n";
+            cout << "Total output: " << (initial_text.size() + generated_text.size()) << " bytes\n";
+            cout << "Output saved to " << output_file << "\n";
+
+            // Compare generated text with original segment for validation
+            cout << "\n=== Validation: comparing generated vs. original segment ===\n";
+
+            // Extract reference tokens (the part we tried to regenerate)
+            std::vector<int> reference_tokens(selected_segment.begin() + max_seq_len,
+                selected_segment.end());
+
+            // Limit comparison to the length of generated tokens
+            size_t compare_length = std::min(reference_tokens.size(), generated_tokens.size());
+            std::vector<int> reference_subset(reference_tokens.begin(),
+                reference_tokens.begin() + compare_length);
+            std::vector<int> generated_subset(generated_tokens.begin(),
+                generated_tokens.begin() + compare_length);
+
+            cout << "Comparing " << compare_length << " tokens\n";
+            cout << "Reference length: " << reference_tokens.size() << " tokens\n";
+            cout << "Generated length: " << generated_tokens.size() << " tokens\n\n";
+
+            // Compute and display similarity metrics
+            auto similarity = compute_text_similarity(reference_subset, generated_subset);
+            similarity.print();
+
+            // Display sample of differences if similarity is not perfect
+            if (similarity.edit_similarity < 0.95) {
+                cout << "Sample comparison (first 100 tokens):\n";
+                size_t sample_len = std::min(size_t(100), compare_length);
+
+                size_t diff_count = 0;
+                for (size_t i = 0; i < sample_len; ++i) {
+                    if (reference_subset[i] != generated_subset[i]) {
+                        if (diff_count < 10) {  // Show first 10 differences
+                            std::string ref_word = tokenizer.decode({ reference_subset[i] }, false);
+                            std::string gen_word = tokenizer.decode({ generated_subset[i] }, false);
+                            cout << "  Position " << i << ": '"
+                                << ref_word << "' -> '" << gen_word << "'\n";
+                        }
+                        diff_count++;
+                    }
+                }
+                cout << "Total differences in sample: " << diff_count << "/" << sample_len << "\n";
+            }
+            else {
+                cout << "Excellent match! Generated text closely follows the original.\n";
+            }
+        }
+
+        return 0;
+    }
+    catch (exception& e)
+    {
+        cerr << "Exception thrown: " << e.what() << endl;
+        return 1;
+    }
+}
+
+/*
+ * This program demonstrates production-grade language model training using Dlib's
+ * advanced utilities for dataset preparation: shuffle_training_dataset() for
+ * randomization and augment_training_dataset() for noise injection. These techniques
+ * improve model robustness and generalization, enabling effective training on large
+ * volumes of information.
+ * After a complete training, the model achieves excellent memorization of all
+ * internal datasets.
+ */
\ No newline at end of file
diff --git a/examples/slm_vision_transformer_hybrid_ex.cpp b/examples/slm_vision_transformer_hybrid_ex.cpp
new file mode 100644
index 0000000000..ec1d86e6e3
--- /dev/null
+++ b/examples/slm_vision_transformer_hybrid_ex.cpp
@@ -0,0 +1,461 @@
+
+/*!
+    @file slm_vision_transformer_hybrid_ex.cpp
+    @brief Vision Transformer with Dlib loss hybridization demonstration
+
+    This program demonstrates how to build a Vision Transformer using Dlib's modern
+    transformer architecture (canonical_transformer) and the new patch_embeddings layer,
+    showing hybridization with existing Dlib loss functions.
+
+    Key features:
+    - Modern patch embeddings with learned projection (replaces manual patch extraction)
+    - Dlib's canonical_transformer with RoPE positioning
+    - Hybridization examples with Dlib losses:
+      * Barlow Twins (self-supervised learning, no labels needed)
+      * Multiclass log (standard supervised classification)
+
+    Vision Transformers (ViT) process images as sequences of patches, making them
+    compatible with standard transformer architectures. This example shows how to
+    seamlessly integrate ViT with Dlib's existing deep learning ecosystem.
+
+    Dataset: CIFAR-10 (32x32 RGB images, 10 classes)
+
+    Usage:
+    # Self-supervised learning (Barlow Twins)
+    ./slm_vision_transformer_hybrid_ex /path/to/cifar10 --ssl
+
+    # Supervised classification
+    ./slm_vision_transformer_hybrid_ex /path/to/cifar10 --supervised
+!*/
+
+#include <dlib/dnn.h>
+#include <dlib/data_io.h>
+#include <dlib/cmd_line_parser.h>
+#include <dlib/misc_api.h>
+#include <iostream>
+#include <chrono>
+#include <csignal>
+#include <algorithm>
+#include <random>
+
+using namespace std;
+using namespace dlib;
+
+// Vision Transformer Architecture
+namespace dlib
+{
+    /*!
+        Vision Transformer configuration for CIFAR-10.
+        
+        This demonstrates a modern, clean ViT implementation using:
+        - patch_embeddings: splits image into patches + learned projection
+        - canonical_transformer: Dlib's transformer with RoPE positioning
+        - Standard Dlib layers: fc, dropout, ...
+        
+        Architecture summary:
+        Input (32x32 RGB) => Patches (4x4) => Embeddings (216-dim)
+            => Transformer (4 layers, 6 heads) => Output
+    !*/
+    template<
+        long num_layers = 4,
+        long num_heads = 6,
+        long embedding_dim = 216
+    >
+    struct vit_cifar10_config
+    {
+        static_assert(embedding_dim % num_heads == 0, 
+            "Embedding dimension must be divisible by number of heads");
+        
+        static constexpr long NUM_LAYERS = num_layers;
+        static constexpr long NUM_HEADS = num_heads;
+        static constexpr long EMBEDDING_DIM = embedding_dim;
+        static constexpr long PATCH_SIZE = 4;     // 32/4 = 8x8 = 64 patches
+        static constexpr long NUM_PATCHES = 64;   // (32/4)^2
+        static constexpr long DONT_USE_CLASS_TOKEN = 0;
+        static constexpr long DONT_USE_POSITION_EMBEDDINGS = 0;
+
+        // Backbone: patch embeddings => transformer => pooling
+        // Returns: (batch, embedding_dim) feature vectors
+        template <template <typename> class DO, typename INPUT>
+        using backbone_training = 
+            canonical_transformer::transformer_stack<NUM_LAYERS, gelu, DO, EMBEDDING_DIM, NUM_HEADS,
+            patch_embeddings<PATCH_SIZE, EMBEDDING_DIM, DONT_USE_CLASS_TOKEN, DONT_USE_POSITION_EMBEDDINGS,
+            INPUT>>;
+
+        template <typename INPUT>
+        using backbone_inference = 
+            canonical_transformer::transformer_stack<NUM_LAYERS, gelu, multiply, EMBEDDING_DIM, NUM_HEADS,
+            patch_embeddings<PATCH_SIZE, EMBEDDING_DIM, DONT_USE_CLASS_TOKEN, DONT_USE_POSITION_EMBEDDINGS,
+            INPUT>>;
+
+        static std::string describe() {
+            std::stringstream ss;
+            ss << "Vision Transformer (ViT) - CIFAR-10 configuration:\n"
+               << "  Input: 32x32 RGB images\n"
+               << "  Patch size: " << PATCH_SIZE << "x" << PATCH_SIZE << "\n"
+               << "  Number of patches: " << NUM_PATCHES << " (8x8 grid)\n"
+               << "  Embedding dimension: " << EMBEDDING_DIM << "\n"
+               << "  Transformer layers: " << NUM_LAYERS << "\n"
+               << "  Attention heads: " << NUM_HEADS << "\n"
+               << "  Head dimension: " << (EMBEDDING_DIM / NUM_HEADS) << "\n";
+            return ss.str();
+        }
+    };
+}
+
+// Model definitions - Hybridization with Dlib losses
+namespace model
+{
+    using my_vit = vit_cifar10_config<>;
+
+    // Configuration 1: Self-Supervised Learning (Barlow Twins)
+    // Barlow Twins learns representations without labels by maximizing agreement
+    // between augmented views while decorrelating feature dimensions.
+    // 
+    // Architecture: ViT backbone => projector head => Barlow Twins loss
+    // Input: pairs of augmented views of the same image
+    // Output: self-supervised feature representations
+    
+    template <typename SUBNET> 
+    using projector = fc<128, relu<bn_fc<fc<256, SUBNET>>>>;
+
+    using ssl_train = loss_barlow_twins<projector<rms_norm<
+        my_vit::backbone_training<dropout, input_rgb_image_pair>>>>;
+    
+    using ssl_inference = loss_metric<
+        my_vit::backbone_inference<input_rgb_image>>;
+
+    // Configuration 2: Supervised classification
+    // Standard supervised learning with labeled data.
+    //
+    // Architecture: ViT backbone => classification head => multiclass log loss
+    // Input: single images with class labels
+    // Output: class predictions (10 classes for CIFAR-10)
+
+    using supervised_train = loss_multiclass_log<
+        fc<10, rms_norm<
+        my_vit::backbone_training<dropout, input<matrix<rgb_pixel>>>>>>;
+    
+    using supervised_inference = loss_multiclass_log<
+        fc<10, rms_norm<
+        my_vit::backbone_inference<input<matrix<rgb_pixel>>>>>>;
+}
+
+// Data augmentation
+rectangle make_random_cropping_rect(
+    const matrix<rgb_pixel>& image,
+    dlib::rand& rnd
+)
+{
+    const double min_scale = 0.7;
+    const double max_scale = 1.0;
+    const auto scale = rnd.get_double_in_range(min_scale, max_scale);
+    const auto size = scale * std::min(image.nr(), image.nc());
+    const rectangle rect(size, size);
+    const point offset(
+        rnd.get_random_32bit_number() % std::max<long>(1, image.nc() - rect.width() + 1),
+        rnd.get_random_32bit_number() % std::max<long>(1, image.nr() - rect.height() + 1)
+    );
+    return move_rect(rect, offset);
+}
+
+matrix<rgb_pixel> augment_image(
+    const matrix<rgb_pixel>& image,
+    dlib::rand& rnd,
+    bool strong_augmentation = false
+)
+{
+    matrix<rgb_pixel> crop;
+    
+    // Random cropping
+    const auto rect = make_random_cropping_rect(image, rnd);
+    extract_image_chip(image, chip_details(rect, chip_dims(32, 32)), crop);
+
+    // Random horizontal flip
+    if (rnd.get_random_double() < 0.5)
+        flip_image_left_right(crop);
+
+    // Color augmentation
+    if (rnd.get_random_double() < 0.8)
+        disturb_colors(crop, rnd, 0.4, 0.4);
+
+    // Stronger augmentations for SSL
+    if (strong_augmentation)
+    {
+        // Grayscale conversion
+        if (rnd.get_random_double() < 0.2)
+        {
+            matrix<unsigned char> gray;
+            assign_image(gray, crop);
+            assign_image(crop, gray);
+        }
+
+        // Gaussian blur
+        if (rnd.get_random_double() < 0.5)
+        {
+            matrix<rgb_pixel> blurred;
+            const double sigma = rnd.get_double_in_range(0.1, 2.0);
+            gaussian_blur(crop, blurred, sigma);
+            crop = blurred;
+        }
+    }
+
+    return crop;
+}
+
+// Training functions
+void train_ssl(
+    const std::vector<matrix<rgb_pixel>>& training_images,
+    const string& model_file,
+    size_t batch_size,
+    double learning_rate,
+    double min_learning_rate,
+    double lambda
+)
+{
+    cout << "\n=== SELF-SUPERVISED LEARNING MODE (Barlow Twins) ===" << endl;
+    cout << "Training without labels - Learning representations from augmentations\n" << endl;
+
+    model::ssl_train net((loss_barlow_twins_(lambda)));
+    dnn_trainer<model::ssl_train, adamw> trainer(net, adamw(0.01, 0.9, 0.999));
+    trainer.set_learning_rate(learning_rate);
+    trainer.set_min_learning_rate(min_learning_rate);
+    trainer.set_mini_batch_size(batch_size);
+    trainer.set_iterations_without_progress_threshold(25000);
+    trainer.set_synchronization_file("chkpt-" + model_file, std::chrono::minutes(25));
+    trainer.be_verbose();
+    set_all_bn_running_stats_window_sizes(net, 100);    
+    
+    cout << "\nBarlow Twins lambda: " << lambda << endl;
+    if (file_exists(model_file)) {
+        deserialize(model_file) >> net;
+        cout << "Number of trainable parameters: " << count_parameters(net) << "\n" << endl;
+    }
+    cout << "Network architecture:\n" << net << endl;
+
+    dlib::rand rnd(time(0));    
+
+    cout << "Starting self-supervised training...\n";
+    cout << "Press Ctrl+C to stop and save the model\n" << endl;
+
+    while (trainer.get_learning_rate() >= trainer.get_min_learning_rate()
+        && !signal_handler::is_triggered())
+    {
+        // Create pairs of augmented views
+        std::vector<std::pair<matrix<rgb_pixel>, matrix<rgb_pixel>>> batch_pairs;
+        while (batch_pairs.size() < batch_size) {
+            const auto idx = rnd.get_random_32bit_number() % training_images.size();
+            const auto& img = training_images[idx];
+            batch_pairs.emplace_back(augment_image(img, rnd, false), augment_image(img, rnd, true));
+        }
+
+        trainer.train_one_step(batch_pairs);
+    }
+
+    // Save SSL model
+    trainer.get_net();
+    net.clean();
+    serialize(model_file) << net;
+    cout << "\nSelf-supervised model saved to: " << model_file << endl;
+}
+
+void train_supervised(
+    const std::vector<matrix<rgb_pixel>>& training_images,
+    const std::vector<unsigned long>& training_labels,
+    const std::vector<matrix<rgb_pixel>>& testing_images,
+    const std::vector<unsigned long>& testing_labels,
+    const string& model_file,
+    size_t batch_size,
+    double learning_rate,
+    double min_learning_rate
+)
+{
+    cout << "\n=== SUPERVISED LEARNING MODE (classification) ===" << endl;
+    cout << "Training with labeled data for 10-class classification\n" << endl;
+
+    model::supervised_train net;
+    model::supervised_inference inference_net;
+    dnn_trainer<model::supervised_train, adamw> trainer(net, adamw(0.01, 0.9, 0.999));
+    trainer.set_learning_rate(learning_rate);
+    trainer.set_min_learning_rate(min_learning_rate);
+    trainer.set_mini_batch_size(batch_size);
+    trainer.set_iterations_without_progress_threshold(25000);
+    trainer.set_synchronization_file("chkpt-" + model_file, std::chrono::minutes(25));
+    trainer.be_verbose();    
+    
+    if (file_exists(model_file)) {
+        deserialize(model_file) >> net;
+        cout << "Number of trainable parameters: " << count_parameters(net) << "\n" << endl;
+    }
+    cout << "Network architecture:\n" << net << endl;
+
+    dlib::rand rnd(time(0));
+    std::vector<matrix<rgb_pixel>> batch_images;
+    std::vector<unsigned long> batch_labels;
+
+    cout << "Starting supervised training...\n";
+    cout << "Press Ctrl+C to stop and save the model\n" << endl;
+
+    size_t epoch = 0;
+    while (trainer.get_learning_rate() >= trainer.get_min_learning_rate()
+        && !signal_handler::is_triggered())
+    {
+        ++epoch;
+
+        // Shuffle training data
+        std::vector<size_t> indices(training_images.size());
+        std::iota(indices.begin(), indices.end(), 0);
+        std::shuffle(indices.begin(), indices.end(), std::default_random_engine{});
+
+        // Train for one epoch
+        for (size_t i = 0; i < training_images.size() && !signal_handler::is_triggered(); ++i)
+        {
+            const auto idx = indices[i];
+            batch_images.push_back(augment_image(training_images[idx], rnd, false));
+            batch_labels.push_back(training_labels[idx]);
+
+            if (batch_images.size() == batch_size)
+            {
+                trainer.train_one_step(batch_images, batch_labels);
+                batch_images.clear();
+                batch_labels.clear();
+            }
+        }
+
+        // Evaluate every 10 epochs
+        if (epoch % 10 == 0)
+        {
+            trainer.get_net();
+            net.clean();
+            inference_net = net;
+
+            const size_t test_subset = std::min<size_t>(1000, testing_images.size());
+            std::vector<unsigned long> predicted = inference_net(
+                std::vector<matrix<rgb_pixel>>(
+                    testing_images.begin(), 
+                    testing_images.begin() + test_subset
+                )
+            );
+
+            int num_correct = 0;
+            for (size_t i = 0; i < test_subset; ++i)
+                if (predicted[i] == testing_labels[i])
+                    ++num_correct;
+
+            const double accuracy = 100.0 * num_correct / test_subset;
+            cout << "Epoch " << epoch << " - Validation accuracy: " << accuracy 
+                 << "% (" << num_correct << "/" << test_subset << ")" << endl;
+        }
+    }
+
+    // Final evaluation
+    trainer.get_net();
+    net.clean();    
+    inference_net = net;
+    cout << "\nFinal evaluation on full test set..." << endl;
+    std::vector<unsigned long> predicted = inference_net(testing_images);
+
+    int num_correct = 0;
+    for (size_t i = 0; i < testing_labels.size(); ++i)
+        if (predicted[i] == testing_labels[i])
+            ++num_correct;
+
+    const double final_accuracy = 100.0 * num_correct / testing_labels.size();
+    cout << "Test accuracy: " << final_accuracy << "% (" 
+         << num_correct << "/" << testing_labels.size() << ")" << endl;
+
+    // Save supervised model
+    serialize(model_file) << net;
+    cout << "\nSupervised model saved to: " << model_file << endl;
+}
+
+int main(const int argc, const char** argv)
+try
+{
+    signal_handler::setup();
+
+    command_line_parser parser;
+    parser.add_option("ssl", "Use self-supervised learning (Barlow Twins)");
+    parser.add_option("supervised", "Use supervised classification");
+    parser.add_option("batch-size", "Mini-batch size (default: 128 for SSL, 64 for supervised)", 1);
+    parser.add_option("learning-rate", "Initial learning rate (default: 1e-3)", 1);
+    parser.add_option("min-learning-rate", "Minimum learning rate (default: 1e-5)", 1);
+    parser.add_option("lambda", "Barlow Twins lambda parameter (default: 0.0078)", 1);
+    parser.set_group_name("Help Options");
+    parser.add_option("h", "alias for --help");
+    parser.add_option("help", "display this message and exit");
+    parser.parse(argc, argv);
+
+    if (parser.number_of_arguments() < 1 || parser.option("h") || parser.option("help") ||
+        (!parser.option("ssl") && !parser.option("supervised")))
+    {
+        cout << "Vision Transformer with Dlib loss hybridization\n\n";
+        cout << "This example demonstrates using modern ViT architecture\n";
+        cout << "(patch_embeddings + canonical_transformer) with different\n";
+        cout << "Dlib loss functions:\n\n";
+        cout << "  --ssl         : Barlow Twins (self-supervised, no labels)\n";
+        cout << "  --supervised  : Standard classification (with labels)\n\n";
+        cout << "Dataset: CIFAR-10 from https://www.cs.toronto.edu/~kriz/cifar.html\n";
+        cout << "Download the binary version and provide the folder path.\n\n";
+        parser.print_options();
+        return EXIT_SUCCESS;
+    }
+
+    const string cifar_dir = parser[0];
+    const bool use_ssl = parser.option("ssl");
+    const bool use_supervised = parser.option("supervised");
+
+    // Load CIFAR-10
+    cout << "Loading CIFAR-10 dataset from: " << cifar_dir << endl;
+    std::vector<matrix<rgb_pixel>> training_images, testing_images;
+    std::vector<unsigned long> training_labels, testing_labels;
+
+    load_cifar_10_dataset(cifar_dir, training_images, training_labels, 
+                          testing_images, testing_labels);
+
+    cout << "Training images: " << training_images.size() << endl;
+    cout << "Testing images: " << testing_images.size() << endl;
+
+    // Display ViT configuration
+    cout << "\n" << model::my_vit::describe() << "\n" << endl;
+
+    // Training parameters
+    const double learning_rate = get_option(parser, "learning-rate", 1e-3);
+    const double min_learning_rate = get_option(parser, "min-learning-rate", 1e-5);
+
+    if (use_ssl)
+    {
+        const size_t batch_size = get_option(parser, "batch-size", 128);
+        const double lambda = get_option(parser, "lambda", 0.0078);
+        
+        train_ssl(
+            training_images,
+            "vit_ssl_model.dat",
+            batch_size,
+            learning_rate,
+            min_learning_rate,
+            lambda
+        );
+    }
+
+    if (use_supervised)
+    {
+        const size_t batch_size = get_option(parser, "batch-size", 64);
+        
+        train_supervised(
+            training_images, training_labels,
+            testing_images, testing_labels,
+            "vit_supervised_model.dat",
+            batch_size,
+            learning_rate,
+            min_learning_rate
+        );
+    }
+
+    return EXIT_SUCCESS;
+}
+catch (exception& e)
+{
+    cerr << "Exception: " << e.what() << endl;
+    return EXIT_FAILURE;
+}