ServiceNow · tscholak · Jan 10, 2026 · Jan 12, 2026 · Jan 15, 2026 · Jan 15, 2026
diff --git a/fast_llm_external_models/apriel2/examples/pure_gdn_step1.yaml b/fast_llm_external_models/apriel2/examples/pure_gdn_step1.yaml
@@ -0,0 +1,19 @@
+# Step 1: Convert fixed -> pattern with all GDN blocks
+#
+# Sets main_mixer_name to gdn for all layers
+# Run before pure_gdn_step2.yaml
+#
+# Usage:
+#   python convert.py /tmp/apriel2-0.5b-dev /tmp/apriel2-0.5b-pure-gdn \
+#       -s examples/pure_gdn_step1.yaml \
+#       -s examples/pure_gdn_step2.yaml
+
+decoder:
+  type: pattern
+  # Single block type - all layers use GDN
+  pattern: [gdn_block]
+
+  blocks:
+    gdn_block:
+      mixer:
+        main_mixer_name: gdn
diff --git a/fast_llm_external_models/apriel2/examples/pure_gdn_step2.yaml b/fast_llm_external_models/apriel2/examples/pure_gdn_step2.yaml
@@ -0,0 +1,18 @@
+# Step 2: Unwrap stochastic -> pure GDN
+#
+# Converts stochastic mixer to non-stochastic GDN for all layers
+# Run after pure_gdn_step1.yaml
+#
+# Usage:
+#   python convert.py /tmp/apriel2-0.5b-dev /tmp/apriel2-0.5b-pure-gdn \
+#       -s examples/pure_gdn_step1.yaml \
+#       -s examples/pure_gdn_step2.yaml
+
+decoder:
+  blocks:
+    gdn_block:
+      mixer:
+        type: gdn
+        init: transfer
+        convolution_layer:
+          kernel_size: 4