Fix inpainting masked image being broken by side effect

stduhpf · stduhpf · commit be107efd2846 · 2025-10-30T23:04:32.000+01:00
diff --git a/stable-diffusion.cpp b/stable-diffusion.cpp
@@ -2532,8 +2532,6 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g
         sd_image_to_ggml_tensor(sd_img_gen_params->mask_image, mask_img);
         sd_image_to_ggml_tensor(sd_img_gen_params->init_image, init_img);
 
-        init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
-
         if (sd_version_is_inpaint(sd_ctx->sd->version)) {
             int64_t mask_channels = 1;
             if (sd_ctx->sd->version == VERSION_FLUX_FILL) {
@@ -2548,8 +2546,10 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g
                 ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);
                 ggml_ext_tensor_apply_mask(init_img, mask_img, masked_img);
                 masked_latent = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);
+                init_latent   = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
             } else {
                 // mask after vae
+                init_latent   = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
                 masked_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], init_latent->ne[2], 1);
                 ggml_ext_tensor_apply_mask(init_latent, mask_img, masked_latent, 0.);
             }
@@ -2593,6 +2593,8 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g
                     }
                 }
             }
+        } else {
+            init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);
         }
 
         {

Original file line number	Diff line number	Diff line change
`@@ -2532,8 +2532,6 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g`
`2532`	`2532`	`sd_image_to_ggml_tensor(sd_img_gen_params->mask_image, mask_img);`
`2533`	`2533`	`sd_image_to_ggml_tensor(sd_img_gen_params->init_image, init_img);`
`2534`	`2534`
`2535`		`- init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2536`		`-`
`2537`	`2535`	`if (sd_version_is_inpaint(sd_ctx->sd->version)) {`
`2538`	`2536`	`int64_t mask_channels = 1;`
`2539`	`2537`	`if (sd_ctx->sd->version == VERSION_FLUX_FILL) {`
`@@ -2548,8 +2546,10 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g`
`2548`	`2546`	`ggml_tensor* masked_img = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, width, height, 3, 1);`
`2549`	`2547`	`ggml_ext_tensor_apply_mask(init_img, mask_img, masked_img);`
`2550`	`2548`	`masked_latent = sd_ctx->sd->encode_first_stage(work_ctx, masked_img);`
	`2549`	`+ init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2551`	`2550`	`} else {`
`2552`	`2551`	`// mask after vae`
	`2552`	`+ init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2553`	`2553`	`masked_latent = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32, init_latent->ne[0], init_latent->ne[1], init_latent->ne[2], 1);`
`2554`	`2554`	`ggml_ext_tensor_apply_mask(init_latent, mask_img, masked_latent, 0.);`
`2555`	`2555`	`}`
`@@ -2593,6 +2593,8 @@ sd_image_t* generate_image(sd_ctx_t* sd_ctx, const sd_img_gen_params_t* sd_img_g`
`2593`	`2593`	`}`
`2594`	`2594`	`}`
`2595`	`2595`	`}`
	`2596`	`+ } else {`
	`2597`	`+ init_latent = sd_ctx->sd->encode_first_stage(work_ctx, init_img);`
`2596`	`2598`	`}`
`2597`	`2599`
`2598`	`2600`	`{`