huggingface · Sunt-ing · Jun 22, 2026
diff --git a/src/diffusers/pipelines/animatediff/pipeline_animatediff.py b/src/diffusers/pipelines/animatediff/pipeline_animatediff.py
@@ -256,7 +256,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/animatediff/pipeline_animatediff_controlnet.py b/src/diffusers/pipelines/animatediff/pipeline_animatediff_controlnet.py
@@ -301,7 +301,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/animatediff/pipeline_animatediff_sparsectrl.py b/src/diffusers/pipelines/animatediff/pipeline_animatediff_sparsectrl.py
@@ -310,7 +310,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/animatediff/pipeline_animatediff_video2video.py b/src/diffusers/pipelines/animatediff/pipeline_animatediff_video2video.py
@@ -358,7 +358,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/animatediff/pipeline_animatediff_video2video_controlnet.py b/src/diffusers/pipelines/animatediff/pipeline_animatediff_video2video_controlnet.py
@@ -389,7 +389,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/controlnet/pipeline_controlnet.py b/src/diffusers/pipelines/controlnet/pipeline_controlnet.py
@@ -400,7 +400,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/controlnet/pipeline_controlnet_img2img.py b/src/diffusers/pipelines/controlnet/pipeline_controlnet_img2img.py
@@ -378,7 +378,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/controlnet/pipeline_controlnet_inpaint.py b/src/diffusers/pipelines/controlnet/pipeline_controlnet_inpaint.py
@@ -384,7 +384,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion.py b/src/diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion.py
@@ -429,7 +429,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion_img2img.py b/src/diffusers/pipelines/deprecated/alt_diffusion/pipeline_alt_diffusion_img2img.py
@@ -457,7 +457,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/deprecated/controlnet_xs/pipeline_controlnet_xs.py b/src/diffusers/pipelines/deprecated/controlnet_xs/pipeline_controlnet_xs.py
@@ -334,7 +334,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/deprecated/i2vgen_xl/pipeline_i2vgen_xl.py b/src/diffusers/pipelines/deprecated/i2vgen_xl/pipeline_i2vgen_xl.py
@@ -245,7 +245,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype
@@ -315,7 +319,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                negative_prompt_embeds = self.text_encoder.text_model.final_layer_norm(negative_prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                negative_prompt_embeds = text_model.final_layer_norm(negative_prompt_embeds)
 
         if self.do_classifier_free_guidance:
             # duplicate unconditional embeddings for each generation per prompt, using mps friendly method

diff --git a/src/diffusers/pipelines/deprecated/pia/pipeline_pia.py b/src/diffusers/pipelines/deprecated/pia/pipeline_pia.py
@@ -318,7 +318,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...recated/stable_diffusion_attend_and_excite/pipeline_stable_diffusion_attend_and_excite.py b/...recated/stable_diffusion_attend_and_excite/pipeline_stable_diffusion_attend_and_excite.py
@@ -398,7 +398,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...sers/pipelines/deprecated/stable_diffusion_diffedit/pipeline_stable_diffusion_diffedit.py b/...sers/pipelines/deprecated/stable_diffusion_diffedit/pipeline_stable_diffusion_diffedit.py
@@ -524,7 +524,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...iffusers/pipelines/deprecated/stable_diffusion_gligen/pipeline_stable_diffusion_gligen.py b/...iffusers/pipelines/deprecated/stable_diffusion_gligen/pipeline_stable_diffusion_gligen.py
@@ -322,7 +322,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...pelines/deprecated/stable_diffusion_gligen/pipeline_stable_diffusion_gligen_text_image.py b/...pelines/deprecated/stable_diffusion_gligen/pipeline_stable_diffusion_gligen_text_image.py
@@ -353,7 +353,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/deprecated/stable_diffusion_ldm3d/pipeline_stable_diffusion_ldm3d.py b/src/diffusers/pipelines/deprecated/stable_diffusion_ldm3d/pipeline_stable_diffusion_ldm3d.py
@@ -414,7 +414,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...sers/pipelines/deprecated/stable_diffusion_panorama/pipeline_stable_diffusion_panorama.py b/...sers/pipelines/deprecated/stable_diffusion_panorama/pipeline_stable_diffusion_panorama.py
@@ -385,7 +385,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/deprecated/stable_diffusion_sag/pipeline_stable_diffusion_sag.py b/src/diffusers/pipelines/deprecated/stable_diffusion_sag/pipeline_stable_diffusion_sag.py
@@ -313,7 +313,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py b/src/diffusers/pipelines/deprecated/stable_diffusion_variants/pipeline_cycle_diffusion.py
@@ -390,7 +390,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...ipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_inpaint_legacy.py b/...ipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_inpaint_legacy.py
@@ -361,7 +361,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_model_editing.py b/...pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_model_editing.py
@@ -294,7 +294,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype

diff --git a/...ers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_paradigms.py b/...ers/pipelines/deprecated/stable_diffusion_variants/pipeline_stable_diffusion_paradigms.py
@@ -291,7 +291,11 @@ def encode_prompt(
                 # representations. The `last_hidden_states` that we typically use for
                 # obtaining the final prompt representations passes through the LayerNorm
                 # layer.
-                prompt_embeds = self.text_encoder.text_model.final_layer_norm(prompt_embeds)
+                # CLIPTextModel was flattened in transformers>=5.6 (no longer wrapped in .text_model).
+                text_model = (
+                    self.text_encoder.text_model if hasattr(self.text_encoder, "text_model") else self.text_encoder
+                )
+                prompt_embeds = text_model.final_layer_norm(prompt_embeds)
 
         if self.text_encoder is not None:
             prompt_embeds_dtype = self.text_encoder.dtype