recoilme commited on 16 days ago

Commit

7b12282

1 Parent(s): ec0cd71

2602

Browse files

Files changed (41) hide show

girl.jpg +2 -2
media/result_grid.jpg +2 -2
model_index.json +2 -2
pipeline_sdxs.py +59 -7
samples/unet_320x640_0.jpg +2 -2
samples/unet_352x640_0.jpg +2 -2
samples/unet_384x640_0.jpg +2 -2
samples/unet_416x640_0.jpg +2 -2
samples/unet_448x640_0.jpg +2 -2
samples/unet_480x640_0.jpg +2 -2
samples/unet_512x640_0.jpg +2 -2
samples/unet_544x640_0.jpg +2 -2
samples/unet_576x640_0.jpg +2 -2
samples/unet_608x640_0.jpg +2 -2
samples/unet_640x320_0.jpg +2 -2
samples/unet_640x352_0.jpg +2 -2
samples/unet_640x384_0.jpg +2 -2
samples/unet_640x416_0.jpg +2 -2
samples/unet_640x448_0.jpg +2 -2
samples/unet_640x480_0.jpg +2 -2
samples/unet_640x512_0.jpg +2 -2
samples/unet_640x544_0.jpg +2 -2
samples/unet_640x576_0.jpg +2 -2
samples/unet_640x608_0.jpg +2 -2
samples/unet_640x640_0.jpg +2 -2
test.ipynb +2 -2
text_encoder2/config.json +3 -0
text_encoder2/generation_config.json +3 -0
text_encoder2/model.safetensors +3 -0
tmp.ipynb +3 -0
tokenizer2/chat_template.jinja +120 -0
tokenizer2/tokenizer.json +3 -0
tokenizer2/tokenizer_config.json +3 -0
train.py +56 -19
train1te.py +764 -0
unet/config.json +2 -2
unet/diffusion_pytorch_model.safetensors +2 -2
unet1.5b-2TE-text.ipynb +3 -0
{unet → unet_1te}/config-Copy1.txt +0 -0
unet_1te/config.json +3 -0
unet_1te/diffusion_pytorch_model.safetensors +3 -0

girl.jpg CHANGED Viewed

Git LFS Details

SHA256: d98b27cf3ae2b91022856db57f7f5e07380cd59b0cb5f01077c556079c93adc7
Pointer size: 130 Bytes
Size of remote file: 24.9 kB

Git LFS Details

SHA256: 142051a7a89100e8614349a8b0fba903d6eb044af08092bb0d9a17478bb8900c
Pointer size: 130 Bytes
Size of remote file: 53.7 kB

media/result_grid.jpg CHANGED Viewed

Git LFS Details

SHA256: d5b008a5ca3136fc5b747c4e02d09fa6605e4c04a02b39cec9ec47b0795dd0f2
Pointer size: 132 Bytes
Size of remote file: 1.73 MB

Git LFS Details

SHA256: e2468f4c8c3e6d55a01af9e6d8af568cf771f95637ba008402fcf3492697d58a
Pointer size: 132 Bytes
Size of remote file: 1.68 MB

model_index.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6d71e1f562601e1a6bfcd1f0f7f81e021003b5512637d1c14dd77aba88144c8
-size 412

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0d5bb629e0658077c2dc01e262ac002c2235c10c6bccdbbb13986db25d810a5
+size 545

pipeline_sdxs.py CHANGED Viewed

@@ -7,18 +7,21 @@ from dataclasses import dataclass
 from diffusers import DiffusionPipeline
 from diffusers.utils import BaseOutput
 from tqdm import tqdm
 @dataclass
 class SdxsPipelineOutput(BaseOutput):
     images: Union[List[Image.Image], np.ndarray]
 class SdxsPipeline(DiffusionPipeline):
-    def __init__(self, vae, text_encoder, tokenizer, unet, scheduler):
         super().__init__()
         self.register_modules(
             vae=vae,
-            text_encoder=text_encoder,
-            tokenizer=tokenizer,
             unet=unet,
             scheduler=scheduler
         )
@@ -98,7 +101,7 @@ class SdxsPipeline(DiffusionPipeline):
         return latents
     def encode_prompt(self, prompt, negative_prompt, device, dtype):
-        def get_single_encode(texts, is_negative=False):
             if texts is None or texts == "":
                 hidden_dim = self.text_encoder.config.hidden_size
                 shape = (1, self.text_encoder.config.max_position_embeddings, hidden_dim)
@@ -130,19 +133,63 @@ class SdxsPipeline(DiffusionPipeline):
                 prompt_embeds = final_layer_norm(prompt_embeds)
                 return prompt_embeds, toks.attention_mask
         pos_embeds, pos_mask = get_single_encode(prompt)
-        neg_embeds, neg_mask = get_single_encode(negative_prompt, is_negative=True)
         batch_size = pos_embeds.shape[0]
         if neg_embeds.shape[0] != batch_size:
             neg_embeds = neg_embeds.repeat(batch_size, 1, 1)
             neg_mask = neg_mask.repeat(batch_size, 1)
         text_embeddings = torch.cat([neg_embeds, pos_embeds], dim=0)
         final_mask = torch.cat([neg_mask, pos_mask], dim=0)
-        return text_embeddings.to(dtype=dtype), final_mask.to(dtype=torch.int64)
     @torch.no_grad()
     def __call__(
@@ -170,7 +217,7 @@ class SdxsPipeline(DiffusionPipeline):
             generator = torch.Generator(device=device).manual_seed(seed)
         # 1. Encode prompt (твой код оставляем без изменений)
-        text_embeddings, attention_mask = self.encode_prompt(
             prompt, negative_prompt, device, dtype
         )
         batch_size = 1 if isinstance(prompt, str) else len(prompt)
@@ -226,12 +273,17 @@ class SdxsPipeline(DiffusionPipeline):
         # ==================== DENOISING LOOP (одинаковый для txt2img и img2img) ====================
         for i, t in enumerate(tqdm(timesteps, desc="Sampling")):
             latent_model_input = torch.cat([latents] * 2) if guidance_scale > 1.0 else latents
             model_out = self.unet(
                 latent_model_input,
                 t,
                 encoder_hidden_states=text_embeddings,
                 encoder_attention_mask=attention_mask,
                 return_dict=False,
             )[0]

 from diffusers import DiffusionPipeline
 from diffusers.utils import BaseOutput
 from tqdm import tqdm
+from transformers import Qwen3ForCausalLM, Qwen2Tokenizer
 @dataclass
 class SdxsPipelineOutput(BaseOutput):
     images: Union[List[Image.Image], np.ndarray]
 class SdxsPipeline(DiffusionPipeline):
+    def __init__(self, vae, text_encoder, text_encoder2, tokenizer, tokenizer2, unet, scheduler):
         super().__init__()
         self.register_modules(
             vae=vae,
+            text_encoder=text_encoder,
+            text_encoder2=text_encoder2,
+            tokenizer=tokenizer,
+            tokenizer2=tokenizer2,
             unet=unet,
             scheduler=scheduler
         )
         return latents
     def encode_prompt(self, prompt, negative_prompt, device, dtype):
+        def get_single_encode(texts):
             if texts is None or texts == "":
                 hidden_dim = self.text_encoder.config.hidden_size
                 shape = (1, self.text_encoder.config.max_position_embeddings, hidden_dim)
                 prompt_embeds = final_layer_norm(prompt_embeds)
                 return prompt_embeds, toks.attention_mask
+        def get_pooled_encode(texts):
+            if texts is None or texts == "":
+                hidden_dim = self.text_encoder2.config.hidden_size
+                shape = (1, self.text_encoder.config.max_position_embeddings, hidden_dim)#248
+                emb = torch.zeros(shape, dtype=dtype, device=device)
+                return emb
+            if isinstance(texts, str):
+                texts = [texts]
+            with torch.no_grad():
+                messages = [{"role": "user", "content": texts}]
+                with open("tokenizer2/chat_template.jinja", "r", encoding="utf-8") as f:
+                    custom_template = f.read().strip()
+                text = self.tokenizer2.apply_chat_template(messages, add_generation_prompt=False, tokenize=False, chat_template=custom_template)
+                #text = self.tokenizer2.apply_chat_template(messages, add_generation_prompt=False, tokenize=False)
+                toks = self.tokenizer2(
+                    text,
+                    padding="max_length",
+                    max_length=self.text_encoder.config.max_position_embeddings,
+                    truncation=True,
+                    return_tensors="pt"
+                ).to(device)
+                outputs = self.text_encoder2(
+                    input_ids=toks.input_ids,
+                    attention_mask=toks.attention_mask,
+                    output_hidden_states=True
+                )
+                layer_index = -2
+                last_hidden = outputs.hidden_states[layer_index]
+                seq_len = toks.attention_mask.sum(dim=1) - 1
+                pooled = last_hidden[torch.arange(len(last_hidden)), seq_len.clamp(min=0)]
+                return pooled
         pos_embeds, pos_mask = get_single_encode(prompt)
+        neg_embeds, neg_mask = get_single_encode(negative_prompt)
+        pos_pooled = get_pooled_encode(prompt)
+        neg_pooled = get_pooled_encode(negative_prompt)
         batch_size = pos_embeds.shape[0]
         if neg_embeds.shape[0] != batch_size:
             neg_embeds = neg_embeds.repeat(batch_size, 1, 1)
             neg_mask = neg_mask.repeat(batch_size, 1)
+            neg_pooled = neg_pooled.repeat(batch_size, 1)
+        if pos_pooled.shape[0] != batch_size:
+            pos_pooled = pos_pooled.repeat(batch_size, 1)
         text_embeddings = torch.cat([neg_embeds, pos_embeds], dim=0)
         final_mask = torch.cat([neg_mask, pos_mask], dim=0)
+        pooled_embeds = torch.cat([neg_pooled, pos_pooled], dim=0)
+        return text_embeddings.to(dtype=dtype), final_mask.to(dtype=torch.int64), pooled_embeds.to(dtype=dtype)
     @torch.no_grad()
     def __call__(
             generator = torch.Generator(device=device).manual_seed(seed)
         # 1. Encode prompt (твой код оставляем без изменений)
+        text_embeddings, attention_mask, pooled_embeds = self.encode_prompt(
             prompt, negative_prompt, device, dtype
         )
         batch_size = 1 if isinstance(prompt, str) else len(prompt)
         # ==================== DENOISING LOOP (одинаковый для txt2img и img2img) ====================
         for i, t in enumerate(tqdm(timesteps, desc="Sampling")):
             latent_model_input = torch.cat([latents] * 2) if guidance_scale > 1.0 else latents
+            added_cond_kwargs = {
+                "text_embeds": pooled_embeds,
+            }
             model_out = self.unet(
                 latent_model_input,
                 t,
                 encoder_hidden_states=text_embeddings,
                 encoder_attention_mask=attention_mask,
+                added_cond_kwargs=added_cond_kwargs,
                 return_dict=False,
             )[0]

samples/unet_320x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: d8d46684ae7e461e5b8cd03937a50d01ae89532e43ab3a47456a3e687af19549
Pointer size: 130 Bytes
Size of remote file: 35.5 kB

Git LFS Details

SHA256: fdc51c08531f2a84eacc51ab1c864f052bb271abb5cd2265a3e16c3f08e66eb7
Pointer size: 130 Bytes
Size of remote file: 46.1 kB

samples/unet_352x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 3efd68b90e3bfe131e8516e9c681b369f9e26d8d4e96159fb38e1a860756c0c5
Pointer size: 130 Bytes
Size of remote file: 75.6 kB

Git LFS Details

SHA256: d5c026a5184bfbfc57f85323ef15b41465a544254e551f4cb802f613e2fbf7cb
Pointer size: 131 Bytes
Size of remote file: 136 kB

samples/unet_384x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 0e73dd8cabd5bfdd49c677639c8557f10275f4bffd0483f25e4f82a8401d7c85
Pointer size: 131 Bytes
Size of remote file: 158 kB

Git LFS Details

SHA256: 9b008824a24f39ea1eb081bee307076f4a7f9cc49f72324322683a7f6682b919
Pointer size: 131 Bytes
Size of remote file: 101 kB

samples/unet_416x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: dbf30fdc26f79b0ff8dde4577ab91f96033f926ed0e9dd9df00067c154eb194e
Pointer size: 131 Bytes
Size of remote file: 132 kB

Git LFS Details

SHA256: 12fea08c2af57b7f7e3ba8b6aeefb7eec7b3bcd0d4e242d864adbae45a24cd6e
Pointer size: 130 Bytes
Size of remote file: 65.3 kB

samples/unet_448x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 344e2e5df5d11c05a64be72dc42baa50299160e152d854da70f8b29b31640f0b
Pointer size: 131 Bytes
Size of remote file: 104 kB

Git LFS Details

SHA256: 91f1cad64c89b2ae069d77b0b1eb6f48ec939ad1baa5f15c4dc88e58a48defd5
Pointer size: 131 Bytes
Size of remote file: 155 kB

samples/unet_480x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: cd7fd9eae4dc639ab8c96ce643ecffce2ad9295499ea490ede8c3c6800816c22
Pointer size: 131 Bytes
Size of remote file: 103 kB

Git LFS Details

SHA256: 5039b32dd4618e05abf17e2c82f5e170ec0a7fadcbc368901128c076f6bacef5
Pointer size: 131 Bytes
Size of remote file: 197 kB

samples/unet_512x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: b3a059eedb669e51bf50ea0892cb67b4177385b14a52fff88b74ceef222a2eb2
Pointer size: 131 Bytes
Size of remote file: 177 kB

Git LFS Details

SHA256: 19513d1153dac5ed907098d5fba226adfb7e3130e7ee155500e6c33578711fb7
Pointer size: 130 Bytes
Size of remote file: 76.8 kB

samples/unet_544x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 006fedadb8d1630ba4ecf8e9e73657fd9789f7957d2f9af9d97facf5feab2aec
Pointer size: 130 Bytes
Size of remote file: 92.2 kB

Git LFS Details

SHA256: 307a075166de57168469dbbc9c0c7316b5037c5bbb50fa4fe09f572dc97ea327
Pointer size: 131 Bytes
Size of remote file: 153 kB

samples/unet_576x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: c7210149d438abf21d40b0821b949c81ed922754b6bd5b7db1b69b87dcfe0bc1
Pointer size: 131 Bytes
Size of remote file: 230 kB

Git LFS Details

SHA256: 232c9214613fe3aa95b6bc39b67a63e4a96eb10f59354d317250f587c110a5c9
Pointer size: 131 Bytes
Size of remote file: 245 kB

samples/unet_608x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: f75948ed9916efe45dab024bea702d0a3714342ebec6f4d354102f05277091a9
Pointer size: 131 Bytes
Size of remote file: 152 kB

Git LFS Details

SHA256: 6f72b0ea6d9074617b892593b17fe81c64a51337dd2d4a5b283ed8ac1841b064
Pointer size: 131 Bytes
Size of remote file: 103 kB

samples/unet_640x320_0.jpg CHANGED Viewed

Git LFS Details

SHA256: eeb51da2f098f450eddbb24608683f888472a46eae32b808a9d117caffebe49b
Pointer size: 130 Bytes
Size of remote file: 98.5 kB

Git LFS Details

SHA256: da499eeda937acf345c49609f7a93f7caa2b76c4fd4d1f03cb40652711e316dd
Pointer size: 131 Bytes
Size of remote file: 133 kB

samples/unet_640x352_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 2ce8e3c3eb464eb0650b8ba139f2b1ed9c13cd842ee34f11ef5ed6346ccdb8d0
Pointer size: 131 Bytes
Size of remote file: 104 kB

Git LFS Details

SHA256: ddca2967951f48c8c15c23c82e1950d5f2f6099f86544d6038ea087e04794505
Pointer size: 131 Bytes
Size of remote file: 157 kB

samples/unet_640x384_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 25b4325358bbcc2c787882393313616d2e3c89b6960a57b77afcb94dab04f1e6
Pointer size: 131 Bytes
Size of remote file: 117 kB

Git LFS Details

SHA256: 7bb0cb8197d73293384b2cfc773e8fd3fdaa4b2248c77eb0622b7f4002317508
Pointer size: 131 Bytes
Size of remote file: 176 kB

samples/unet_640x416_0.jpg CHANGED Viewed

Git LFS Details

SHA256: ebe19c459af583d3a8c5bd53e73dc0a4b88c9ee564fe1036483d734b0f514788
Pointer size: 131 Bytes
Size of remote file: 181 kB

Git LFS Details

SHA256: c90e25f76319168e9bf34e55ff41f080d8c72ba46090e95a4a7d0c8c191c935a
Pointer size: 131 Bytes
Size of remote file: 114 kB

samples/unet_640x448_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 13e903e484a909c74fe1a65378d471ac530c86a75a8b550d452ed56cc91e30c1
Pointer size: 131 Bytes
Size of remote file: 111 kB

Git LFS Details

SHA256: 2c721fc590cd2b69e48646ad40c05149d1ce65c0ed26f4d1dfe0f5545a9e13c6
Pointer size: 131 Bytes
Size of remote file: 244 kB

samples/unet_640x480_0.jpg CHANGED Viewed

Git LFS Details

SHA256: a7f615e27eaa6c42180e5e09a61924084050befa2e6638e7386a0b55fa060dbb
Pointer size: 131 Bytes
Size of remote file: 174 kB

Git LFS Details

SHA256: 8c98c99e90ea48882546809e92d5fa1ce38d63910a6e76e8e432c987632c9ef2
Pointer size: 130 Bytes
Size of remote file: 59.9 kB

samples/unet_640x512_0.jpg CHANGED Viewed

Git LFS Details

SHA256: d02cf8e05c137f816b98f7baabe4167498ae6318ce5fb3b2274ae77ad86a6c16
Pointer size: 131 Bytes
Size of remote file: 115 kB

Git LFS Details

SHA256: baf9e78bbb24d30dc34c36dd9d64fe96793facec7d74714ca20203dd2a6e611d
Pointer size: 131 Bytes
Size of remote file: 119 kB

samples/unet_640x544_0.jpg CHANGED Viewed

Git LFS Details

SHA256: aade5739843610c92f0f32009eb4c27a313b7f2e573affe372c357a28af01c89
Pointer size: 131 Bytes
Size of remote file: 316 kB

Git LFS Details

SHA256: 1eae49806b4ac286ddd0dae65949b6c752a34079ecdccd113f16cebaeb624ba2
Pointer size: 131 Bytes
Size of remote file: 167 kB

samples/unet_640x576_0.jpg CHANGED Viewed

Git LFS Details

SHA256: c1ebebfc600d8f9f9fb7e123941387dbc51e447e807b994da7d9e5cd3798ee77
Pointer size: 131 Bytes
Size of remote file: 156 kB

Git LFS Details

SHA256: 62222f1de64715706e86befdef44c895b10044c5aca35919fa71fb0390e54b31
Pointer size: 130 Bytes
Size of remote file: 87 kB

samples/unet_640x608_0.jpg CHANGED Viewed

Git LFS Details

SHA256: d91fc031fed4bebf7c11527b71534367c26439df1135ee00aa25ee4157f5daa7
Pointer size: 131 Bytes
Size of remote file: 163 kB

Git LFS Details

SHA256: 8154e648e834b93d713432707601f0c0fc6ddeed9eb05896cc83abdbf25c8406
Pointer size: 131 Bytes
Size of remote file: 166 kB

samples/unet_640x640_0.jpg CHANGED Viewed

Git LFS Details

SHA256: 0feca1acd71ff8c0e7502406dd1132171178351f0e3887be646ecc70112cc48b
Pointer size: 131 Bytes
Size of remote file: 264 kB

Git LFS Details

SHA256: dd869ffb1b6774c3ac82bc62040e6fdcda3a90f2403ca623bb61ab8a9b51252a
Pointer size: 131 Bytes
Size of remote file: 233 kB

test.ipynb CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac34e2fd2c559d6e716bb9603c9834bdc4034ba6466994a7d17baec6443aeddf
-size 2650007

 version https://git-lfs.github.com/spec/v1
+oid sha256:57474740f5a2bece3336537eca97110854b675a1213a6311971f016a4b5f5e3d
+size 787689

text_encoder2/config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e932ef2a43c3da60f4ddb09e3cb4bc242ea648d4f6720e90a9a59bd2478f1ed1
+size 1506

text_encoder2/generation_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad07e05bf667caeda7d50a747f9f7b0bc099ff85cd75d3b29c304881be086dbb
+size 204

text_encoder2/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f7db7f79952f3f268880b4ce26ac6547265a3671ec0c406ecd45fda35976f25
+size 3441185296

tmp.ipynb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ebdbfa4158fc271c58538c4e5678089d5de991910e2cad8c475a86c1c49b707
+size 823112

tokenizer2/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,120 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' }}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- for message in messages %}
+    {%- if message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role + '\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content_item in message.content %}
+                {%- if 'text' in content_item %}
+                    {{- content_item.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and message.content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {%- if message.content is string %}
+            {{- message.content }}
+        {%- else %}
+            {%- for content in message.content %}
+                {%- if content.type == 'image' or 'image' in content or 'image_url' in content %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                    {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                    <|vision_start|><|image_pad|><|vision_end|>
+                {%- elif content.type == 'video' or 'video' in content %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                    {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                    <|vision_start|><|video_pad|><|vision_end|>
+                {%- elif 'text' in content %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

tokenizer2/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be75606093db2094d7cd20f3c2f385c212750648bd6ea4fb2bf507a6a4c55506
+size 11422650

tokenizer2/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:013cf6e7def2d3260ae8bbb909a0dc024cd27732b8df318a3d00ee7c724b3215
+size 390

train.py CHANGED Viewed

@@ -128,6 +128,8 @@ if accelerator.is_main_process:
 vae = AutoencoderKLFlux2.from_pretrained("vae", torch_dtype=dtype).to(device).eval()
 tokenizer = AutoTokenizer.from_pretrained("tokenizer")
 text_model = AutoModel.from_pretrained("text_encoder").to(device).eval()
 scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("scheduler")
 def encode_texts(texts, max_length=max_length):
@@ -166,7 +168,30 @@ def encode_texts(texts, max_length=max_length):
         final_layer_norm = text_model.text_model.final_layer_norm
         prompt_embeds = final_layer_norm(prompt_embeds)
-        return prompt_embeds, attention_mask
 shift_factor = getattr(vae.config, "shift_factor", 0.0)
 if shift_factor is None: shift_factor = 0.0
@@ -300,9 +325,9 @@ def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
         texts = [item["text"] for item in samples_data]
         # Кодируем тексты на лету, чтобы получить маски и пулинг
-        embeddings, masks = encode_texts(texts)
-        fixed_samples[size] = (latents, embeddings, masks, texts)
     print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
     return fixed_samples
@@ -336,12 +361,12 @@ def collate_fn_simple(batch):
     ]
     # 3. Кодируем на лету
     # Возвращает: hidden (B, L, D), mask (B, L)
-    embeddings, attention_mask = encode_texts(texts)
     # attention_mask от токенизатора уже имеет нужный формат, но на всякий случай приведем к long
     attention_mask = attention_mask.to(dtype=torch.int64)
-    return latents, embeddings, attention_mask
 batch_sampler = DistributedResolutionBatchSampler(
         dataset=dataset,
@@ -447,22 +472,21 @@ def get_negative_embedding(neg_prompt="", batch_size=1):
         empty_mask = torch.ones((batch_size, seq_len), dtype=torch.int64, device=device)
         return empty_emb, empty_mask
-    uncond_emb, uncond_mask = encode_texts([neg_prompt])
     uncond_emb = uncond_emb.to(dtype=dtype, device=device).repeat(batch_size, 1, 1)
     uncond_mask = uncond_mask.to(device=device).repeat(batch_size, 1)
-    return uncond_emb, uncond_mask
 # Получаем негативные (пустые) условия для валидации
-uncond_emb, uncond_mask = get_negative_embedding("low quality")
 # --- Функция генерации семплов  ---
 @torch.compiler.disable()
 @torch.no_grad()
 def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
-    uncond_emb, uncond_mask = uncond_data
     original_model = None
     try:
@@ -477,11 +501,12 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
         all_captions = []
         # Распаковываем 5 элементов (добавились mask)
-        for size, (sample_latents, sample_text_embeddings, sample_mask, sample_text) in fixed_samples_cpu.items():
             width, height = size
             sample_latents = sample_latents.to(dtype=dtype, device=device)
             sample_text_embeddings = sample_text_embeddings.to(dtype=dtype, device=device)
             sample_mask = sample_mask.to(device=device)
             latents = torch.randn(
                 sample_latents.shape,
@@ -509,17 +534,25 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
                     neg_mask_batch = uncond_mask[0:1].expand(curr_batch_size, -1)
                     attention_mask_batch = torch.cat([neg_mask_batch, sample_mask], dim=0)
                 else:
                     latent_model_input = latents
                     text_embeddings_batch = sample_text_embeddings
                     attention_mask_batch = sample_mask
                 # Предсказание с передачей всех условий
                 model_out = original_model(
                     latent_model_input,
                     t,
                     encoder_hidden_states=text_embeddings_batch,
                     encoder_attention_mask=attention_mask_batch,
                 )
                 flow = getattr(model_out, "sample", model_out)
@@ -582,7 +615,7 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
             del all_generated_images, all_captions
             del latents, current_latents, latent_model_input, flow
             del decoded, decoded_fp32
-            del sample_latents, sample_text_embeddings, sample_mask # Копии на GPU
             del model_out
         except UnboundLocalError:
             pass
@@ -597,7 +630,7 @@ def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
 if accelerator.is_main_process:
     if save_model:
         print("Генерация сэмплов до старта обучения...")
-        generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), 0)
 accelerator.wait_for_everyone()
 def save_checkpoint(unet, variant=""):
@@ -638,7 +671,7 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
     accelerator.wait_for_everyone()
     unet.train()
-    for step, (latents, embeddings, attention_mask) in enumerate(dataloader):
         with accelerator.accumulate(unet):
             if save_model == False and epoch == 0 and step == 5 :
                 used_gb = torch.cuda.max_memory_allocated() / 1024**3
@@ -655,13 +688,17 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
             # делаем integer timesteps для UNet
             timesteps = t.to(torch.float32).mul(999.0)
             timesteps = timesteps.clamp(0, scheduler.config.num_train_timesteps - 1)
             # --- Вызов UNet с маской  ---
             model_pred = unet(
                 noisy_latents,
                 timesteps,
                 encoder_hidden_states=embeddings,
-                encoder_attention_mask=attention_mask
             ).sample
             target = noise - latents
@@ -715,9 +752,9 @@ for epoch in range(start_epoch, start_epoch + num_epochs):
                     if global_step % sample_interval == 0 or global_step==50:
                         # Передаем tuple (emb, mask) для негатива
                         if save_model:
-                            generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), global_step)
                         elif epoch % 10 == 0:
-                            generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), global_step)
                         last_n = sample_interval
                         if save_model:

 vae = AutoencoderKLFlux2.from_pretrained("vae", torch_dtype=dtype).to(device).eval()
 tokenizer = AutoTokenizer.from_pretrained("tokenizer")
 text_model = AutoModel.from_pretrained("text_encoder").to(device).eval()
+tokenizer2 = AutoTokenizer.from_pretrained("tokenizer")
+text_model2 = AutoModel.from_pretrained("text_encoder").to(device).eval()
 scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("scheduler")
 def encode_texts(texts, max_length=max_length):
         final_layer_norm = text_model.text_model.final_layer_norm
         prompt_embeds = final_layer_norm(prompt_embeds)
+        messages = [{"role": "user", "content": texts}]
+        with open("tokenizer2/chat_template.jinja", "r", encoding="utf-8") as f:
+            custom_template = f.read().strip()
+        text = tokenizer2.apply_chat_template(messages, add_generation_prompt=False, tokenize=False, chat_template=custom_template)
+        toks = tokenizer2(
+            text,
+            padding="max_length",
+            max_length=max_length,
+            truncation=True,
+            return_tensors="pt"
+        ).to(device)
+        outputs = text_model2(
+            input_ids=toks.input_ids,
+            attention_mask=toks.attention_mask,
+            output_hidden_states=True
+        )
+        layer_index = -2
+        last_hidden = outputs.hidden_states[layer_index]
+        seq_len = toks.attention_mask.sum(dim=1) - 1
+        pooled = last_hidden[torch.arange(len(last_hidden)), seq_len.clamp(min=0)]
+        return prompt_embeds, attention_mask, pooled
 shift_factor = getattr(vae.config, "shift_factor", 0.0)
 if shift_factor is None: shift_factor = 0.0
         texts = [item["text"] for item in samples_data]
         # Кодируем тексты на лету, чтобы получить маски и пулинг
+        embeddings, masks, pooled = encode_texts(texts)
+        fixed_samples[size] = (latents, embeddings, masks, texts, pooled)
     print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
     return fixed_samples
     ]
     # 3. Кодируем на лету
     # Возвращает: hidden (B, L, D), mask (B, L)
+    embeddings, attention_mask, pooled = encode_texts(texts)
     # attention_mask от токенизатора уже имеет нужный формат, но на всякий случай приведем к long
     attention_mask = attention_mask.to(dtype=torch.int64)
+    return latents, embeddings, attention_mask, pooled
 batch_sampler = DistributedResolutionBatchSampler(
         dataset=dataset,
         empty_mask = torch.ones((batch_size, seq_len), dtype=torch.int64, device=device)
         return empty_emb, empty_mask
+    uncond_emb, uncond_mask, uncond_pooled  = encode_texts([neg_prompt])
     uncond_emb = uncond_emb.to(dtype=dtype, device=device).repeat(batch_size, 1, 1)
     uncond_mask = uncond_mask.to(device=device).repeat(batch_size, 1)
+    uncond_pooled = uncond_pooled.to(device=device).repeat(batch_size, 1)
+    return uncond_emb, uncond_mask, uncond_pooled
 # Получаем негативные (пустые) условия для валидации
+uncond_emb, uncond_mask, uncond_pooled = get_negative_embedding("low quality")
 # --- Функция генерации семплов  ---
 @torch.compiler.disable()
 @torch.no_grad()
 def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
+    uncond_emb, uncond_mask, uncond_pooled = uncond_data
     original_model = None
     try:
         all_captions = []
         # Распаковываем 5 элементов (добавились mask)
+        for size, (sample_latents, sample_text_embeddings, sample_mask, sample_text, sample_pooled) in fixed_samples_cpu.items():
             width, height = size
             sample_latents = sample_latents.to(dtype=dtype, device=device)
             sample_text_embeddings = sample_text_embeddings.to(dtype=dtype, device=device)
             sample_mask = sample_mask.to(device=device)
+            sample_pooled = sample_pooled.to(dtype=dtype, device=device)
             latents = torch.randn(
                 sample_latents.shape,
                     neg_mask_batch = uncond_mask[0:1].expand(curr_batch_size, -1)
                     attention_mask_batch = torch.cat([neg_mask_batch, sample_mask], dim=0)
+                    neg_pooled_batch = uncond_pooled[0:1].expand(curr_batch_size, -1)
+                    attention_pooled_batch = torch.cat([neg_pooled_batch, sample_pooled], dim=0)
                 else:
                     latent_model_input = latents
                     text_embeddings_batch = sample_text_embeddings
                     attention_mask_batch = sample_mask
+                    attention_pooled_batch = sample_pooled
+                added_cond_kwargs = {
+                    "text_embeds": attention_pooled_batch,
+                }
                 # Предсказание с передачей всех условий
                 model_out = original_model(
                     latent_model_input,
                     t,
                     encoder_hidden_states=text_embeddings_batch,
                     encoder_attention_mask=attention_mask_batch,
+                    added_cond_kwargs=added_cond_kwargs,
                 )
                 flow = getattr(model_out, "sample", model_out)
             del all_generated_images, all_captions
             del latents, current_latents, latent_model_input, flow
             del decoded, decoded_fp32
+            del sample_latents, sample_text_embeddings, sample_mask, sample_pooled # Копии на GPU
             del model_out
         except UnboundLocalError:
             pass
 if accelerator.is_main_process:
     if save_model:
         print("Генерация сэмплов до старта обучения...")
+        generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask,uncond_pooled), 0)
 accelerator.wait_for_everyone()
 def save_checkpoint(unet, variant=""):
     accelerator.wait_for_everyone()
     unet.train()
+    for step, (latents, embeddings, attention_mask, pooled) in enumerate(dataloader):
         with accelerator.accumulate(unet):
             if save_model == False and epoch == 0 and step == 5 :
                 used_gb = torch.cuda.max_memory_allocated() / 1024**3
             # делаем integer timesteps для UNet
             timesteps = t.to(torch.float32).mul(999.0)
             timesteps = timesteps.clamp(0, scheduler.config.num_train_timesteps - 1)
+            added_cond_kwargs = {
+                "text_embeds": pooled,
+            }
             # --- Вызов UNet с маской  ---
             model_pred = unet(
                 noisy_latents,
                 timesteps,
                 encoder_hidden_states=embeddings,
+                encoder_attention_mask=attention_mask,
+                added_cond_kwargs=added_cond_kwargs,
             ).sample
             target = noise - latents
                     if global_step % sample_interval == 0 or global_step==50:
                         # Передаем tuple (emb, mask) для негатива
                         if save_model:
+                            generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask,uncond_pooled), global_step)
                         elif epoch % 10 == 0:
+                            generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask,uncond_pooled), global_step)
                         last_n = sample_interval
                         if save_model:

train1te.py ADDED Viewed

	@@ -0,0 +1,764 @@

+#from comet_ml import Experiment
+import os
+os.environ["NCCL_P2P_DISABLE"] = "1"
+os.environ["NCCL_IB_DISABLE"] = "1"
+os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
+import math
+import torch
+import numpy as np
+import matplotlib.pyplot as plt
+from torch.utils.data import DataLoader, Sampler
+from torch.utils.data.distributed import DistributedSampler
+from torch.optim.lr_scheduler import LambdaLR
+from collections import defaultdict
+from diffusers import UNet2DConditionModel, AutoencoderKL,AutoencoderKLFlux2,AsymmetricAutoencoderKL,FlowMatchEulerDiscreteScheduler
+from accelerate import Accelerator, DeepSpeedPlugin
+from datasets import load_from_disk
+from tqdm import tqdm
+from PIL import Image, ImageOps
+import wandb
+import random
+import gc
+from accelerate.state import DistributedType
+from torch.distributed import broadcast_object_list
+from torch.utils.checkpoint import checkpoint
+from diffusers.models.attention_processor import AttnProcessor2_0
+from datetime import datetime
+import bitsandbytes as bnb
+import torch.nn.functional as F
+from collections import deque
+from transformers import AutoTokenizer, AutoModel
+# --------------------------- Параметры ---------------------------
+ds_path = "/workspace/sdxs-1b/datasets/ds1234_flux32"
+project = "unet"
+## total batch (split // num `GPU)
+batch_size = 32
+base_learning_rate = 3e-5
+min_learning_rate = 1e-5
+num_epochs = 8
+sample_interval_share = 20
+cfg_dropout = 0.10
+max_length = 248
+use_wandb = True
+use_comet_ml = False
+save_model = True
+use_decay = True
+fbp = False
+optimizer_type = "adam8bit"
+torch_compile = False
+unet_gradient = True
+loss_normalize = False
+fixed_seed = False
+shuffle = True
+comet_ml_api_key = "Agctp26mbqnoYrrlvQuKSTk6r"
+comet_ml_workspace = "recoilme"
+torch.backends.cuda.matmul.allow_tf32 = True
+torch.backends.cudnn.allow_tf32 = True
+# Включение Flash Attention 2/SDPA #MAX_JOBS=4 pip install flash-attn --no-build-isolation
+torch.backends.cuda.enable_flash_sdp(True)
+torch.backends.cuda.enable_mem_efficient_sdp(True)
+torch.backends.cuda.enable_math_sdp(False) # Отключаем медленный вариант
+save_barrier = 1.5
+warmup_percent = 0.03
+#percentile_clipping = 95
+betta2 = 0.995
+eps = 1e-7
+clip_grad_norm = 1.0
+limit = 0
+checkpoints_folder = ""
+gradient_accumulation_steps = 1
+dtype = torch.float32
+mixed_precision = "no"
+# Параметры для диффузии
+n_diffusion_steps = 40
+samples_to_generate = 12
+guidance_scale = 4
+# Папки для сохранения результатов
+generated_folder = "samples"
+os.makedirs(generated_folder, exist_ok=True)
+# Настройка seed
+current_date = datetime.now()
+seed = int(current_date.strftime("%Y%m%d")) + 1
+if fixed_seed:
+    torch.manual_seed(seed)
+    np.random.seed(seed)
+    random.seed(seed)
+    if torch.cuda.is_available():
+        torch.cuda.manual_seed_all(seed)
+accelerator = Accelerator(
+    mixed_precision=mixed_precision,
+    gradient_accumulation_steps=gradient_accumulation_steps
+)
+device = accelerator.device
+print("init")
+# --------------------------- Инициализация WandB ---------------------------
+if accelerator.is_main_process:
+    if use_wandb:
+        wandb.init(project=project, config={
+            "batch_size": batch_size,
+            "base_learning_rate": base_learning_rate,
+            "num_epochs": num_epochs,
+            "optimizer_type": optimizer_type,
+        })
+    if use_comet_ml:
+        from comet_ml import Experiment
+        comet_experiment = Experiment(
+            api_key=comet_ml_api_key,
+            project_name=project,
+            workspace=comet_ml_workspace
+        )
+        hyper_params = {
+            "batch_size": batch_size,
+            "base_learning_rate": base_learning_rate,
+            "num_epochs": num_epochs,
+        }
+        comet_experiment.log_parameters(hyper_params)
+# --------------------------- Загрузка моделей ---------------------------
+#vae = AutoencoderKL.from_pretrained("vae", torch_dtype=dtype).to("cpu").eval()
+#vae = AutoencoderKLFlux2.from_pretrained("black-forest-labs/FLUX.2-dev",subfolder="vae",torch_dtype=dtype).to(device).eval()
+#vae = AsymmetricAutoencoderKL.from_pretrained("vae",torch_dtype=dtype).to(device).eval()
+vae = AutoencoderKLFlux2.from_pretrained("vae", torch_dtype=dtype).to(device).eval()
+tokenizer = AutoTokenizer.from_pretrained("tokenizer")
+text_model = AutoModel.from_pretrained("text_encoder").to(device).eval()
+scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("scheduler")
+def encode_texts(texts, max_length=max_length):
+    if texts is None:
+        texts = [""]
+    if isinstance(texts, str):
+        texts = [texts]
+    with torch.no_grad():
+        # 1. Основная токенизация
+        toks = tokenizer(
+            texts,
+            padding="max_length",
+            max_length=max_length,
+            truncation=True,
+            return_tensors="pt"
+        ).to(device)
+        text_input_ids = toks.input_ids
+        attention_mask = toks.attention_mask
+        # 4. Прогон через модель
+        # Правильный вызов: передаем конкретные тензоры или распаковываем словарь **toks
+        outputs = text_model(
+            input_ids=text_input_ids,
+            attention_mask=attention_mask,
+            output_hidden_states=True # Часто нужно для SD 1.5 (слой -2)
+        )
+        layer_index = -2
+        prompt_embeds = outputs.hidden_states[layer_index]
+        # 2. ДОБАВЛЯЕМ ФИНАЛЬНУЮ НОРМАЛИЗАЦИЮ
+        # В CLIP после всех блоков стоит слой LayerNorm.
+        final_layer_norm = text_model.text_model.final_layer_norm
+        prompt_embeds = final_layer_norm(prompt_embeds)
+        return prompt_embeds, attention_mask
+shift_factor = getattr(vae.config, "shift_factor", 0.0)
+if shift_factor is None: shift_factor = 0.0
+scaling_factor = getattr(vae.config, "scaling_factor", 1.0)
+if scaling_factor is None: scaling_factor = 1.0
+def _patchify_latents(latents):
+    batch_size, num_channels_latents, height, width = latents.shape
+    latents = latents.view(batch_size, num_channels_latents, height // 2, 2, width // 2, 2)
+    latents = latents.permute(0, 1, 3, 5, 2, 4)
+    latents = latents.reshape(batch_size, num_channels_latents * 4, height // 2, width // 2)
+    return latents
+@staticmethod
+def _unpatchify_latents(latents):
+    batch_size, num_channels_latents, height, width = latents.shape
+    latents = latents.reshape(batch_size, num_channels_latents // (2 * 2), 2, 2, height, width)
+    latents = latents.permute(0, 1, 4, 2, 5, 3)
+    latents = latents.reshape(batch_size, num_channels_latents // (2 * 2), height * 2, width * 2)
+    return latents
+def flux_encode(vae,latents):
+    # patch
+    image_latents = _patchify_latents(latents)
+    # norm
+    latents_bn_mean = vae.bn.running_mean.view(1, -1, 1, 1).to(image_latents.device, image_latents.dtype)
+    latents_bn_std = torch.sqrt(vae.bn.running_var.view(1, -1, 1, 1) + vae.config.batch_norm_eps)
+    latents = (image_latents - latents_bn_mean) / latents_bn_std
+    # unpatch
+    latents = _unpatchify_latents(latents)
+    return latents
+def flux_decode(vae,latents):
+    # patch
+    image_latents = _patchify_latents(latents)
+    # norm
+    latents_bn_mean = vae.bn.running_mean.view(1, -1, 1, 1).to(image_latents.device, image_latents.dtype)
+    latents_bn_std = torch.sqrt(vae.bn.running_var.view(1, -1, 1, 1) + vae.config.batch_norm_eps)
+    latents = image_latents * latents_bn_std + latents_bn_mean
+    # unpatch
+    latents = _unpatchify_latents(latents)
+    return latents
+class DistributedResolutionBatchSampler(Sampler):
+    def __init__(self, dataset, batch_size, num_replicas, rank, shuffle=True, drop_last=True):
+        self.dataset = dataset
+        self.batch_size = max(1, batch_size // num_replicas)
+        self.num_replicas = num_replicas
+        self.rank = rank
+        self.shuffle = shuffle
+        self.drop_last = drop_last
+        self.epoch = 0
+        try:
+            widths = np.array(dataset["width"])
+            heights = np.array(dataset["height"])
+        except KeyError:
+            widths = np.zeros(len(dataset))
+            heights = np.zeros(len(dataset))
+        self.size_keys = np.unique(np.stack([widths, heights], axis=1), axis=0)
+        self.size_groups = {}
+        for w, h in self.size_keys:
+            mask = (widths == w) & (heights == h)
+            self.size_groups[(w, h)] = np.where(mask)[0]
+        self.group_num_batches = {}
+        total_batches = 0
+        for size, indices in self.size_groups.items():
+            num_full_batches = len(indices) // (self.batch_size * self.num_replicas)
+            self.group_num_batches[size] = num_full_batches
+            total_batches += num_full_batches
+        self.num_batches = (total_batches // self.num_replicas) * self.num_replicas
+    def __iter__(self):
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
+        all_batches = []
+        rng = np.random.RandomState(self.epoch)
+        for size, indices in self.size_groups.items():
+            indices = indices.copy()
+            if self.shuffle:
+                rng.shuffle(indices)
+            num_full_batches = self.group_num_batches[size]
+            if num_full_batches == 0:
+                continue
+            valid_indices = indices[:num_full_batches * self.batch_size * self.num_replicas]
+            batches = valid_indices.reshape(-1, self.batch_size * self.num_replicas)
+            start_idx = self.rank * self.batch_size
+            end_idx = start_idx + self.batch_size
+            gpu_batches = batches[:, start_idx:end_idx]
+            all_batches.extend(gpu_batches)
+        if self.shuffle:
+            rng.shuffle(all_batches)
+        accelerator.wait_for_everyone()
+        return iter(all_batches)
+    def __len__(self):
+        return self.num_batches
+    def set_epoch(self, epoch):
+        self.epoch = epoch
+# --- [UPDATED] Функция для фиксированных семплов ---
+def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
+    size_groups = defaultdict(list)
+    try:
+        widths = dataset["width"]
+        heights = dataset["height"]
+    except KeyError:
+        widths = [0] * len(dataset)
+        heights = [0] * len(dataset)
+    for i, (w, h) in enumerate(zip(widths, heights)):
+        size = (w, h)
+        size_groups[size].append(i)
+    fixed_samples = {}
+    for size, indices in size_groups.items():
+        n_samples = min(samples_per_group, len(indices))
+        if len(size_groups)==1:
+            n_samples = samples_to_generate
+        if n_samples == 0:
+            continue
+        sample_indices = random.sample(indices, n_samples)
+        samples_data = [dataset[idx] for idx in sample_indices]
+        latents = torch.tensor(np.array([item["vae"] for item in samples_data])).to(device=device, dtype=dtype)
+        texts = [item["text"] for item in samples_data]
+        # Кодируем тексты на лету, чтобы получить маски и пулинг
+        embeddings, masks = encode_texts(texts)
+        fixed_samples[size] = (latents, embeddings, masks, texts)
+    print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
+    return fixed_samples
+if limit > 0:
+    dataset = load_from_disk(ds_path).select(range(limit))
+else:
+    dataset = load_from_disk(ds_path)
+dataset = dataset.filter(
+    lambda x: [not (path.startswith("/workspace/dataset/animesfw") or path.startswith("/workspace/dataset/d4/animesfw"))  for path in x["image_path"]],
+    batched=True,
+    batch_size=10000, # обрабатываем по 10к строк за раз
+    num_proc=8
+)
+print(f"Осталось примеров после фильтрации: {len(dataset)}")
+# --- Collate Function ---
+def collate_fn_simple(batch):
+    # 1. Латенты (VAE)
+    latents = torch.tensor(np.array([item["vae"] for item in batch])).to(device, dtype=dtype)
+    # 2. Текст берем сырой из датасета
+    raw_texts = [item["text"] for item in batch]
+    texts = [
+        "" if t.lower().startswith("zero")
+        else "" if random.random() < cfg_dropout
+        else t[1:].lstrip() if t.startswith(".")
+        else t.replace("The image shows ", "").replace("The image is ", "").replace("This image captures ","").strip()
+        for t in raw_texts
+    ]
+    # 3. Кодируем на лету
+    # Возвращает: hidden (B, L, D), mask (B, L)
+    embeddings, attention_mask = encode_texts(texts)
+    # attention_mask от токенизатора уже имеет нужный формат, но на всякий случай приведем к long
+    attention_mask = attention_mask.to(dtype=torch.int64)
+    return latents, embeddings, attention_mask
+batch_sampler = DistributedResolutionBatchSampler(
+        dataset=dataset,
+        batch_size=batch_size,
+        num_replicas=accelerator.num_processes,
+        rank=accelerator.process_index,
+        shuffle=shuffle
+    )
+dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn_simple)
+if accelerator.is_main_process:
+    print("Total samples", len(dataloader))
+dataloader = accelerator.prepare(dataloader)
+start_epoch = 0
+global_step = 0
+total_training_steps = (len(dataloader) * num_epochs)
+world_size = accelerator.state.num_processes
+# Загрузка UNet
+latest_checkpoint = os.path.join(checkpoints_folder, project)
+if os.path.isdir(latest_checkpoint):
+    print("Загружаем UNet из чекпоинта:", latest_checkpoint)
+    unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device, dtype=dtype)
+    if unet_gradient:
+        unet.enable_gradient_checkpointing()
+    unet.set_use_memory_efficient_attention_xformers(False)
+    try:
+        unet.set_attn_processor(AttnProcessor2_0())
+    except Exception as e:
+        print(f"Ошибка при включении SDPA: {e}")
+        unet.set_use_memory_efficient_attention_xformers(True)
+else:
+    raise FileNotFoundError(f"UNet checkpoint not found at {latest_checkpoint}")
+def create_optimizer(name, params):
+    if name == "adam8bit":
+        return bnb.optim.AdamW8bit(
+            params, lr=base_learning_rate, betas=(0.9, betta2), eps=eps, weight_decay=0.01,
+            #percentile_clipping=percentile_clipping
+        )
+    elif name == "adam":
+        return torch.optim.AdamW(
+            params, lr=base_learning_rate, betas=(0.9, betta2), eps=1e-8, weight_decay=0.01
+        )
+    else:
+        raise ValueError(f"Unknown optimizer: {name}")
+if fbp:
+    trainable_params = list(unet.parameters())
+    optimizer_dict = {p: create_optimizer(optimizer_type, [p]) for p in trainable_params}
+    def optimizer_hook(param):
+        optimizer_dict[param].step()
+        optimizer_dict[param].zero_grad(set_to_none=True)
+    for param in trainable_params:
+        param.register_post_accumulate_grad_hook(optimizer_hook)
+    unet, optimizer = accelerator.prepare(unet, optimizer_dict)
+else:
+    # 1. Сначала замораживаем ВСЕ параметры UNet
+    #unet.requires_grad_(False)
+    # 2. Размораживаем только нужные
+    #trainable_params_names = ["conv_in.weight", "conv_in.bias", "conv_out.weight", "conv_out.bias"]
+    #train_params = []
+    #for name, param in unet.named_parameters():
+    #    if any(target in name for target in trainable_params_names):
+    #        param.requires_grad = True
+    #        train_params.append(param)
+    #        print(f"Обучаемый слой: {name}")
+    unet.requires_grad_(True)
+    optimizer = create_optimizer(optimizer_type, unet.parameters())
+    def lr_schedule(step):
+        x = step / (total_training_steps * world_size)
+        warmup = warmup_percent
+        if not use_decay:
+            return base_learning_rate
+        if x < warmup:
+            return min_learning_rate + (base_learning_rate - min_learning_rate) * (x / warmup)
+        decay_ratio = (x - warmup) / (1 - warmup)
+        return min_learning_rate + 0.5 * (base_learning_rate - min_learning_rate) * \
+               (1 + math.cos(math.pi * decay_ratio))
+    lr_scheduler = LambdaLR(optimizer, lambda step: lr_schedule(step) / base_learning_rate)
+    unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
+if torch_compile:
+    print("compiling")
+    unet = torch.compile(unet)
+    print("compiling - ok")
+# Фиксированные семплы
+fixed_samples = get_fixed_samples_by_resolution(dataset)
+# --- [UPDATED] Функция для негативного эмбеддинга (возвращает 3 элемента) ---
+def get_negative_embedding(neg_prompt="", batch_size=1):
+    if not neg_prompt:
+        hidden_dim = 2048
+        seq_len = max_length
+        empty_emb = torch.zeros((batch_size, seq_len, hidden_dim), dtype=dtype, device=device)
+        empty_mask = torch.ones((batch_size, seq_len), dtype=torch.int64, device=device)
+        return empty_emb, empty_mask
+    uncond_emb, uncond_mask = encode_texts([neg_prompt])
+    uncond_emb = uncond_emb.to(dtype=dtype, device=device).repeat(batch_size, 1, 1)
+    uncond_mask = uncond_mask.to(device=device).repeat(batch_size, 1)
+    return uncond_emb, uncond_mask
+# Получаем негативные (пустые) условия для валидации
+uncond_emb, uncond_mask = get_negative_embedding("low quality")
+# --- Функция генерации семплов  ---
+@torch.compiler.disable()
+@torch.no_grad()
+def generate_and_save_samples(fixed_samples_cpu, uncond_data, step):
+    uncond_emb, uncond_mask = uncond_data
+    original_model = None
+    try:
+        if not torch_compile:
+            original_model = accelerator.unwrap_model(unet, keep_torch_compile=True).eval()
+        else:
+            original_model = unet.eval()
+        vae.to(device=device).eval()
+        all_generated_images = []
+        all_captions = []
+        # Распаковываем 5 элементов (добавились mask)
+        for size, (sample_latents, sample_text_embeddings, sample_mask, sample_text) in fixed_samples_cpu.items():
+            width, height = size
+            sample_latents = sample_latents.to(dtype=dtype, device=device)
+            sample_text_embeddings = sample_text_embeddings.to(dtype=dtype, device=device)
+            sample_mask = sample_mask.to(device=device)
+            latents = torch.randn(
+                sample_latents.shape,
+                device=device,
+                dtype=sample_latents.dtype,
+                generator=torch.Generator(device=device).manual_seed(seed)
+            )
+            scheduler.set_timesteps(n_diffusion_steps, device=device)
+            for t in scheduler.timesteps:
+                if guidance_scale != 1:
+                    latent_model_input = torch.cat([latents, latents], dim=0)
+                    # Подготовка батчей для CFG (Negative + Positive)
+                    # 1. Embeddings
+                    curr_batch_size = sample_text_embeddings.shape[0]
+                    seq_len = sample_text_embeddings.shape[1]
+                    hidden_dim = sample_text_embeddings.shape[2]
+                    neg_emb_batch = uncond_emb[0:1].expand(curr_batch_size, -1, -1)
+                    text_embeddings_batch = torch.cat([neg_emb_batch, sample_text_embeddings], dim=0)
+                    # 2. Masks
+                    neg_mask_batch = uncond_mask[0:1].expand(curr_batch_size, -1)
+                    attention_mask_batch = torch.cat([neg_mask_batch, sample_mask], dim=0)
+                else:
+                    latent_model_input = latents
+                    text_embeddings_batch = sample_text_embeddings
+                    attention_mask_batch = sample_mask
+                # Предсказание с передачей всех условий
+                model_out = original_model(
+                    latent_model_input,
+                    t,
+                    encoder_hidden_states=text_embeddings_batch,
+                    encoder_attention_mask=attention_mask_batch,
+                )
+                flow = getattr(model_out, "sample", model_out)
+                if guidance_scale != 1:
+                    flow_uncond, flow_cond = flow.chunk(2)
+                    flow = flow_uncond + guidance_scale * (flow_cond - flow_uncond)
+                latents = scheduler.step(flow, t, latents).prev_sample
+            current_latents = latents
+            if step==0:
+                current_latents = sample_latents
+            latents = current_latents.detach() * scaling_factor + shift_factor
+            latents = flux_decode(vae,latents)
+            decoded = vae.decode(latents.to(torch.float32)).sample
+            decoded_fp32 = decoded.to(torch.float32)
+            for img_idx, img_tensor in enumerate(decoded_fp32):
+                img = (img_tensor / 2 + 0.5).clamp(0, 1).cpu().numpy()
+                img = img.transpose(1, 2, 0)
+                if np.isnan(img).any():
+                    print("NaNs found, saving stopped! Step:", step)
+                pil_img = Image.fromarray((img * 255).astype("uint8"))
+                max_w_overall = max(s[0] for s in fixed_samples_cpu.keys())
+                max_h_overall = max(s[1] for s in fixed_samples_cpu.keys())
+                max_w_overall = max(255, max_w_overall)
+                max_h_overall = max(255, max_h_overall)
+                padded_img = ImageOps.pad(pil_img, (max_w_overall, max_h_overall), color='white')
+                all_generated_images.append(padded_img)
+                caption_text = sample_text[img_idx][:300] if img_idx < len(sample_text) else ""
+                all_captions.append(caption_text)
+                sample_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
+                pil_img.save(sample_path, "JPEG", quality=96)
+        if use_wandb and accelerator.is_main_process:
+            wandb_images = [
+                wandb.Image(img, caption=f"{all_captions[i]}")
+                for i, img in enumerate(all_generated_images)
+            ]
+            wandb.log({"generated_images": wandb_images})
+        if use_comet_ml and accelerator.is_main_process:
+            for i, img in enumerate(all_generated_images):
+                comet_experiment.log_image(
+                    image_data=img,
+                    name=f"step_{step}_img_{i}",
+                    step=step,
+                    metadata={"caption": all_captions[i]}
+                )
+    finally:
+        vae.to("cpu")
+        try:
+            all_generated_images.clear()
+            all_captions.clear()
+            del all_generated_images, all_captions
+            del latents, current_latents, latent_model_input, flow
+            del decoded, decoded_fp32
+            del sample_latents, sample_text_embeddings, sample_mask # Копии на GPU
+            del model_out
+        except UnboundLocalError:
+            pass
+        # 3. Синхронизируем CUDA перед очисткой
+        torch.cuda.synchronize()
+        # 4. Теперь чистим кэш аллокатора и вызываем GC
+        torch.cuda.empty_cache()
+        gc.collect()
+# --------------------------- Генерация сэмплов перед обучением ---------------------------
+if accelerator.is_main_process:
+    if save_model:
+        print("Генерация сэмплов до старта обучения...")
+        generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), 0)
+accelerator.wait_for_everyone()
+def save_checkpoint(unet, variant=""):
+    if accelerator.is_main_process:
+        model_to_save = None
+        if not torch_compile:
+            model_to_save = accelerator.unwrap_model(unet)
+        else:
+            model_to_save = unet
+        if variant != "":
+            model_to_save.to(dtype=torch.float16).save_pretrained(
+                os.path.join(checkpoints_folder, f"{project}"), variant=variant
+            )
+        else:
+            model_to_save.save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
+        torch.cuda.synchronize()
+        torch.cuda.empty_cache()
+        gc.collect()
+        #unet = unet.to(dtype=dtype) #TODO: wtf???
+# --------------------------- Тренировочный цикл ---------------------------
+if accelerator.is_main_process:
+    print(f"Total steps per GPU: {total_training_steps}")
+epoch_loss_points = []
+progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")
+steps_per_epoch = len(dataloader)
+sample_interval = max(1, steps_per_epoch // sample_interval_share)
+min_loss = 4.
+for epoch in range(start_epoch, start_epoch + num_epochs):
+    batch_losses = []
+    batch_grads = []
+    batch_sampler.set_epoch(epoch)
+    accelerator.wait_for_everyone()
+    unet.train()
+    for step, (latents, embeddings, attention_mask) in enumerate(dataloader):
+        with accelerator.accumulate(unet):
+            if save_model == False and epoch == 0 and step == 5 :
+                used_gb = torch.cuda.max_memory_allocated() / 1024**3
+                print(f"Шаг {step}: {used_gb:.2f} GB")
+            # шум
+            noise = torch.randn_like(latents, dtype=latents.dtype)
+            # 3. Время t (сэмплим, как и раньше, но чуть сжимаем края)
+            u = torch.rand(latents.shape[0], device=latents.device, dtype=latents.dtype)
+            t = u * (1 - 2 * 1e-5) + 1e-5  # Теперь t строго в (0.00001 ... 0.99999)
+            # интерполяция между x0 и шумом
+            noisy_latents = (1.0 - t.view(-1, 1, 1, 1)) * latents + t.view(-1, 1, 1, 1) * noise
+            # делаем integer timesteps для UNet
+            timesteps = t.to(torch.float32).mul(999.0)
+            timesteps = timesteps.clamp(0, scheduler.config.num_train_timesteps - 1)
+            # --- Вызов UNet с маской  ---
+            model_pred = unet(
+                noisy_latents,
+                timesteps,
+                encoder_hidden_states=embeddings,
+                encoder_attention_mask=attention_mask
+            ).sample
+            target = noise - latents
+            mse_loss = F.mse_loss(model_pred.float(), target.float())
+            batch_losses.append(mse_loss.detach().item())
+            if (global_step % 100 == 0) or (global_step % sample_interval == 0):
+                accelerator.wait_for_everyone()
+            losses_dict = {}
+            losses_dict["mse"] = mse_loss
+            if (global_step % 100 == 0) or (global_step % sample_interval == 0):
+                accelerator.wait_for_everyone()
+            accelerator.backward(mse_loss)
+            if (global_step % 100 == 0) or (global_step % sample_interval == 0):
+                accelerator.wait_for_everyone()
+            grad = 0.0
+            if not fbp:
+                if accelerator.sync_gradients:
+                    grad_val = accelerator.clip_grad_norm_(unet.parameters(), clip_grad_norm)
+                    grad = grad_val.float().item() if torch.is_tensor(grad_val) else float(grad_val)
+                    optimizer.step()
+                    lr_scheduler.step()
+                    optimizer.zero_grad(set_to_none=True)
+            if accelerator.sync_gradients:
+                global_step += 1
+                progress_bar.update(1)
+                if accelerator.is_main_process:
+                    if fbp:
+                        current_lr = base_learning_rate
+                    else:
+                        current_lr = lr_scheduler.get_last_lr()[0]
+                    batch_grads.append(grad)
+                    log_data = {}
+                    log_data["loss_mse"] = mse_loss.detach().item()
+                    log_data["lr"] = current_lr
+                    log_data["grad"] = grad
+                    if accelerator.sync_gradients:
+                        if use_wandb:
+                            wandb.log(log_data, step=global_step)
+                        if use_comet_ml:
+                            comet_experiment.log_metrics(log_data, step=global_step)
+                    if global_step % sample_interval == 0 or global_step==50:
+                        # Передаем tuple (emb, mask) для негатива
+                        if save_model:
+                            generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), global_step)
+                        elif epoch % 10 == 0:
+                            generate_and_save_samples(fixed_samples, (uncond_emb, uncond_mask), global_step)
+                        last_n = sample_interval
+                        if save_model:
+                            has_losses = len(batch_losses) > 0
+                            avg_sample_loss = np.mean(batch_losses[-sample_interval:]) if has_losses else 0.0
+                            last_loss = batch_losses[-1] if has_losses else 0.0
+                            max_loss = max(avg_sample_loss, last_loss)
+                            should_save = max_loss < min_loss * save_barrier
+                            print(
+                                f"Saving: {should_save} | Max: {max_loss:.4f} | "
+                                f"Last: {last_loss:.4f} | Avg: {avg_sample_loss:.4f}"
+                            )
+                            # 6. Сохранение и обновление
+                            if should_save:
+                                min_loss = max_loss
+                                save_checkpoint(unet)
+                        unet.train()
+    if accelerator.is_main_process:
+        avg_epoch_loss = np.mean(batch_losses) if len(batch_losses) > 0 else 0.0
+        avg_epoch_grad = np.mean(batch_grads) if len(batch_grads) > 0 else 0.0
+        print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
+        log_data_ep = {
+                        "epoch_loss": avg_epoch_loss,
+                        "epoch_grad": avg_epoch_grad,
+                        "epoch": epoch + 1,
+                    }
+        if use_wandb:
+            wandb.log(log_data_ep)
+        if use_comet_ml:
+            comet_experiment.log_metrics(log_data_ep)
+if accelerator.is_main_process:
+    print("Обучение завершено! Сохраняем финальную модель...")
+    #if save_model:
+    save_checkpoint(unet,"fp16")
+    if use_comet_ml:
+        comet_experiment.end()
+accelerator.free_memory()
+if torch.distributed.is_initialized():
+    torch.distributed.destroy_process_group()
+print("Готово!")

unet/config.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:013830d918f73de1ccea49842f1c9f0e48f5cd2257af63f8ca8702b314f624a8
-size 1878

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c10e81c0737a03d3518c2d3034358b8aec858e40b021ae637fe3b8c44d26ec4
+size 1879

unet/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac2dc73cd4009b5cbba85dc5bf5f4cfb303c51f7aa10d90ef6417cdd4791f467
-size 5935560296

 version https://git-lfs.github.com/spec/v1
+oid sha256:df65e034d1b9810fe6b1b41c190af19a24e58d47a369c135194456d8d3292ab8
+size 5946605448

unet1.5b-2TE-text.ipynb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:256e5ab08659d487f86da10282a658a1876ab12e703cbe8705e76b9abee8e0ac
+size 44131

{unet → unet_1te}/config-Copy1.txt RENAMED Viewed

File without changes

unet_1te/config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:013830d918f73de1ccea49842f1c9f0e48f5cd2257af63f8ca8702b314f624a8
+size 1878

unet_1te/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac2dc73cd4009b5cbba85dc5bf5f4cfb303c51f7aa10d90ef6417cdd4791f467
+size 5935560296