1 files changed, 118 insertions, 96 deletions
diff --git a/training/util.py b/training/util.py
index 781cf04..a292edd 100644
--- a/training/util.py
+++ b/training/util.py
@@ -1,12 +1,40 @@
 from pathlib import Path
 import json
 import copy
-import itertools
+from typing import Iterable, Union
-from typing import Iterable, Optional
 from contextlib import contextmanager
 import torch
-from PIL import Image
+from transformers import CLIPTextModel
+from diffusers import AutoencoderKL, DDPMScheduler, UNet2DConditionModel, DPMSolverMultistepScheduler
+from pipelines.stable_diffusion.vlpn_stable_diffusion import VlpnStableDiffusion
+from models.clip.tokenizer import MultiCLIPTokenizer
+from models.clip.embeddings import ManagedCLIPTextEmbeddings, patch_managed_embeddings
+class TrainingStrategy():
+    @property
+    def main_model(self) -> torch.nn.Module:
+        ...
+    @contextmanager
+    def on_train(self, epoch: int):
+        yield
+    @contextmanager
+    def on_eval(self):
+        yield
+    def on_before_optimize(self, epoch: int):
+        ...
+    def on_after_optimize(self, lr: float):
+        ...
+    def on_log():
+        return {}
 def save_args(basepath: Path, args, extra={}):
@@ -16,12 +44,93 @@ def save_args(basepath: Path, args, extra={}):
        json.dump(info, f, indent=4)
-def make_grid(images, rows, cols):
+def generate_class_images(
-    w, h = images[0].size
+    accelerator,
-    grid = Image.new('RGB', size=(cols*w, rows*h))
+    text_encoder,
-    for i, image in enumerate(images):
+    vae,
-        grid.paste(image, box=(i % cols*w, i//cols*h))
+    unet,
-    return grid
+    tokenizer,
+    scheduler,
+    data_train,
+    sample_batch_size,
+    sample_image_size,
+    sample_steps
+):
+    missing_data = [item for item in data_train if not item.class_image_path.exists()]
+    if len(missing_data) == 0:
+        return
+    batched_data = [
+        missing_data[i:i+sample_batch_size]
+        for i in range(0, len(missing_data), sample_batch_size)
+    ]
+    pipeline = VlpnStableDiffusion(
+        text_encoder=text_encoder,
+        vae=vae,
+        unet=unet,
+        tokenizer=tokenizer,
+        scheduler=scheduler,
+    ).to(accelerator.device)
+    pipeline.set_progress_bar_config(dynamic_ncols=True)
+    with torch.inference_mode():
+        for batch in batched_data:
+            image_name = [item.class_image_path for item in batch]
+            prompt = [item.cprompt for item in batch]
+            nprompt = [item.nprompt for item in batch]
+            images = pipeline(
+                prompt=prompt,
+                negative_prompt=nprompt,
+                height=sample_image_size,
+                width=sample_image_size,
+                num_inference_steps=sample_steps
+            ).images
+            for i, image in enumerate(images):
+                image.save(image_name[i])
+    del pipeline
+    if torch.cuda.is_available():
+        torch.cuda.empty_cache()
+def get_models(pretrained_model_name_or_path: str):
+    tokenizer = MultiCLIPTokenizer.from_pretrained(pretrained_model_name_or_path, subfolder='tokenizer')
+    text_encoder = CLIPTextModel.from_pretrained(pretrained_model_name_or_path, subfolder='text_encoder')
+    vae = AutoencoderKL.from_pretrained(pretrained_model_name_or_path, subfolder='vae')
+    unet = UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, subfolder='unet')
+    noise_scheduler = DDPMScheduler.from_pretrained(pretrained_model_name_or_path, subfolder='scheduler')
+    sample_scheduler = DPMSolverMultistepScheduler.from_pretrained(
+        pretrained_model_name_or_path, subfolder='scheduler')
+    embeddings = patch_managed_embeddings(text_encoder)
+    return tokenizer, text_encoder, vae, unet, noise_scheduler, sample_scheduler, embeddings
+def add_placeholder_tokens(
+    tokenizer: MultiCLIPTokenizer,
+    embeddings: ManagedCLIPTextEmbeddings,
+    placeholder_tokens: list[str],
+    initializer_tokens: list[str],
+    num_vectors: Union[list[int], int]
+):
+    initializer_token_ids = [
+        tokenizer.encode(token, add_special_tokens=False)
+        for token in initializer_tokens
+    ]
+    placeholder_token_ids = tokenizer.add_multi_tokens(placeholder_tokens, num_vectors)
+    embeddings.resize(len(tokenizer))
+    for (placeholder_token_id, initializer_token_id) in zip(placeholder_token_ids, initializer_token_ids):
+        embeddings.add_embed(placeholder_token_id, initializer_token_id)
+    return placeholder_token_ids, initializer_token_ids
 class AverageMeter:
@@ -38,93 +147,6 @@ class AverageMeter:
        self.avg = self.sum / self.count
-class CheckpointerBase:
-    def __init__(
-        self,
-        train_dataloader,
-        val_dataloader,
-        output_dir: Path,
-        sample_steps: int = 20,
-        sample_guidance_scale: float = 7.5,
-        sample_image_size: int = 768,
-        sample_batches: int = 1,
-        sample_batch_size: int = 1,
-        seed: Optional[int] = None
-    ):
-        self.train_dataloader = train_dataloader
-        self.val_dataloader = val_dataloader
-        self.output_dir = output_dir
-        self.sample_image_size = sample_image_size
-        self.sample_steps = sample_steps
-        self.sample_guidance_scale = sample_guidance_scale
-        self.sample_batches = sample_batches
-        self.sample_batch_size = sample_batch_size
-        self.seed = seed if seed is not None else torch.random.seed()
-    @torch.no_grad()
-    def checkpoint(self, step: int, postfix: str):
-        pass
-    @torch.inference_mode()
-    def save_samples(self, pipeline, step: int):
-        samples_path = Path(self.output_dir).joinpath("samples")
-        generator = torch.Generator(device=pipeline.device).manual_seed(self.seed)
-        grid_cols = min(self.sample_batch_size, 4)
-        grid_rows = (self.sample_batches * self.sample_batch_size) // grid_cols
-        for pool, data, gen in [
-            ("stable", self.val_dataloader, generator),
-            ("val", self.val_dataloader, None),
-            ("train", self.train_dataloader, None)
-        ]:
-            all_samples = []
-            file_path = samples_path.joinpath(pool, f"step_{step}.jpg")
-            file_path.parent.mkdir(parents=True, exist_ok=True)
-            batches = list(itertools.islice(itertools.cycle(data), self.sample_batch_size * self.sample_batches))
-            prompt_ids = [
-                prompt
-                for batch in batches
-                for prompt in batch["prompt_ids"]
-            ]
-            nprompt_ids = [
-                prompt
-                for batch in batches
-                for prompt in batch["nprompt_ids"]
-            ]
-            for i in range(self.sample_batches):
-                start = i * self.sample_batch_size
-                end = (i + 1) * self.sample_batch_size
-                prompt = prompt_ids[start:end]
-                nprompt = nprompt_ids[start:end]
-                samples = pipeline(
-                    prompt=prompt,
-                    negative_prompt=nprompt,
-                    height=self.sample_image_size,
-                    width=self.sample_image_size,
-                    generator=gen,
-                    guidance_scale=self.sample_guidance_scale,
-                    num_inference_steps=self.sample_steps,
-                    output_type='pil'
-                ).images
-                all_samples += samples
-                del samples
-            image_grid = make_grid(all_samples, grid_rows, grid_cols)
-            image_grid.save(file_path, quality=85)
-            del all_samples
-            del image_grid
-        del generator
 # Adapted from torch-ema https://github.com/fadel/pytorch_ema/blob/master/torch_ema/ema.py#L14
 class EMAModel:
    """

diff --git a/training/util.py b/training/util.py index 781cf04..a292edd 100644 --- a/training/util.py +++ b/training/util.py
@@ -1,12 +1,40 @@
1	from pathlib import Path	1	from pathlib import Path
2	import json	2	import json
3	import copy	3	import copy
4	import itertools	4	from typing import Iterable, Union
5	from typing import Iterable, Optional
6	from contextlib import contextmanager	5	from contextlib import contextmanager
7		6
8	import torch	7	import torch
9	from PIL import Image	8
		9	from transformers import CLIPTextModel
		10	from diffusers import AutoencoderKL, DDPMScheduler, UNet2DConditionModel, DPMSolverMultistepScheduler
		11
		12	from pipelines.stable_diffusion.vlpn_stable_diffusion import VlpnStableDiffusion
		13	from models.clip.tokenizer import MultiCLIPTokenizer
		14	from models.clip.embeddings import ManagedCLIPTextEmbeddings, patch_managed_embeddings
		15
		16
		17	class TrainingStrategy():
		18	@property
		19	def main_model(self) -> torch.nn.Module:
		20	...
		21
		22	@contextmanager
		23	def on_train(self, epoch: int):
		24	yield
		25
		26	@contextmanager
		27	def on_eval(self):
		28	yield
		29
		30	def on_before_optimize(self, epoch: int):
		31	...
		32
		33	def on_after_optimize(self, lr: float):
		34	...
		35
		36	def on_log():
		37	return {}
10		38
11		39
12	def save_args(basepath: Path, args, extra={}):	40	def save_args(basepath: Path, args, extra={}):
@@ -16,12 +44,93 @@ def save_args(basepath: Path, args, extra={}):
16	json.dump(info, f, indent=4)	44	json.dump(info, f, indent=4)
17		45
18		46
19	def make_grid(images, rows, cols):	47	def generate_class_images(
20	w, h = images[0].size	48	accelerator,
21	grid = Image.new('RGB', size=(colsw, rowsh))	49	text_encoder,
22	for i, image in enumerate(images):	50	vae,
23	grid.paste(image, box=(i % colsw, i//colsh))	51	unet,
24	return grid	52	tokenizer,
		53	scheduler,
		54	data_train,
		55	sample_batch_size,
		56	sample_image_size,
		57	sample_steps
		58	):
		59	missing_data = [item for item in data_train if not item.class_image_path.exists()]
		60
		61	if len(missing_data) == 0:
		62	return
		63
		64	batched_data = [
		65	missing_data[i:i+sample_batch_size]
		66	for i in range(0, len(missing_data), sample_batch_size)
		67	]
		68
		69	pipeline = VlpnStableDiffusion(
		70	text_encoder=text_encoder,
		71	vae=vae,
		72	unet=unet,
		73	tokenizer=tokenizer,
		74	scheduler=scheduler,
		75	).to(accelerator.device)
		76	pipeline.set_progress_bar_config(dynamic_ncols=True)
		77
		78	with torch.inference_mode():
		79	for batch in batched_data:
		80	image_name = [item.class_image_path for item in batch]
		81	prompt = [item.cprompt for item in batch]
		82	nprompt = [item.nprompt for item in batch]
		83
		84	images = pipeline(
		85	prompt=prompt,
		86	negative_prompt=nprompt,
		87	height=sample_image_size,
		88	width=sample_image_size,
		89	num_inference_steps=sample_steps
		90	).images
		91
		92	for i, image in enumerate(images):
		93	image.save(image_name[i])
		94
		95	del pipeline
		96
		97	if torch.cuda.is_available():
		98	torch.cuda.empty_cache()
		99
		100
		101	def get_models(pretrained_model_name_or_path: str):
		102	tokenizer = MultiCLIPTokenizer.from_pretrained(pretrained_model_name_or_path, subfolder='tokenizer')
		103	text_encoder = CLIPTextModel.from_pretrained(pretrained_model_name_or_path, subfolder='text_encoder')
		104	vae = AutoencoderKL.from_pretrained(pretrained_model_name_or_path, subfolder='vae')
		105	unet = UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, subfolder='unet')
		106	noise_scheduler = DDPMScheduler.from_pretrained(pretrained_model_name_or_path, subfolder='scheduler')
		107	sample_scheduler = DPMSolverMultistepScheduler.from_pretrained(
		108	pretrained_model_name_or_path, subfolder='scheduler')
		109
		110	embeddings = patch_managed_embeddings(text_encoder)
		111
		112	return tokenizer, text_encoder, vae, unet, noise_scheduler, sample_scheduler, embeddings
		113
		114
		115	def add_placeholder_tokens(
		116	tokenizer: MultiCLIPTokenizer,
		117	embeddings: ManagedCLIPTextEmbeddings,
		118	placeholder_tokens: list[str],
		119	initializer_tokens: list[str],
		120	num_vectors: Union[list[int], int]
		121	):
		122	initializer_token_ids = [
		123	tokenizer.encode(token, add_special_tokens=False)
		124	for token in initializer_tokens
		125	]
		126	placeholder_token_ids = tokenizer.add_multi_tokens(placeholder_tokens, num_vectors)
		127
		128	embeddings.resize(len(tokenizer))
		129
		130	for (placeholder_token_id, initializer_token_id) in zip(placeholder_token_ids, initializer_token_ids):
		131	embeddings.add_embed(placeholder_token_id, initializer_token_id)
		132
		133	return placeholder_token_ids, initializer_token_ids
25		134
26		135
27	class AverageMeter:	136	class AverageMeter:
@@ -38,93 +147,6 @@ class AverageMeter:
38	self.avg = self.sum / self.count	147	self.avg = self.sum / self.count
39		148
40		149
41	class CheckpointerBase:
42	def __init__(
43	self,
44	train_dataloader,
45	val_dataloader,
46	output_dir: Path,
47	sample_steps: int = 20,
48	sample_guidance_scale: float = 7.5,
49	sample_image_size: int = 768,
50	sample_batches: int = 1,
51	sample_batch_size: int = 1,
52	seed: Optional[int] = None
53	):
54	self.train_dataloader = train_dataloader
55	self.val_dataloader = val_dataloader
56	self.output_dir = output_dir
57	self.sample_image_size = sample_image_size
58	self.sample_steps = sample_steps
59	self.sample_guidance_scale = sample_guidance_scale
60	self.sample_batches = sample_batches
61	self.sample_batch_size = sample_batch_size
62	self.seed = seed if seed is not None else torch.random.seed()
63
64	@torch.no_grad()
65	def checkpoint(self, step: int, postfix: str):
66	pass
67
68	@torch.inference_mode()
69	def save_samples(self, pipeline, step: int):
70	samples_path = Path(self.output_dir).joinpath("samples")
71
72	generator = torch.Generator(device=pipeline.device).manual_seed(self.seed)
73
74	grid_cols = min(self.sample_batch_size, 4)
75	grid_rows = (self.sample_batches * self.sample_batch_size) // grid_cols
76
77	for pool, data, gen in [
78	("stable", self.val_dataloader, generator),
79	("val", self.val_dataloader, None),
80	("train", self.train_dataloader, None)
81	]:
82	all_samples = []
83	file_path = samples_path.joinpath(pool, f"step_{step}.jpg")
84	file_path.parent.mkdir(parents=True, exist_ok=True)
85
86	batches = list(itertools.islice(itertools.cycle(data), self.sample_batch_size * self.sample_batches))
87	prompt_ids = [
88	prompt
89	for batch in batches
90	for prompt in batch["prompt_ids"]
91	]
92	nprompt_ids = [
93	prompt
94	for batch in batches
95	for prompt in batch["nprompt_ids"]
96	]
97
98	for i in range(self.sample_batches):
99	start = i * self.sample_batch_size
100	end = (i + 1) * self.sample_batch_size
101	prompt = prompt_ids[start:end]
102	nprompt = nprompt_ids[start:end]
103
104	samples = pipeline(
105	prompt=prompt,
106	negative_prompt=nprompt,
107	height=self.sample_image_size,
108	width=self.sample_image_size,
109	generator=gen,
110	guidance_scale=self.sample_guidance_scale,
111	num_inference_steps=self.sample_steps,
112	output_type='pil'
113	).images
114
115	all_samples += samples
116
117	del samples
118
119	image_grid = make_grid(all_samples, grid_rows, grid_cols)
120	image_grid.save(file_path, quality=85)
121
122	del all_samples
123	del image_grid
124
125	del generator
126
127
128	# Adapted from torch-ema https://github.com/fadel/pytorch_ema/blob/master/torch_ema/ema.py#L14	150	# Adapted from torch-ema https://github.com/fadel/pytorch_ema/blob/master/torch_ema/ema.py#L14
129	class EMAModel:	151	class EMAModel:
130	"""	152	"""