1 files changed, 17 insertions, 247 deletions
diff --git a/training/common.py b/training/common.py
index 73ce814..b6964a3 100644
--- a/training/common.py
+++ b/training/common.py
@@ -1,52 +1,24 @@
 import math
-from pathlib import Path
 from contextlib import _GeneratorContextManager, nullcontext
-from typing import Callable, Any, Tuple, Union, Literal, Optional, NamedTuple
+from typing import Callable, Any, Tuple, Union
-import datetime
-import logging
 import torch
 import torch.nn.functional as F
 from torch.utils.data import DataLoader
 from accelerate import Accelerator
-from accelerate.utils import LoggerType, set_seed
 from transformers import CLIPTextModel
 from diffusers import AutoencoderKL, DDPMScheduler, UNet2DConditionModel, DPMSolverMultistepScheduler
-from diffusers.optimization import get_scheduler as get_scheduler_, get_cosine_with_hard_restarts_schedule_with_warmup
 from tqdm.auto import tqdm
-from slugify import slugify
-from data.csv import VlpnDataModule, VlpnDataItem
-from util import load_embeddings_from_dir
 from pipelines.stable_diffusion.vlpn_stable_diffusion import VlpnStableDiffusion
-from models.clip.embeddings import patch_managed_embeddings
+from models.clip.embeddings import ManagedCLIPTextEmbeddings, patch_managed_embeddings
 from models.clip.util import get_extended_embeddings
 from models.clip.tokenizer import MultiCLIPTokenizer
-from training.optimization import get_one_cycle_schedule
 from training.util import AverageMeter, CheckpointerBase
-class TrainingSetup(NamedTuple):
-    accelerator: Accelerator
-    tokenizer: MultiCLIPTokenizer
-    text_encoder: CLIPTextModel
-    vae: AutoencoderKL
-    unet: UNet2DConditionModel
-    noise_scheduler: DDPMScheduler
-    checkpoint_scheduler: DPMSolverMultistepScheduler
-    optimizer_class: Callable
-    learning_rate: float
-    weight_dtype: torch.dtype
-    output_dir: Path
-    seed: int
-    train_dataloader: DataLoader
-    val_dataloader: DataLoader
-    placeholder_token: list[str]
-    placeholder_token_ids: list[list[int]]
 def noop(*args, **kwards):
    pass
@@ -59,57 +31,6 @@ def noop_on_log():
    return {}
-def get_scheduler(
-    id: str,
-    optimizer: torch.optim.Optimizer,
-    num_training_steps_per_epoch: int,
-    gradient_accumulation_steps: int,
-    min_lr: float = 0.04,
-    warmup_func: str = "cos",
-    annealing_func: str = "cos",
-    warmup_exp: int = 1,
-    annealing_exp: int = 1,
-    cycles: int = 1,
-    train_epochs: int = 100,
-    warmup_epochs: int = 10,
-):
-    num_training_steps_per_epoch = math.ceil(
-        num_training_steps_per_epoch / gradient_accumulation_steps
-    ) * gradient_accumulation_steps
-    num_training_steps = train_epochs * num_training_steps_per_epoch
-    num_warmup_steps = warmup_epochs * num_training_steps_per_epoch
-    if id == "one_cycle":
-        lr_scheduler = get_one_cycle_schedule(
-            optimizer=optimizer,
-            num_training_steps=num_training_steps,
-            warmup=warmup_func,
-            annealing=annealing_func,
-            warmup_exp=warmup_exp,
-            annealing_exp=annealing_exp,
-            min_lr=min_lr,
-        )
-    elif id == "cosine_with_restarts":
-        if cycles is None:
-            cycles = math.ceil(math.sqrt(((num_training_steps - num_warmup_steps) / num_training_steps_per_epoch)))
-        lr_scheduler = get_cosine_with_hard_restarts_schedule_with_warmup(
-            optimizer=optimizer,
-            num_warmup_steps=num_warmup_steps,
-            num_training_steps=num_training_steps,
-            num_cycles=cycles,
-        )
-    else:
-        lr_scheduler = get_scheduler_(
-            id,
-            optimizer=optimizer,
-            num_warmup_steps=num_warmup_steps,
-            num_training_steps=num_training_steps,
-        )
-    return lr_scheduler
 def generate_class_images(
    accelerator,
    text_encoder,
@@ -162,194 +83,43 @@ def generate_class_images(
            torch.cuda.empty_cache()
-def train_setup(
+def get_models(pretrained_model_name_or_path: str):
-    output_dir: str,
-    project: str,
-    pretrained_model_name_or_path: str,
-    learning_rate: float,
-    data_file: str,
-    gradient_accumulation_steps: int = 1,
-    mixed_precision: Literal["no", "fp16", "bf16"] = "no",
-    seed: Optional[int] = None,
-    vector_shuffle: Union[bool, Literal["all", "trailing", "leading", "between", "off"]] = "auto",
-    vector_dropout: float = 0.1,
-    gradient_checkpointing: bool = True,
-    embeddings_dir: Optional[str] = None,
-    placeholder_token: list[str] = [],
-    initializer_token: list[str] = [],
-    num_vectors: int = 1,
-    scale_lr: bool = False,
-    use_8bit_adam: bool = False,
-    train_batch_size: int = 1,
-    class_image_dir: Optional[str] = None,
-    num_class_images: int = 0,
-    resolution: int = 768,
-    num_buckets: int = 0,
-    progressive_buckets: bool = False,
-    bucket_step_size: int = 64,
-    bucket_max_pixels: Optional[int] = None,
-    tag_dropout: float = 0.1,
-    tag_shuffle: bool = True,
-    data_template: str = "template",
-    valid_set_size: Optional[int] = None,
-    valid_set_repeat: int = 1,
-    data_filter: Optional[Callable[[VlpnDataItem], bool]] = None,
-    sample_batch_size: int = 1,
-    sample_image_size: int = 768,
-    sample_steps: int = 20,
-) -> TrainingSetup:
-    now = datetime.datetime.now().strftime("%Y-%m-%dT%H-%M-%S")
-    output_dir = Path(output_dir).joinpath(slugify(project), now)
-    output_dir.mkdir(parents=True, exist_ok=True)
-    accelerator = Accelerator(
-        log_with=LoggerType.TENSORBOARD,
-        logging_dir=f"{output_dir}",
-        gradient_accumulation_steps=gradient_accumulation_steps,
-        mixed_precision=mixed_precision
-    )
-    logging.basicConfig(filename=output_dir.joinpath("log.txt"), level=logging.DEBUG)
-    seed = seed or (torch.random.seed() >> 32)
-    set_seed(seed)
-    # Load the tokenizer and add the placeholder token as a additional special token
    tokenizer = MultiCLIPTokenizer.from_pretrained(pretrained_model_name_or_path, subfolder='tokenizer')
-    tokenizer.set_use_vector_shuffle(vector_shuffle)
-    tokenizer.set_dropout(vector_dropout)
-    # Load models and create wrapper for stable diffusion
    text_encoder = CLIPTextModel.from_pretrained(pretrained_model_name_or_path, subfolder='text_encoder')
    vae = AutoencoderKL.from_pretrained(pretrained_model_name_or_path, subfolder='vae')
    unet = UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, subfolder='unet')
    noise_scheduler = DDPMScheduler.from_pretrained(pretrained_model_name_or_path, subfolder='scheduler')
-    checkpoint_scheduler = DPMSolverMultistepScheduler.from_pretrained(
+    sample_scheduler = DPMSolverMultistepScheduler.from_pretrained(
        pretrained_model_name_or_path, subfolder='scheduler')
    vae.enable_slicing()
    vae.set_use_memory_efficient_attention_xformers(True)
    unet.set_use_memory_efficient_attention_xformers(True)
-    if gradient_checkpointing:
-        unet.enable_gradient_checkpointing()
-        text_encoder.gradient_checkpointing_enable()
    embeddings = patch_managed_embeddings(text_encoder)
-    if embeddings_dir is not None:
+    return tokenizer, text_encoder, vae, unet, noise_scheduler, sample_scheduler, embeddings
-        embeddings_dir = Path(embeddings_dir)
-        if not embeddings_dir.exists() or not embeddings_dir.is_dir():
-            raise ValueError("--embeddings_dir must point to an existing directory")
-        added_tokens, added_ids = load_embeddings_from_dir(tokenizer, embeddings, embeddings_dir)
-        print(f"Added {len(added_tokens)} tokens from embeddings dir: {list(zip(added_tokens, added_ids))}")
-    # Convert the initializer_token, placeholder_token to ids
+def add_placeholder_tokens(
+    tokenizer: MultiCLIPTokenizer,
+    embeddings: ManagedCLIPTextEmbeddings,
+    placeholder_tokens: list[str],
+    initializer_tokens: list[str],
+    num_vectors: Union[list[int], int]
+):
    initializer_token_ids = [
        tokenizer.encode(token, add_special_tokens=False)
-        for token in initializer_token
+        for token in initializer_tokens
    ]
+    placeholder_token_ids = tokenizer.add_multi_tokens(placeholder_tokens, num_vectors)
-    placeholder_token_ids = tokenizer.add_multi_tokens(placeholder_token, num_vectors)
    embeddings.resize(len(tokenizer))
-    for (new_id, init_ids) in zip(placeholder_token_ids, initializer_token_ids):
+    for (placeholder_token_id, initializer_token_id) in zip(placeholder_token_ids, initializer_token_ids):
-        embeddings.add_embed(new_id, init_ids)
+        embeddings.add_embed(placeholder_token_id, initializer_token_id)
-    init_ratios = [
-        f"{len(init_ids)} / {len(new_id)}"
-        for new_id, init_ids in zip(placeholder_token_ids, initializer_token_ids)
-    ]
-    print(f"Added {len(placeholder_token_ids)} new tokens: {list(zip(placeholder_token, placeholder_token_ids, init_ratios))}")
-    vae.requires_grad_(False)
+    return placeholder_token_ids
-    unet.requires_grad_(False)
-    text_encoder.requires_grad_(False)
-    if scale_lr:
-        learning_rate = (
-            learning_rate * gradient_accumulation_steps *
-            train_batch_size * accelerator.num_processes
-        )
-    # Use 8-bit Adam for lower memory usage or to fine-tune the model in 16GB GPUs
-    if use_8bit_adam:
-        try:
-            import bitsandbytes as bnb
-        except ImportError:
-            raise ImportError("To use 8-bit Adam, please install the bitsandbytes library: `pip install bitsandbytes`.")
-        optimizer_class = bnb.optim.AdamW8bit
-    else:
-        optimizer_class = torch.optim.AdamW
-    weight_dtype = torch.float32
-    if mixed_precision == "fp16":
-        weight_dtype = torch.float16
-    elif mixed_precision == "bf16":
-        weight_dtype = torch.bfloat16
-    datamodule = VlpnDataModule(
-        data_file=data_file,
-        batch_size=train_batch_size,
-        tokenizer=tokenizer,
-        class_subdir=class_image_dir,
-        num_class_images=num_class_images,
-        size=resolution,
-        num_buckets=num_buckets,
-        progressive_buckets=progressive_buckets,
-        bucket_step_size=bucket_step_size,
-        bucket_max_pixels=bucket_max_pixels,
-        dropout=tag_dropout,
-        shuffle=tag_shuffle,
-        template_key=data_template,
-        valid_set_size=valid_set_size,
-        valid_set_repeat=valid_set_repeat,
-        seed=seed,
-        filter=data_filter,
-        dtype=weight_dtype
-    )
-    datamodule.setup()
-    train_dataloader = datamodule.train_dataloader
-    val_dataloader = datamodule.val_dataloader
-    train_dataloader, val_dataloader = accelerator.prepare(train_dataloader, val_dataloader)
-    if num_class_images != 0:
-        generate_class_images(
-            accelerator,
-            text_encoder,
-            vae,
-            unet,
-            tokenizer,
-            checkpoint_scheduler,
-            datamodule.data_train,
-            sample_batch_size,
-            sample_image_size,
-            sample_steps
-        )
-    return TrainingSetup(
-        accelerator=accelerator,
-        tokenizer=tokenizer,
-        text_encoder=text_encoder,
-        vae=vae,
-        unet=unet,
-        noise_scheduler=noise_scheduler,
-        checkpoint_scheduler=checkpoint_scheduler,
-        optimizer_class=optimizer_class,
-        learning_rate=learning_rate,
-        output_dir=output_dir,
-        weight_dtype=weight_dtype,
-        seed=seed,
-        train_dataloader=train_dataloader,
-        val_dataloader=val_dataloader,
-        placeholder_token=placeholder_token,
-        placeholder_token_ids=placeholder_token_ids
-    )
 def loss_step(

diff --git a/training/common.py b/training/common.py index 73ce814..b6964a3 100644 --- a/training/common.py +++ b/training/common.py
@@ -1,52 +1,24 @@
1	import math	1	import math
2	from pathlib import Path
3	from contextlib import _GeneratorContextManager, nullcontext	2	from contextlib import _GeneratorContextManager, nullcontext
4	from typing import Callable, Any, Tuple, Union, Literal, Optional, NamedTuple	3	from typing import Callable, Any, Tuple, Union
5	import datetime
6	import logging
7		4
8	import torch	5	import torch
9	import torch.nn.functional as F	6	import torch.nn.functional as F
10	from torch.utils.data import DataLoader	7	from torch.utils.data import DataLoader
11		8
12	from accelerate import Accelerator	9	from accelerate import Accelerator
13	from accelerate.utils import LoggerType, set_seed
14	from transformers import CLIPTextModel	10	from transformers import CLIPTextModel
15	from diffusers import AutoencoderKL, DDPMScheduler, UNet2DConditionModel, DPMSolverMultistepScheduler	11	from diffusers import AutoencoderKL, DDPMScheduler, UNet2DConditionModel, DPMSolverMultistepScheduler
16	from diffusers.optimization import get_scheduler as get_scheduler_, get_cosine_with_hard_restarts_schedule_with_warmup
17		12
18	from tqdm.auto import tqdm	13	from tqdm.auto import tqdm
19	from slugify import slugify
20		14
21	from data.csv import VlpnDataModule, VlpnDataItem
22	from util import load_embeddings_from_dir
23	from pipelines.stable_diffusion.vlpn_stable_diffusion import VlpnStableDiffusion	15	from pipelines.stable_diffusion.vlpn_stable_diffusion import VlpnStableDiffusion
24	from models.clip.embeddings import patch_managed_embeddings	16	from models.clip.embeddings import ManagedCLIPTextEmbeddings, patch_managed_embeddings
25	from models.clip.util import get_extended_embeddings	17	from models.clip.util import get_extended_embeddings
26	from models.clip.tokenizer import MultiCLIPTokenizer	18	from models.clip.tokenizer import MultiCLIPTokenizer
27	from training.optimization import get_one_cycle_schedule
28	from training.util import AverageMeter, CheckpointerBase	19	from training.util import AverageMeter, CheckpointerBase
29		20
30		21
31	class TrainingSetup(NamedTuple):
32	accelerator: Accelerator
33	tokenizer: MultiCLIPTokenizer
34	text_encoder: CLIPTextModel
35	vae: AutoencoderKL
36	unet: UNet2DConditionModel
37	noise_scheduler: DDPMScheduler
38	checkpoint_scheduler: DPMSolverMultistepScheduler
39	optimizer_class: Callable
40	learning_rate: float
41	weight_dtype: torch.dtype
42	output_dir: Path
43	seed: int
44	train_dataloader: DataLoader
45	val_dataloader: DataLoader
46	placeholder_token: list[str]
47	placeholder_token_ids: list[list[int]]
48
49
50	def noop(args, *kwards):	22	def noop(args, *kwards):
51	pass	23	pass
52		24
@@ -59,57 +31,6 @@ def noop_on_log():
59	return {}	31	return {}
60		32
61		33
62	def get_scheduler(
63	id: str,
64	optimizer: torch.optim.Optimizer,
65	num_training_steps_per_epoch: int,
66	gradient_accumulation_steps: int,
67	min_lr: float = 0.04,
68	warmup_func: str = "cos",
69	annealing_func: str = "cos",
70	warmup_exp: int = 1,
71	annealing_exp: int = 1,
72	cycles: int = 1,
73	train_epochs: int = 100,
74	warmup_epochs: int = 10,
75	):
76	num_training_steps_per_epoch = math.ceil(
77	num_training_steps_per_epoch / gradient_accumulation_steps
78	) * gradient_accumulation_steps
79	num_training_steps = train_epochs * num_training_steps_per_epoch
80	num_warmup_steps = warmup_epochs * num_training_steps_per_epoch
81
82	if id == "one_cycle":
83	lr_scheduler = get_one_cycle_schedule(
84	optimizer=optimizer,
85	num_training_steps=num_training_steps,
86	warmup=warmup_func,
87	annealing=annealing_func,
88	warmup_exp=warmup_exp,
89	annealing_exp=annealing_exp,
90	min_lr=min_lr,
91	)
92	elif id == "cosine_with_restarts":
93	if cycles is None:
94	cycles = math.ceil(math.sqrt(((num_training_steps - num_warmup_steps) / num_training_steps_per_epoch)))
95
96	lr_scheduler = get_cosine_with_hard_restarts_schedule_with_warmup(
97	optimizer=optimizer,
98	num_warmup_steps=num_warmup_steps,
99	num_training_steps=num_training_steps,
100	num_cycles=cycles,
101	)
102	else:
103	lr_scheduler = get_scheduler_(
104	id,
105	optimizer=optimizer,
106	num_warmup_steps=num_warmup_steps,
107	num_training_steps=num_training_steps,
108	)
109
110	return lr_scheduler
111
112
113	def generate_class_images(	34	def generate_class_images(
114	accelerator,	35	accelerator,
115	text_encoder,	36	text_encoder,
@@ -162,194 +83,43 @@ def generate_class_images(
162	torch.cuda.empty_cache()	83	torch.cuda.empty_cache()
163		84
164		85
165	def train_setup(	86	def get_models(pretrained_model_name_or_path: str):
166	output_dir: str,
167	project: str,
168	pretrained_model_name_or_path: str,
169	learning_rate: float,
170	data_file: str,
171	gradient_accumulation_steps: int = 1,
172	mixed_precision: Literal["no", "fp16", "bf16"] = "no",
173	seed: Optional[int] = None,
174	vector_shuffle: Union[bool, Literal["all", "trailing", "leading", "between", "off"]] = "auto",
175	vector_dropout: float = 0.1,
176	gradient_checkpointing: bool = True,
177	embeddings_dir: Optional[str] = None,
178	placeholder_token: list[str] = [],
179	initializer_token: list[str] = [],
180	num_vectors: int = 1,
181	scale_lr: bool = False,
182	use_8bit_adam: bool = False,
183	train_batch_size: int = 1,
184	class_image_dir: Optional[str] = None,
185	num_class_images: int = 0,
186	resolution: int = 768,
187	num_buckets: int = 0,
188	progressive_buckets: bool = False,
189	bucket_step_size: int = 64,
190	bucket_max_pixels: Optional[int] = None,
191	tag_dropout: float = 0.1,
192	tag_shuffle: bool = True,
193	data_template: str = "template",
194	valid_set_size: Optional[int] = None,
195	valid_set_repeat: int = 1,
196	data_filter: Optional[Callable[[VlpnDataItem], bool]] = None,
197	sample_batch_size: int = 1,
198	sample_image_size: int = 768,
199	sample_steps: int = 20,
200	) -> TrainingSetup:
201	now = datetime.datetime.now().strftime("%Y-%m-%dT%H-%M-%S")
202	output_dir = Path(output_dir).joinpath(slugify(project), now)
203	output_dir.mkdir(parents=True, exist_ok=True)
204
205	accelerator = Accelerator(
206	log_with=LoggerType.TENSORBOARD,
207	logging_dir=f"{output_dir}",
208	gradient_accumulation_steps=gradient_accumulation_steps,
209	mixed_precision=mixed_precision
210	)
211
212	logging.basicConfig(filename=output_dir.joinpath("log.txt"), level=logging.DEBUG)
213
214	seed = seed or (torch.random.seed() >> 32)
215	set_seed(seed)
216
217	# Load the tokenizer and add the placeholder token as a additional special token
218	tokenizer = MultiCLIPTokenizer.from_pretrained(pretrained_model_name_or_path, subfolder='tokenizer')	87	tokenizer = MultiCLIPTokenizer.from_pretrained(pretrained_model_name_or_path, subfolder='tokenizer')
219	tokenizer.set_use_vector_shuffle(vector_shuffle)
220	tokenizer.set_dropout(vector_dropout)
221
222	# Load models and create wrapper for stable diffusion
223	text_encoder = CLIPTextModel.from_pretrained(pretrained_model_name_or_path, subfolder='text_encoder')	88	text_encoder = CLIPTextModel.from_pretrained(pretrained_model_name_or_path, subfolder='text_encoder')
224	vae = AutoencoderKL.from_pretrained(pretrained_model_name_or_path, subfolder='vae')	89	vae = AutoencoderKL.from_pretrained(pretrained_model_name_or_path, subfolder='vae')
225	unet = UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, subfolder='unet')	90	unet = UNet2DConditionModel.from_pretrained(pretrained_model_name_or_path, subfolder='unet')
226	noise_scheduler = DDPMScheduler.from_pretrained(pretrained_model_name_or_path, subfolder='scheduler')	91	noise_scheduler = DDPMScheduler.from_pretrained(pretrained_model_name_or_path, subfolder='scheduler')
227	checkpoint_scheduler = DPMSolverMultistepScheduler.from_pretrained(	92	sample_scheduler = DPMSolverMultistepScheduler.from_pretrained(
228	pretrained_model_name_or_path, subfolder='scheduler')	93	pretrained_model_name_or_path, subfolder='scheduler')
229		94
230	vae.enable_slicing()	95	vae.enable_slicing()
231	vae.set_use_memory_efficient_attention_xformers(True)	96	vae.set_use_memory_efficient_attention_xformers(True)
232	unet.set_use_memory_efficient_attention_xformers(True)	97	unet.set_use_memory_efficient_attention_xformers(True)
233		98
234	if gradient_checkpointing:
235	unet.enable_gradient_checkpointing()
236	text_encoder.gradient_checkpointing_enable()
237
238	embeddings = patch_managed_embeddings(text_encoder)	99	embeddings = patch_managed_embeddings(text_encoder)
239		100
240	if embeddings_dir is not None:	101	return tokenizer, text_encoder, vae, unet, noise_scheduler, sample_scheduler, embeddings
241	embeddings_dir = Path(embeddings_dir)
242	if not embeddings_dir.exists() or not embeddings_dir.is_dir():
243	raise ValueError("--embeddings_dir must point to an existing directory")
244		102
245	added_tokens, added_ids = load_embeddings_from_dir(tokenizer, embeddings, embeddings_dir)
246	print(f"Added {len(added_tokens)} tokens from embeddings dir: {list(zip(added_tokens, added_ids))}")
247		103
248	# Convert the initializer_token, placeholder_token to ids	104	def add_placeholder_tokens(
		105	tokenizer: MultiCLIPTokenizer,
		106	embeddings: ManagedCLIPTextEmbeddings,
		107	placeholder_tokens: list[str],
		108	initializer_tokens: list[str],
		109	num_vectors: Union[list[int], int]
		110	):
249	initializer_token_ids = [	111	initializer_token_ids = [
250	tokenizer.encode(token, add_special_tokens=False)	112	tokenizer.encode(token, add_special_tokens=False)
251	for token in initializer_token	113	for token in initializer_tokens
252	]	114	]
		115	placeholder_token_ids = tokenizer.add_multi_tokens(placeholder_tokens, num_vectors)
253		116
254	placeholder_token_ids = tokenizer.add_multi_tokens(placeholder_token, num_vectors)
255	embeddings.resize(len(tokenizer))	117	embeddings.resize(len(tokenizer))
256		118
257	for (new_id, init_ids) in zip(placeholder_token_ids, initializer_token_ids):	119	for (placeholder_token_id, initializer_token_id) in zip(placeholder_token_ids, initializer_token_ids):
258	embeddings.add_embed(new_id, init_ids)	120	embeddings.add_embed(placeholder_token_id, initializer_token_id)
259
260	init_ratios = [
261	f"{len(init_ids)} / {len(new_id)}"
262	for new_id, init_ids in zip(placeholder_token_ids, initializer_token_ids)
263	]
264
265	print(f"Added {len(placeholder_token_ids)} new tokens: {list(zip(placeholder_token, placeholder_token_ids, init_ratios))}")
266		121
267	vae.requires_grad_(False)	122	return placeholder_token_ids
268	unet.requires_grad_(False)
269	text_encoder.requires_grad_(False)
270
271	if scale_lr:
272	learning_rate = (
273	learning_rate * gradient_accumulation_steps *
274	train_batch_size * accelerator.num_processes
275	)
276
277	# Use 8-bit Adam for lower memory usage or to fine-tune the model in 16GB GPUs
278	if use_8bit_adam:
279	try:
280	import bitsandbytes as bnb
281	except ImportError:
282	raise ImportError("To use 8-bit Adam, please install the bitsandbytes library: `pip install bitsandbytes`.")
283
284	optimizer_class = bnb.optim.AdamW8bit
285	else:
286	optimizer_class = torch.optim.AdamW
287
288	weight_dtype = torch.float32
289	if mixed_precision == "fp16":
290	weight_dtype = torch.float16
291	elif mixed_precision == "bf16":
292	weight_dtype = torch.bfloat16
293
294	datamodule = VlpnDataModule(
295	data_file=data_file,
296	batch_size=train_batch_size,
297	tokenizer=tokenizer,
298	class_subdir=class_image_dir,
299	num_class_images=num_class_images,
300	size=resolution,
301	num_buckets=num_buckets,
302	progressive_buckets=progressive_buckets,
303	bucket_step_size=bucket_step_size,
304	bucket_max_pixels=bucket_max_pixels,
305	dropout=tag_dropout,
306	shuffle=tag_shuffle,
307	template_key=data_template,
308	valid_set_size=valid_set_size,
309	valid_set_repeat=valid_set_repeat,
310	seed=seed,
311	filter=data_filter,
312	dtype=weight_dtype
313	)
314	datamodule.setup()
315
316	train_dataloader = datamodule.train_dataloader
317	val_dataloader = datamodule.val_dataloader
318
319	train_dataloader, val_dataloader = accelerator.prepare(train_dataloader, val_dataloader)
320
321	if num_class_images != 0:
322	generate_class_images(
323	accelerator,
324	text_encoder,
325	vae,
326	unet,
327	tokenizer,
328	checkpoint_scheduler,
329	datamodule.data_train,
330	sample_batch_size,
331	sample_image_size,
332	sample_steps
333	)
334
335	return TrainingSetup(
336	accelerator=accelerator,
337	tokenizer=tokenizer,
338	text_encoder=text_encoder,
339	vae=vae,
340	unet=unet,
341	noise_scheduler=noise_scheduler,
342	checkpoint_scheduler=checkpoint_scheduler,
343	optimizer_class=optimizer_class,
344	learning_rate=learning_rate,
345	output_dir=output_dir,
346	weight_dtype=weight_dtype,
347	seed=seed,
348	train_dataloader=train_dataloader,
349	val_dataloader=val_dataloader,
350	placeholder_token=placeholder_token,
351	placeholder_token_ids=placeholder_token_ids
352	)
353		123
354		124
355	def loss_step(	125	def loss_step(