1 files changed, 672 insertions, 0 deletions
diff --git a/train.py b/train.py
new file mode 100644
index 0000000..d8644c4
--- /dev/null
+++ b/train.py
@@ -0,0 +1,672 @@
+import argparse
+import datetime
+import logging
+from pathlib import Path
+import torch
+import torch.utils.checkpoint
+from accelerate import Accelerator
+from accelerate.logging import get_logger
+from accelerate.utils import LoggerType, set_seed
+from slugify import slugify
+from data.csv import VlpnDataModule, VlpnDataItem
+from util import load_config, load_embeddings_from_dir
+from trainer.ti import TextualInversionTrainingStrategy
+from trainer.base import Trainer
+from training.optimization import get_scheduler
+from training.util import save_args, generate_class_images, add_placeholder_tokens, get_models
+logger = get_logger(__name__)
+torch.backends.cuda.matmul.allow_tf32 = True
+torch.backends.cudnn.benchmark = True
+def parse_args():
+    parser = argparse.ArgumentParser(
+        description="Simple example of a training script."
+    )
+    parser.add_argument(
+        "--pretrained_model_name_or_path",
+        type=str,
+        default=None,
+        help="Path to pretrained model or model identifier from huggingface.co/models.",
+    )
+    parser.add_argument(
+        "--tokenizer_name",
+        type=str,
+        default=None,
+        help="Pretrained tokenizer name or path if not the same as model_name",
+    )
+    parser.add_argument(
+        "--train_data_file",
+        type=str,
+        default=None,
+        help="A CSV file containing the training data."
+    )
+    parser.add_argument(
+        "--train_data_template",
+        type=str,
+        default="template",
+    )
+    parser.add_argument(
+        "--project",
+        type=str,
+        default=None,
+        help="The name of the current project.",
+    )
+    parser.add_argument(
+        "--placeholder_tokens",
+        type=str,
+        nargs='*',
+        help="A token to use as a placeholder for the concept.",
+    )
+    parser.add_argument(
+        "--initializer_tokens",
+        type=str,
+        nargs='*',
+        help="A token to use as initializer word."
+    )
+    parser.add_argument(
+        "--num_vectors",
+        type=int,
+        nargs='*',
+        help="Number of vectors per embedding."
+    )
+    parser.add_argument(
+        "--num_class_images",
+        type=int,
+        default=1,
+        help="How many class images to generate."
+    )
+    parser.add_argument(
+        "--class_image_dir",
+        type=str,
+        default="cls",
+        help="The directory where class images will be saved.",
+    )
+    parser.add_argument(
+        "--exclude_collections",
+        type=str,
+        nargs='*',
+        help="Exclude all items with a listed collection.",
+    )
+    parser.add_argument(
+        "--output_dir",
+        type=str,
+        default="output/text-inversion",
+        help="The output directory where the model predictions and checkpoints will be written.",
+    )
+    parser.add_argument(
+        "--embeddings_dir",
+        type=str,
+        default=None,
+        help="The embeddings directory where Textual Inversion embeddings are stored.",
+    )
+    parser.add_argument(
+        "--collection",
+        type=str,
+        nargs='*',
+        help="A collection to filter the dataset.",
+    )
+    parser.add_argument(
+        "--seed",
+        type=int,
+        default=None,
+        help="A seed for reproducible training."
+    )
+    parser.add_argument(
+        "--resolution",
+        type=int,
+        default=768,
+        help=(
+            "The resolution for input images, all the images in the train/validation dataset will be resized to this"
+            " resolution"
+        ),
+    )
+    parser.add_argument(
+        "--num_buckets",
+        type=int,
+        default=0,
+        help="Number of aspect ratio buckets in either direction.",
+    )
+    parser.add_argument(
+        "--progressive_buckets",
+        action="store_true",
+        help="Include images in smaller buckets as well.",
+    )
+    parser.add_argument(
+        "--bucket_step_size",
+        type=int,
+        default=64,
+        help="Step size between buckets.",
+    )
+    parser.add_argument(
+        "--bucket_max_pixels",
+        type=int,
+        default=None,
+        help="Maximum pixels per bucket.",
+    )
+    parser.add_argument(
+        "--tag_dropout",
+        type=float,
+        default=0,
+        help="Tag dropout probability.",
+    )
+    parser.add_argument(
+        "--no_tag_shuffle",
+        action="store_true",
+        help="Shuffle tags.",
+    )
+    parser.add_argument(
+        "--vector_dropout",
+        type=int,
+        default=0,
+        help="Vector dropout probability.",
+    )
+    parser.add_argument(
+        "--vector_shuffle",
+        type=str,
+        default="auto",
+        help='Vector shuffling algorithm. Choose between ["all", "trailing", "leading", "between", "auto", "off"]',
+    )
+    parser.add_argument(
+        "--num_train_epochs",
+        type=int,
+        default=100
+    )
+    parser.add_argument(
+        "--gradient_accumulation_steps",
+        type=int,
+        default=1,
+        help="Number of updates steps to accumulate before performing a backward/update pass.",
+    )
+    parser.add_argument(
+        "--gradient_checkpointing",
+        action="store_true",
+        help="Whether or not to use gradient checkpointing to save memory at the expense of slower backward pass.",
+    )
+    parser.add_argument(
+        "--find_lr",
+        action="store_true",
+        help="Automatically find a learning rate (no training).",
+    )
+    parser.add_argument(
+        "--learning_rate",
+        type=float,
+        default=1e-4,
+        help="Initial learning rate (after the potential warmup period) to use.",
+    )
+    parser.add_argument(
+        "--scale_lr",
+        action="store_true",
+        help="Scale the learning rate by the number of GPUs, gradient accumulation steps, and batch size.",
+    )
+    parser.add_argument(
+        "--lr_scheduler",
+        type=str,
+        default="one_cycle",
+        help=(
+            'The scheduler type to use. Choose between ["linear", "cosine", "cosine_with_restarts", "polynomial",'
+            ' "constant", "constant_with_warmup", "one_cycle"]'
+        ),
+    )
+    parser.add_argument(
+        "--lr_warmup_epochs",
+        type=int,
+        default=10,
+        help="Number of steps for the warmup in the lr scheduler."
+    )
+    parser.add_argument(
+        "--lr_cycles",
+        type=int,
+        default=None,
+        help="Number of restart cycles in the lr scheduler."
+    )
+    parser.add_argument(
+        "--lr_warmup_func",
+        type=str,
+        default="cos",
+        help='Choose between ["linear", "cos"]'
+    )
+    parser.add_argument(
+        "--lr_warmup_exp",
+        type=int,
+        default=1,
+        help='If lr_warmup_func is "cos", exponent to modify the function'
+    )
+    parser.add_argument(
+        "--lr_annealing_func",
+        type=str,
+        default="cos",
+        help='Choose between ["linear", "half_cos", "cos"]'
+    )
+    parser.add_argument(
+        "--lr_annealing_exp",
+        type=int,
+        default=1,
+        help='If lr_annealing_func is "half_cos" or "cos", exponent to modify the function'
+    )
+    parser.add_argument(
+        "--lr_min_lr",
+        type=float,
+        default=0.04,
+        help="Minimum learning rate in the lr scheduler."
+    )
+    parser.add_argument(
+        "--use_ema",
+        action="store_true",
+        help="Whether to use EMA model."
+    )
+    parser.add_argument(
+        "--ema_inv_gamma",
+        type=float,
+        default=1.0
+    )
+    parser.add_argument(
+        "--ema_power",
+        type=float,
+        default=1
+    )
+    parser.add_argument(
+        "--ema_max_decay",
+        type=float,
+        default=0.9999
+    )
+    parser.add_argument(
+        "--use_8bit_adam",
+        action="store_true",
+        help="Whether or not to use 8-bit Adam from bitsandbytes."
+    )
+    parser.add_argument(
+        "--adam_beta1",
+        type=float,
+        default=0.9,
+        help="The beta1 parameter for the Adam optimizer."
+    )
+    parser.add_argument(
+        "--adam_beta2",
+        type=float,
+        default=0.999,
+        help="The beta2 parameter for the Adam optimizer."
+    )
+    parser.add_argument(
+        "--adam_weight_decay",
+        type=float,
+        default=0,
+        help="Weight decay to use."
+    )
+    parser.add_argument(
+        "--adam_epsilon",
+        type=float,
+        default=1e-08,
+        help="Epsilon value for the Adam optimizer"
+    )
+    parser.add_argument(
+        "--adam_amsgrad",
+        type=bool,
+        default=False,
+        help="Amsgrad value for the Adam optimizer"
+    )
+    parser.add_argument(
+        "--mixed_precision",
+        type=str,
+        default="no",
+        choices=["no", "fp16", "bf16"],
+        help=(
+            "Whether to use mixed precision. Choose"
+            "between fp16 and bf16 (bfloat16). Bf16 requires PyTorch >= 1.10."
+            "and an Nvidia Ampere GPU."
+        ),
+    )
+    parser.add_argument(
+        "--checkpoint_frequency",
+        type=int,
+        default=5,
+        help="How often to save a checkpoint and sample image (in epochs)",
+    )
+    parser.add_argument(
+        "--sample_frequency",
+        type=int,
+        default=1,
+        help="How often to save a checkpoint and sample image (in epochs)",
+    )
+    parser.add_argument(
+        "--sample_image_size",
+        type=int,
+        default=768,
+        help="Size of sample images",
+    )
+    parser.add_argument(
+        "--sample_batches",
+        type=int,
+        default=1,
+        help="Number of sample batches to generate per checkpoint",
+    )
+    parser.add_argument(
+        "--sample_batch_size",
+        type=int,
+        default=1,
+        help="Number of samples to generate per batch",
+    )
+    parser.add_argument(
+        "--valid_set_size",
+        type=int,
+        default=None,
+        help="Number of images in the validation dataset."
+    )
+    parser.add_argument(
+        "--valid_set_repeat",
+        type=int,
+        default=1,
+        help="Times the images in the validation dataset are repeated."
+    )
+    parser.add_argument(
+        "--train_batch_size",
+        type=int,
+        default=1,
+        help="Batch size (per device) for the training dataloader."
+    )
+    parser.add_argument(
+        "--sample_steps",
+        type=int,
+        default=20,
+        help="Number of steps for sample generation. Higher values will result in more detailed samples, but longer runtimes.",
+    )
+    parser.add_argument(
+        "--prior_loss_weight",
+        type=float,
+        default=1.0,
+        help="The weight of prior preservation loss."
+    )
+    parser.add_argument(
+        "--emb_decay_target",
+        default=0.4,
+        type=float,
+        help="Embedding decay target."
+    )
+    parser.add_argument(
+        "--emb_decay_factor",
+        default=0,
+        type=float,
+        help="Embedding decay factor."
+    )
+    parser.add_argument(
+        "--emb_decay_start",
+        default=1e-4,
+        type=float,
+        help="Embedding decay start offset."
+    )
+    parser.add_argument(
+        "--noise_timesteps",
+        type=int,
+        default=1000,
+    )
+    parser.add_argument(
+        "--resume_from",
+        type=str,
+        default=None,
+        help="Path to a directory to resume training from (ie, logs/token_name/2022-09-22T23-36-27)"
+    )
+    parser.add_argument(
+        "--global_step",
+        type=int,
+        default=0,
+    )
+    parser.add_argument(
+        "--config",
+        type=str,
+        default=None,
+        help="Path to a JSON configuration file containing arguments for invoking this script."
+    )
+    args = parser.parse_args()
+    if args.config is not None:
+        args = load_config(args.config)
+        args = parser.parse_args(namespace=argparse.Namespace(**args))
+    if args.train_data_file is None:
+        raise ValueError("You must specify --train_data_file")
+    if args.pretrained_model_name_or_path is None:
+        raise ValueError("You must specify --pretrained_model_name_or_path")
+    if args.project is None:
+        raise ValueError("You must specify --project")
+    if isinstance(args.placeholder_tokens, str):
+        args.placeholder_tokens = [args.placeholder_tokens]
+    if len(args.placeholder_tokens) == 0:
+        args.placeholder_tokens = [f"<*{i}>" for i in range(args.initializer_tokens)]
+    if isinstance(args.initializer_tokens, str):
+        args.initializer_tokens = [args.initializer_tokens] * len(args.placeholder_tokens)
+    if len(args.initializer_tokens) == 0:
+        raise ValueError("You must specify --initializer_tokens")
+    if len(args.placeholder_tokens) != len(args.initializer_tokens):
+        raise ValueError("--placeholder_tokens and --initializer_tokens must have the same number of items")
+    if args.num_vectors is None:
+        args.num_vectors = 1
+    if isinstance(args.num_vectors, int):
+        args.num_vectors = [args.num_vectors] * len(args.initializer_tokens)
+    if len(args.placeholder_tokens) != len(args.num_vectors):
+        raise ValueError("--placeholder_tokens and --num_vectors must have the same number of items")
+    if isinstance(args.collection, str):
+        args.collection = [args.collection]
+    if isinstance(args.exclude_collections, str):
+        args.exclude_collections = [args.exclude_collections]
+    if args.output_dir is None:
+        raise ValueError("You must specify --output_dir")
+    return args
+def main():
+    args = parse_args()
+    global_step_offset = args.global_step
+    now = datetime.datetime.now().strftime("%Y-%m-%dT%H-%M-%S")
+    output_dir = Path(args.output_dir).joinpath(slugify(args.project), now)
+    output_dir.mkdir(parents=True, exist_ok=True)
+    accelerator = Accelerator(
+        log_with=LoggerType.TENSORBOARD,
+        logging_dir=f"{output_dir}",
+        gradient_accumulation_steps=args.gradient_accumulation_steps,
+        mixed_precision=args.mixed_precision
+    )
+    logging.basicConfig(filename=output_dir.joinpath("log.txt"), level=logging.DEBUG)
+    if args.seed is None:
+        args.seed = torch.random.seed() >> 32
+    set_seed(args.seed)
+    save_args(output_dir, args)
+    tokenizer, text_encoder, vae, unet, noise_scheduler, sample_scheduler, embeddings = get_models(
+        args.pretrained_model_name_or_path)
+    tokenizer.set_use_vector_shuffle(args.vector_shuffle)
+    tokenizer.set_dropout(args.vector_dropout)
+    vae.enable_slicing()
+    vae.set_use_memory_efficient_attention_xformers(True)
+    unet.set_use_memory_efficient_attention_xformers(True)
+    if args.gradient_checkpointing:
+        unet.enable_gradient_checkpointing()
+        text_encoder.gradient_checkpointing_enable()
+    if args.embeddings_dir is not None:
+        embeddings_dir = Path(args.embeddings_dir)
+        if not embeddings_dir.exists() or not embeddings_dir.is_dir():
+            raise ValueError("--embeddings_dir must point to an existing directory")
+        added_tokens, added_ids = load_embeddings_from_dir(tokenizer, embeddings, embeddings_dir)
+        print(f"Added {len(added_tokens)} tokens from embeddings dir: {list(zip(added_tokens, added_ids))}")
+    placeholder_token_ids, initializer_token_ids = add_placeholder_tokens(
+        tokenizer=tokenizer,
+        embeddings=embeddings,
+        placeholder_tokens=args.placeholder_tokens,
+        initializer_tokens=args.initializer_tokens,
+        num_vectors=args.num_vectors
+    )
+    if len(placeholder_token_ids) != 0:
+        initializer_token_id_lens = [len(id) for id in initializer_token_ids]
+        placeholder_token_stats = list(zip(args.placeholder_tokens, placeholder_token_ids, initializer_token_id_lens))
+        print(f"Added {len(placeholder_token_ids)} new tokens: {placeholder_token_stats}")
+    if args.scale_lr:
+        args.learning_rate = (
+            args.learning_rate * args.gradient_accumulation_steps *
+            args.train_batch_size * accelerator.num_processes
+        )
+    if args.find_lr:
+        args.learning_rate = 1e-5
+    if args.use_8bit_adam:
+        try:
+            import bitsandbytes as bnb
+        except ImportError:
+            raise ImportError("To use 8-bit Adam, please install the bitsandbytes library: `pip install bitsandbytes`.")
+        optimizer_class = bnb.optim.AdamW8bit
+    else:
+        optimizer_class = torch.optim.AdamW
+    optimizer = optimizer_class(
+        text_encoder.text_model.embeddings.temp_token_embedding.parameters(),
+        lr=args.learning_rate,
+        betas=(args.adam_beta1, args.adam_beta2),
+        weight_decay=args.adam_weight_decay,
+        eps=args.adam_epsilon,
+        amsgrad=args.adam_amsgrad,
+    )
+    weight_dtype = torch.float32
+    if args.mixed_precision == "fp16":
+        weight_dtype = torch.float16
+    elif args.mixed_precision == "bf16":
+        weight_dtype = torch.bfloat16
+    def keyword_filter(item: VlpnDataItem):
+        cond1 = any(
+            keyword in part
+            for keyword in args.placeholder_tokens
+            for part in item.prompt
+        )
+        cond3 = args.collection is None or args.collection in item.collection
+        cond4 = args.exclude_collections is None or not any(
+            collection in item.collection
+            for collection in args.exclude_collections
+        )
+        return cond1 and cond3 and cond4
+    datamodule = VlpnDataModule(
+        data_file=args.train_data_file,
+        batch_size=args.train_batch_size,
+        tokenizer=tokenizer,
+        class_subdir=args.class_image_dir,
+        num_class_images=args.num_class_images,
+        size=args.resolution,
+        num_buckets=args.num_buckets,
+        progressive_buckets=args.progressive_buckets,
+        bucket_step_size=args.bucket_step_size,
+        bucket_max_pixels=args.bucket_max_pixels,
+        dropout=args.tag_dropout,
+        shuffle=not args.no_tag_shuffle,
+        template_key=args.train_data_template,
+        valid_set_size=args.valid_set_size,
+        valid_set_repeat=args.valid_set_repeat,
+        seed=args.seed,
+        filter=keyword_filter,
+        dtype=weight_dtype
+    )
+    datamodule.setup()
+    train_dataloader = datamodule.train_dataloader
+    val_dataloader = datamodule.val_dataloader
+    if args.num_class_images != 0:
+        generate_class_images(
+            accelerator,
+            text_encoder,
+            vae,
+            unet,
+            tokenizer,
+            sample_scheduler,
+            datamodule.data_train,
+            args.sample_batch_size,
+            args.sample_image_size,
+            args.sample_steps
+        )
+    lr_scheduler = get_scheduler(
+        args.lr_scheduler,
+        optimizer=optimizer,
+        num_training_steps_per_epoch=len(train_dataloader),
+        gradient_accumulation_steps=args.gradient_accumulation_steps,
+        min_lr=args.lr_min_lr,
+        warmup_func=args.lr_warmup_func,
+        annealing_func=args.lr_annealing_func,
+        warmup_exp=args.lr_warmup_exp,
+        annealing_exp=args.lr_annealing_exp,
+        cycles=args.lr_cycles,
+        train_epochs=args.num_train_epochs,
+        warmup_epochs=args.lr_warmup_epochs,
+    )
+    trainer = Trainer(
+        accelerator=accelerator,
+        unet=unet,
+        text_encoder=text_encoder,
+        tokenizer=tokenizer,
+        vae=vae,
+        noise_scheduler=noise_scheduler,
+        sample_scheduler=sample_scheduler,
+        train_dataloader=train_dataloader,
+        val_dataloader=val_dataloader,
+        dtype=weight_dtype,
+    )
+    trainer(
+        strategy_class=TextualInversionTrainingStrategy,
+        optimizer=optimizer,
+        lr_scheduler=lr_scheduler,
+        num_train_epochs=args.num_train_epochs,
+        sample_frequency=args.sample_frequency,
+        checkpoint_frequency=args.checkpoint_frequency,
+        global_step_offset=global_step_offset,
+        prior_loss_weight=args.prior_loss_weight,
+        output_dir=output_dir,
+        placeholder_tokens=args.placeholder_tokens,
+        placeholder_token_ids=placeholder_token_ids,
+        learning_rate=args.learning_rate,
+        sample_steps=args.sample_steps,
+        sample_image_size=args.sample_image_size,
+        sample_batch_size=args.sample_batch_size,
+        sample_batches=args.sample_batches,
+        seed=args.seed,
+    )
+if __name__ == "__main__":
+    main()

diff --git a/train.py b/train.py new file mode 100644 index 0000000..d8644c4 --- /dev/null +++ b/train.py
@@ -0,0 +1,672 @@
	1	import argparse
	2	import datetime
	3	import logging
	4	from pathlib import Path
	5
	6	import torch
	7	import torch.utils.checkpoint
	8
	9	from accelerate import Accelerator
	10	from accelerate.logging import get_logger
	11	from accelerate.utils import LoggerType, set_seed
	12	from slugify import slugify
	13
	14	from data.csv import VlpnDataModule, VlpnDataItem
	15	from util import load_config, load_embeddings_from_dir
	16
	17	from trainer.ti import TextualInversionTrainingStrategy
	18	from trainer.base import Trainer
	19	from training.optimization import get_scheduler
	20	from training.util import save_args, generate_class_images, add_placeholder_tokens, get_models
	21
	22	logger = get_logger(__name__)
	23
	24
	25	torch.backends.cuda.matmul.allow_tf32 = True
	26	torch.backends.cudnn.benchmark = True
	27
	28
	29	def parse_args():
	30	parser = argparse.ArgumentParser(
	31	description="Simple example of a training script."
	32	)
	33	parser.add_argument(
	34	"--pretrained_model_name_or_path",
	35	type=str,
	36	default=None,
	37	help="Path to pretrained model or model identifier from huggingface.co/models.",
	38	)
	39	parser.add_argument(
	40	"--tokenizer_name",
	41	type=str,
	42	default=None,
	43	help="Pretrained tokenizer name or path if not the same as model_name",
	44	)
	45	parser.add_argument(
	46	"--train_data_file",
	47	type=str,
	48	default=None,
	49	help="A CSV file containing the training data."
	50	)
	51	parser.add_argument(
	52	"--train_data_template",
	53	type=str,
	54	default="template",
	55	)
	56	parser.add_argument(
	57	"--project",
	58	type=str,
	59	default=None,
	60	help="The name of the current project.",
	61	)
	62	parser.add_argument(
	63	"--placeholder_tokens",
	64	type=str,
	65	nargs='*',
	66	help="A token to use as a placeholder for the concept.",
	67	)
	68	parser.add_argument(
	69	"--initializer_tokens",
	70	type=str,
	71	nargs='*',
	72	help="A token to use as initializer word."
	73	)
	74	parser.add_argument(
	75	"--num_vectors",
	76	type=int,
	77	nargs='*',
	78	help="Number of vectors per embedding."
	79	)
	80	parser.add_argument(
	81	"--num_class_images",
	82	type=int,
	83	default=1,
	84	help="How many class images to generate."
	85	)
	86	parser.add_argument(
	87	"--class_image_dir",
	88	type=str,
	89	default="cls",
	90	help="The directory where class images will be saved.",
	91	)
	92	parser.add_argument(
	93	"--exclude_collections",
	94	type=str,
	95	nargs='*',
	96	help="Exclude all items with a listed collection.",
	97	)
	98	parser.add_argument(
	99	"--output_dir",
	100	type=str,
	101	default="output/text-inversion",
	102	help="The output directory where the model predictions and checkpoints will be written.",
	103	)
	104	parser.add_argument(
	105	"--embeddings_dir",
	106	type=str,
	107	default=None,
	108	help="The embeddings directory where Textual Inversion embeddings are stored.",
	109	)
	110	parser.add_argument(
	111	"--collection",
	112	type=str,
	113	nargs='*',
	114	help="A collection to filter the dataset.",
	115	)
	116	parser.add_argument(
	117	"--seed",
	118	type=int,
	119	default=None,
	120	help="A seed for reproducible training."
	121	)
	122	parser.add_argument(
	123	"--resolution",
	124	type=int,
	125	default=768,
	126	help=(
	127	"The resolution for input images, all the images in the train/validation dataset will be resized to this"
	128	" resolution"
	129	),
	130	)
	131	parser.add_argument(
	132	"--num_buckets",
	133	type=int,
	134	default=0,
	135	help="Number of aspect ratio buckets in either direction.",
	136	)
	137	parser.add_argument(
	138	"--progressive_buckets",
	139	action="store_true",
	140	help="Include images in smaller buckets as well.",
	141	)
	142	parser.add_argument(
	143	"--bucket_step_size",
	144	type=int,
	145	default=64,
	146	help="Step size between buckets.",
	147	)
	148	parser.add_argument(
	149	"--bucket_max_pixels",
	150	type=int,
	151	default=None,
	152	help="Maximum pixels per bucket.",
	153	)
	154	parser.add_argument(
	155	"--tag_dropout",
	156	type=float,
	157	default=0,
	158	help="Tag dropout probability.",
	159	)
	160	parser.add_argument(
	161	"--no_tag_shuffle",
	162	action="store_true",
	163	help="Shuffle tags.",
	164	)
	165	parser.add_argument(
	166	"--vector_dropout",
	167	type=int,
	168	default=0,
	169	help="Vector dropout probability.",
	170	)
	171	parser.add_argument(
	172	"--vector_shuffle",
	173	type=str,
	174	default="auto",
	175	help='Vector shuffling algorithm. Choose between ["all", "trailing", "leading", "between", "auto", "off"]',
	176	)
	177	parser.add_argument(
	178	"--num_train_epochs",
	179	type=int,
	180	default=100
	181	)
	182	parser.add_argument(
	183	"--gradient_accumulation_steps",
	184	type=int,
	185	default=1,
	186	help="Number of updates steps to accumulate before performing a backward/update pass.",
	187	)
	188	parser.add_argument(
	189	"--gradient_checkpointing",
	190	action="store_true",
	191	help="Whether or not to use gradient checkpointing to save memory at the expense of slower backward pass.",
	192	)
	193	parser.add_argument(
	194	"--find_lr",
	195	action="store_true",
	196	help="Automatically find a learning rate (no training).",
	197	)
	198	parser.add_argument(
	199	"--learning_rate",
	200	type=float,
	201	default=1e-4,
	202	help="Initial learning rate (after the potential warmup period) to use.",
	203	)
	204	parser.add_argument(
	205	"--scale_lr",
	206	action="store_true",
	207	help="Scale the learning rate by the number of GPUs, gradient accumulation steps, and batch size.",
	208	)
	209	parser.add_argument(
	210	"--lr_scheduler",
	211	type=str,
	212	default="one_cycle",
	213	help=(
	214	'The scheduler type to use. Choose between ["linear", "cosine", "cosine_with_restarts", "polynomial",'
	215	' "constant", "constant_with_warmup", "one_cycle"]'
	216	),
	217	)
	218	parser.add_argument(
	219	"--lr_warmup_epochs",
	220	type=int,
	221	default=10,
	222	help="Number of steps for the warmup in the lr scheduler."
	223	)
	224	parser.add_argument(
	225	"--lr_cycles",
	226	type=int,
	227	default=None,
	228	help="Number of restart cycles in the lr scheduler."
	229	)
	230	parser.add_argument(
	231	"--lr_warmup_func",
	232	type=str,
	233	default="cos",
	234	help='Choose between ["linear", "cos"]'
	235	)
	236	parser.add_argument(
	237	"--lr_warmup_exp",
	238	type=int,
	239	default=1,
	240	help='If lr_warmup_func is "cos", exponent to modify the function'
	241	)
	242	parser.add_argument(
	243	"--lr_annealing_func",
	244	type=str,
	245	default="cos",
	246	help='Choose between ["linear", "half_cos", "cos"]'
	247	)
	248	parser.add_argument(
	249	"--lr_annealing_exp",
	250	type=int,
	251	default=1,
	252	help='If lr_annealing_func is "half_cos" or "cos", exponent to modify the function'
	253	)
	254	parser.add_argument(
	255	"--lr_min_lr",
	256	type=float,
	257	default=0.04,
	258	help="Minimum learning rate in the lr scheduler."
	259	)
	260	parser.add_argument(
	261	"--use_ema",
	262	action="store_true",
	263	help="Whether to use EMA model."
	264	)
	265	parser.add_argument(
	266	"--ema_inv_gamma",
	267	type=float,
	268	default=1.0
	269	)
	270	parser.add_argument(
	271	"--ema_power",
	272	type=float,
	273	default=1
	274	)
	275	parser.add_argument(
	276	"--ema_max_decay",
	277	type=float,
	278	default=0.9999
	279	)
	280	parser.add_argument(
	281	"--use_8bit_adam",
	282	action="store_true",
	283	help="Whether or not to use 8-bit Adam from bitsandbytes."
	284	)
	285	parser.add_argument(
	286	"--adam_beta1",
	287	type=float,
	288	default=0.9,
	289	help="The beta1 parameter for the Adam optimizer."
	290	)
	291	parser.add_argument(
	292	"--adam_beta2",
	293	type=float,
	294	default=0.999,
	295	help="The beta2 parameter for the Adam optimizer."
	296	)
	297	parser.add_argument(
	298	"--adam_weight_decay",
	299	type=float,
	300	default=0,
	301	help="Weight decay to use."
	302	)
	303	parser.add_argument(
	304	"--adam_epsilon",
	305	type=float,
	306	default=1e-08,
	307	help="Epsilon value for the Adam optimizer"
	308	)
	309	parser.add_argument(
	310	"--adam_amsgrad",
	311	type=bool,
	312	default=False,
	313	help="Amsgrad value for the Adam optimizer"
	314	)
	315	parser.add_argument(
	316	"--mixed_precision",
	317	type=str,
	318	default="no",
	319	choices=["no", "fp16", "bf16"],
	320	help=(
	321	"Whether to use mixed precision. Choose"
	322	"between fp16 and bf16 (bfloat16). Bf16 requires PyTorch >= 1.10."
	323	"and an Nvidia Ampere GPU."
	324	),
	325	)
	326	parser.add_argument(
	327	"--checkpoint_frequency",
	328	type=int,
	329	default=5,
	330	help="How often to save a checkpoint and sample image (in epochs)",
	331	)
	332	parser.add_argument(
	333	"--sample_frequency",
	334	type=int,
	335	default=1,
	336	help="How often to save a checkpoint and sample image (in epochs)",
	337	)
	338	parser.add_argument(
	339	"--sample_image_size",
	340	type=int,
	341	default=768,
	342	help="Size of sample images",
	343	)
	344	parser.add_argument(
	345	"--sample_batches",
	346	type=int,
	347	default=1,
	348	help="Number of sample batches to generate per checkpoint",
	349	)
	350	parser.add_argument(
	351	"--sample_batch_size",
	352	type=int,
	353	default=1,
	354	help="Number of samples to generate per batch",
	355	)
	356	parser.add_argument(
	357	"--valid_set_size",
	358	type=int,
	359	default=None,
	360	help="Number of images in the validation dataset."
	361	)
	362	parser.add_argument(
	363	"--valid_set_repeat",
	364	type=int,
	365	default=1,
	366	help="Times the images in the validation dataset are repeated."
	367	)
	368	parser.add_argument(
	369	"--train_batch_size",
	370	type=int,
	371	default=1,
	372	help="Batch size (per device) for the training dataloader."
	373	)
	374	parser.add_argument(
	375	"--sample_steps",
	376	type=int,
	377	default=20,
	378	help="Number of steps for sample generation. Higher values will result in more detailed samples, but longer runtimes.",
	379	)
	380	parser.add_argument(
	381	"--prior_loss_weight",
	382	type=float,
	383	default=1.0,
	384	help="The weight of prior preservation loss."
	385	)
	386	parser.add_argument(
	387	"--emb_decay_target",
	388	default=0.4,
	389	type=float,
	390	help="Embedding decay target."
	391	)
	392	parser.add_argument(
	393	"--emb_decay_factor",
	394	default=0,
	395	type=float,
	396	help="Embedding decay factor."
	397	)
	398	parser.add_argument(
	399	"--emb_decay_start",
	400	default=1e-4,
	401	type=float,
	402	help="Embedding decay start offset."
	403	)
	404	parser.add_argument(
	405	"--noise_timesteps",
	406	type=int,
	407	default=1000,
	408	)
	409	parser.add_argument(
	410	"--resume_from",
	411	type=str,
	412	default=None,
	413	help="Path to a directory to resume training from (ie, logs/token_name/2022-09-22T23-36-27)"
	414	)
	415	parser.add_argument(
	416	"--global_step",
	417	type=int,
	418	default=0,
	419	)
	420	parser.add_argument(
	421	"--config",
	422	type=str,
	423	default=None,
	424	help="Path to a JSON configuration file containing arguments for invoking this script."
	425	)
	426
	427	args = parser.parse_args()
	428	if args.config is not None:
	429	args = load_config(args.config)
	430	args = parser.parse_args(namespace=argparse.Namespace(**args))
	431
	432	if args.train_data_file is None:
	433	raise ValueError("You must specify --train_data_file")
	434
	435	if args.pretrained_model_name_or_path is None:
	436	raise ValueError("You must specify --pretrained_model_name_or_path")
	437
	438	if args.project is None:
	439	raise ValueError("You must specify --project")
	440
	441	if isinstance(args.placeholder_tokens, str):
	442	args.placeholder_tokens = [args.placeholder_tokens]
	443
	444	if len(args.placeholder_tokens) == 0:
	445	args.placeholder_tokens = [f"<*{i}>" for i in range(args.initializer_tokens)]
	446
	447	if isinstance(args.initializer_tokens, str):
	448	args.initializer_tokens = [args.initializer_tokens] * len(args.placeholder_tokens)
	449
	450	if len(args.initializer_tokens) == 0:
	451	raise ValueError("You must specify --initializer_tokens")
	452
	453	if len(args.placeholder_tokens) != len(args.initializer_tokens):
	454	raise ValueError("--placeholder_tokens and --initializer_tokens must have the same number of items")
	455
	456	if args.num_vectors is None:
	457	args.num_vectors = 1
	458
	459	if isinstance(args.num_vectors, int):
	460	args.num_vectors = [args.num_vectors] * len(args.initializer_tokens)
	461
	462	if len(args.placeholder_tokens) != len(args.num_vectors):
	463	raise ValueError("--placeholder_tokens and --num_vectors must have the same number of items")
	464
	465	if isinstance(args.collection, str):
	466	args.collection = [args.collection]
	467
	468	if isinstance(args.exclude_collections, str):
	469	args.exclude_collections = [args.exclude_collections]
	470
	471	if args.output_dir is None:
	472	raise ValueError("You must specify --output_dir")
	473
	474	return args
	475
	476
	477	def main():
	478	args = parse_args()
	479
	480	global_step_offset = args.global_step
	481	now = datetime.datetime.now().strftime("%Y-%m-%dT%H-%M-%S")
	482	output_dir = Path(args.output_dir).joinpath(slugify(args.project), now)
	483	output_dir.mkdir(parents=True, exist_ok=True)
	484
	485	accelerator = Accelerator(
	486	log_with=LoggerType.TENSORBOARD,
	487	logging_dir=f"{output_dir}",
	488	gradient_accumulation_steps=args.gradient_accumulation_steps,
	489	mixed_precision=args.mixed_precision
	490	)
	491
	492	logging.basicConfig(filename=output_dir.joinpath("log.txt"), level=logging.DEBUG)
	493
	494	if args.seed is None:
	495	args.seed = torch.random.seed() >> 32
	496
	497	set_seed(args.seed)
	498
	499	save_args(output_dir, args)
	500
	501	tokenizer, text_encoder, vae, unet, noise_scheduler, sample_scheduler, embeddings = get_models(
	502	args.pretrained_model_name_or_path)
	503
	504	tokenizer.set_use_vector_shuffle(args.vector_shuffle)
	505	tokenizer.set_dropout(args.vector_dropout)
	506
	507	vae.enable_slicing()
	508	vae.set_use_memory_efficient_attention_xformers(True)
	509	unet.set_use_memory_efficient_attention_xformers(True)
	510
	511	if args.gradient_checkpointing:
	512	unet.enable_gradient_checkpointing()
	513	text_encoder.gradient_checkpointing_enable()
	514
	515	if args.embeddings_dir is not None:
	516	embeddings_dir = Path(args.embeddings_dir)
	517	if not embeddings_dir.exists() or not embeddings_dir.is_dir():
	518	raise ValueError("--embeddings_dir must point to an existing directory")
	519
	520	added_tokens, added_ids = load_embeddings_from_dir(tokenizer, embeddings, embeddings_dir)
	521	print(f"Added {len(added_tokens)} tokens from embeddings dir: {list(zip(added_tokens, added_ids))}")
	522
	523	placeholder_token_ids, initializer_token_ids = add_placeholder_tokens(
	524	tokenizer=tokenizer,
	525	embeddings=embeddings,
	526	placeholder_tokens=args.placeholder_tokens,
	527	initializer_tokens=args.initializer_tokens,
	528	num_vectors=args.num_vectors
	529	)
	530
	531	if len(placeholder_token_ids) != 0:
	532	initializer_token_id_lens = [len(id) for id in initializer_token_ids]
	533	placeholder_token_stats = list(zip(args.placeholder_tokens, placeholder_token_ids, initializer_token_id_lens))
	534	print(f"Added {len(placeholder_token_ids)} new tokens: {placeholder_token_stats}")
	535
	536	if args.scale_lr:
	537	args.learning_rate = (
	538	args.learning_rate * args.gradient_accumulation_steps *
	539	args.train_batch_size * accelerator.num_processes
	540	)
	541
	542	if args.find_lr:
	543	args.learning_rate = 1e-5
	544
	545	if args.use_8bit_adam:
	546	try:
	547	import bitsandbytes as bnb
	548	except ImportError:
	549	raise ImportError("To use 8-bit Adam, please install the bitsandbytes library: `pip install bitsandbytes`.")
	550
	551	optimizer_class = bnb.optim.AdamW8bit
	552	else:
	553	optimizer_class = torch.optim.AdamW
	554
	555	optimizer = optimizer_class(
	556	text_encoder.text_model.embeddings.temp_token_embedding.parameters(),
	557	lr=args.learning_rate,
	558	betas=(args.adam_beta1, args.adam_beta2),
	559	weight_decay=args.adam_weight_decay,
	560	eps=args.adam_epsilon,
	561	amsgrad=args.adam_amsgrad,
	562	)
	563
	564	weight_dtype = torch.float32
	565	if args.mixed_precision == "fp16":
	566	weight_dtype = torch.float16
	567	elif args.mixed_precision == "bf16":
	568	weight_dtype = torch.bfloat16
	569
	570	def keyword_filter(item: VlpnDataItem):
	571	cond1 = any(
	572	keyword in part
	573	for keyword in args.placeholder_tokens
	574	for part in item.prompt
	575	)
	576	cond3 = args.collection is None or args.collection in item.collection
	577	cond4 = args.exclude_collections is None or not any(
	578	collection in item.collection
	579	for collection in args.exclude_collections
	580	)
	581	return cond1 and cond3 and cond4
	582
	583	datamodule = VlpnDataModule(
	584	data_file=args.train_data_file,
	585	batch_size=args.train_batch_size,
	586	tokenizer=tokenizer,
	587	class_subdir=args.class_image_dir,
	588	num_class_images=args.num_class_images,
	589	size=args.resolution,
	590	num_buckets=args.num_buckets,
	591	progressive_buckets=args.progressive_buckets,
	592	bucket_step_size=args.bucket_step_size,
	593	bucket_max_pixels=args.bucket_max_pixels,
	594	dropout=args.tag_dropout,
	595	shuffle=not args.no_tag_shuffle,
	596	template_key=args.train_data_template,
	597	valid_set_size=args.valid_set_size,
	598	valid_set_repeat=args.valid_set_repeat,
	599	seed=args.seed,
	600	filter=keyword_filter,
	601	dtype=weight_dtype
	602	)
	603	datamodule.setup()
	604
	605	train_dataloader = datamodule.train_dataloader
	606	val_dataloader = datamodule.val_dataloader
	607
	608	if args.num_class_images != 0:
	609	generate_class_images(
	610	accelerator,
	611	text_encoder,
	612	vae,
	613	unet,
	614	tokenizer,
	615	sample_scheduler,
	616	datamodule.data_train,
	617	args.sample_batch_size,
	618	args.sample_image_size,
	619	args.sample_steps
	620	)
	621
	622	lr_scheduler = get_scheduler(
	623	args.lr_scheduler,
	624	optimizer=optimizer,
	625	num_training_steps_per_epoch=len(train_dataloader),
	626	gradient_accumulation_steps=args.gradient_accumulation_steps,
	627	min_lr=args.lr_min_lr,
	628	warmup_func=args.lr_warmup_func,
	629	annealing_func=args.lr_annealing_func,
	630	warmup_exp=args.lr_warmup_exp,
	631	annealing_exp=args.lr_annealing_exp,
	632	cycles=args.lr_cycles,
	633	train_epochs=args.num_train_epochs,
	634	warmup_epochs=args.lr_warmup_epochs,
	635	)
	636
	637	trainer = Trainer(
	638	accelerator=accelerator,
	639	unet=unet,
	640	text_encoder=text_encoder,
	641	tokenizer=tokenizer,
	642	vae=vae,
	643	noise_scheduler=noise_scheduler,
	644	sample_scheduler=sample_scheduler,
	645	train_dataloader=train_dataloader,
	646	val_dataloader=val_dataloader,
	647	dtype=weight_dtype,
	648	)
	649
	650	trainer(
	651	strategy_class=TextualInversionTrainingStrategy,
	652	optimizer=optimizer,
	653	lr_scheduler=lr_scheduler,
	654	num_train_epochs=args.num_train_epochs,
	655	sample_frequency=args.sample_frequency,
	656	checkpoint_frequency=args.checkpoint_frequency,
	657	global_step_offset=global_step_offset,
	658	prior_loss_weight=args.prior_loss_weight,
	659	output_dir=output_dir,
	660	placeholder_tokens=args.placeholder_tokens,
	661	placeholder_token_ids=placeholder_token_ids,
	662	learning_rate=args.learning_rate,
	663	sample_steps=args.sample_steps,
	664	sample_image_size=args.sample_image_size,
	665	sample_batch_size=args.sample_batch_size,
	666	sample_batches=args.sample_batches,
	667	seed=args.seed,
	668	)
	669
	670
	671	if __name__ == "__main__":
	672	main()