Simplified multi-vector embedding code

author: Volpeon <git@volpeon.ink> 2022-12-31 14:07:44 +0100
committer: Volpeon <git@volpeon.ink> 2022-12-31 14:07:44 +0100
commit: dc463a6b8ef120b7a0643569b66f9109ed38c652 (patch)
tree: ae742a988b8541009a980c8b2f719696f9d7df27 /models
parent: Fixes (diff)
download: textual-inversion-diff-dc463a6b8ef120b7a0643569b66f9109ed38c652.tar.gz
textual-inversion-diff-dc463a6b8ef120b7a0643569b66f9109ed38c652.tar.bz2
textual-inversion-diff-dc463a6b8ef120b7a0643569b66f9109ed38c652.zip
1 files changed, 11 insertions, 12 deletions
diff --git a/models/clip/tokenizer.py b/models/clip/tokenizer.py
index 78871db..7e08287 100644
--- a/models/clip/tokenizer.py
+++ b/models/clip/tokenizer.py
@@ -8,8 +8,8 @@ from transformers import CLIPTokenizer
 class MultiCLIPTokenizerItem(NamedTuple):
    token: str
-    placeholder_id: int
+    meta_id: int
-    multi_ids: list[int]
+    ids: list[int]
 class MultiCLIPTokenizer(CLIPTokenizer):
@@ -30,20 +30,19 @@ class MultiCLIPTokenizer(CLIPTokenizer):
        if isinstance(num_vectors, list):
            raise ValueError("Expected num_vectors to be int for single token")
-        super().add_tokens(new_tokens)
+        if num_vectors < 1:
+            raise ValueError("Expected num_vectors to be >= 1")
-        if num_vectors == 1:
+        multi_token = [new_tokens] + [f"{new_tokens}_{i}" for i in range(1, num_vectors)]
-            multi_token = [new_tokens]
-        else:
-            multi_token = [f"{new_tokens}_{i}" for i in range(num_vectors)]
-            super().add_tokens(multi_token)
-        meta_id = super().convert_tokens_to_ids(new_tokens)
+        super().add_tokens(multi_token)
-        multi_ids = super().convert_tokens_to_ids(multi_token)
-        self.token_map[meta_id] = multi_ids
+        ids = super().convert_tokens_to_ids(multi_token)
+        meta_id = ids[0]
-        return MultiCLIPTokenizerItem(new_tokens, meta_id, multi_ids)
+        self.token_map[meta_id] = ids
+        return MultiCLIPTokenizerItem(new_tokens, meta_id, ids)
    def encode(self, *args, vector_shuffle=True, **kwargs):
        ids = super().encode(*args, **kwargs)
author	Volpeon <git@volpeon.ink>	2022-12-31 14:07:44 +0100
committer	Volpeon <git@volpeon.ink>	2022-12-31 14:07:44 +0100
commit	dc463a6b8ef120b7a0643569b66f9109ed38c652 (patch)
tree	ae742a988b8541009a980c8b2f719696f9d7df27 /models
parent	Fixes (diff)
download	textual-inversion-diff-dc463a6b8ef120b7a0643569b66f9109ed38c652.tar.gz textual-inversion-diff-dc463a6b8ef120b7a0643569b66f9109ed38c652.tar.bz2 textual-inversion-diff-dc463a6b8ef120b7a0643569b66f9109ed38c652.zip