1 files changed, 18 insertions, 9 deletions
diff --git a/models/clip/embeddings.py b/models/clip/embeddings.py
index f82873e..91a575d 100644
--- a/models/clip/embeddings.py
+++ b/models/clip/embeddings.py
@@ -15,8 +15,12 @@ from transformers.models.clip.modeling_clip import CLIPTextEmbeddings
 def expand_embedding(old_embedding: nn.Embedding, n: int) -> nn.Embedding:
    old_num_embeddings, old_embedding_dim = old_embedding.weight.size()
-    new_embedding = nn.Embedding(old_num_embeddings + n, old_embedding_dim)
+    new_embedding = nn.Embedding(
-    new_embedding.to(old_embedding.weight.device, dtype=old_embedding.weight.dtype)
+        old_num_embeddings + n,
+        old_embedding_dim,
+        device=old_embedding.weight.device,
+        dtype=old_embedding.weight.dtype
+    )
    new_embedding.weight.data.zero_()
    new_embedding.weight.data[:old_num_embeddings] = old_embedding.weight.data
@@ -31,9 +35,13 @@ class ManagedCLIPTextEmbeddings(CLIPTextEmbeddings):
        self.position_embedding = embeddings.position_embedding
        self.temp_token_embedding = nn.Embedding(
-            self.token_embedding.num_embeddings, self.token_embedding.embedding_dim)
+            self.token_embedding.num_embeddings,
+            self.token_embedding.embedding_dim,
+            device=self.token_embedding.weight.device,
+            dtype=self.token_embedding.weight.dtype
+        )
        self.temp_token_embedding.weight.data.zero_()
-        self.temp_token_ids = torch.tensor([])
+        self.temp_token_ids = torch.tensor([], dtype=torch.long)
    def add_embed(self, token_ids: Union[int, list[int]], initializer: Optional[Union[int, list[int], torch.FloatTensor]] = None):
        if isinstance(token_ids, int):
@@ -52,12 +60,13 @@ class ManagedCLIPTextEmbeddings(CLIPTextEmbeddings):
        self.temp_token_embedding = expand_embedding(self.temp_token_embedding, len(token_ids))
        self.token_embedding = expand_embedding(self.token_embedding, len(token_ids))
-        token_ids = torch.tensor(token_ids)
+        token_ids = torch.tensor(token_ids, dtype=torch.long)
        self.temp_token_ids = torch.cat([self.temp_token_ids, token_ids])
        if initializer is not None:
-            self.temp_token_embedding.weight.data[token_ids] = initializer
+            self.temp_token_embedding.weight.data[token_ids] = initializer.to(
+                dtype=self.temp_token_embedding.weight.dtype)
        else:
            self.temp_token_embedding.weight.data[token_ids].zero_()
@@ -70,13 +79,13 @@ class ManagedCLIPTextEmbeddings(CLIPTextEmbeddings):
    def make_permanent(self):
        self.token_embedding.weight.data[self.temp_token_ids] = self.temp_token_embedding.weight.data[self.temp_token_ids]
-        self.temp_token_ids = torch.tensor([])
+        self.temp_token_ids = torch.tensor([], dtype=torch.long)
    def get_embed(self, input_ids: Union[list[int], torch.LongTensor]):
        if isinstance(input_ids, list):
-            input_ids = torch.tensor(input_ids, device=self.token_embedding.weight.device)
+            input_ids = torch.tensor(input_ids, device=self.token_embedding.weight.device, dtype=torch.long)
-        mask = torch.isin(input_ids, torch.tensor(self.temp_token_ids, device=input_ids.device))
+        mask = torch.isin(input_ids, self.temp_token_ids.to(input_ids.device))
        embeds = self.token_embedding(input_ids)
        embeds[mask] = self.temp_token_embedding(input_ids)[mask]