add files

Files changed (13) hide show

.gitattributes +1 -0
.gitignore +3 -0
README.md +26 -0
config.json +3 -0
spam-classifier/config.json +3 -0
spam-classifier/model.safetensors +3 -0
spam-classifier/sentencepiece.bpe.model +3 -0
spam-classifier/special_tokens_map.json +3 -0
spam-classifier/tokenizer.json +3 -0
spam-classifier/tokenizer_config.json +3 -0
special_tokens_map.json +3 -0
tokenizer_config.json +3 -0
training.py +62 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.json filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+results
+logs
+.DS_Store

README.md CHANGED Viewed

@@ -1,3 +1,29 @@
 ---
 license: apache-2.0
 ---

 ---
 license: apache-2.0
 ---
+# SPAM Mail Classifier
+This model is fine-tuned from `microsoft/Multilingual-MiniLM-L12-H384` to classify email subjects as SPAM or NOSPAM.
+## Model Details
+- **Base model**: `microsoft/Multilingual-MiniLM-L12-H384`
+- **Fine-tuned for**: Text classification
+- **Number of classes**: 2 (SPAM, NOSPAM)
+- **Languages**: Multilingual
+## Usage
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+model_name = "Goodmotion/spam-mail-classifier"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSequenceClassification.from_pretrained(model_name)
+text = "Félicitations ! Vous avez gagné un iPhone."
+inputs = tokenizer(text, return_tensors="pt")
+outputs = model(**inputs)
+print(outputs.logits)

config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e88f8a89ca5b10b211317283d2d7e7eae566ac99298bc8b64c3ece9a8c62b1e
+size 408

spam-classifier/config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4da19d2b12d022afe7e2b6f0534f39c2087f8005e0251f603602dac87edcbf01
+size 758

spam-classifier/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12d1982a746320f27454128dfe77b87347cfdb6471d4761d9a72bff8bb6e47bd
+size 470641664

spam-classifier/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

spam-classifier/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06e405a36dfe4b9604f484f6a1e619af1a7f7d09e34a8555eb0b77b66318067f
+size 280

spam-classifier/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b74659c780d49afad7a7b9799868f75cbd3014fb6c34956e85a793028d38094a
+size 17098251

spam-classifier/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:511d98e87c7de2d3b649bea83a6cf1e028b9364457506277f114b57cdfb5b1a2
+size 1201

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2207e01f191626729e08582912c9bf23876883924839b2bbee97489f804e00e
+size 125

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eeb6851d685bd6fbc691b44583cb8a367d217341b8413204ae34ebcb2e0bdc92
+size 206

training.py ADDED Viewed

	@@ -0,0 +1,62 @@

+from transformers import AutoModelForSequenceClassification, AutoTokenizer, TrainingArguments, Trainer
+from datasets import load_dataset
+model_name = "microsoft/Multilingual-MiniLM-L12-H384"
+dataset = load_dataset("Goodmotion/spam-mail")
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# insert labels
+def encode_labels(data):
+    label_map = {"SPAM": 1, "NOSPAM": 0}
+    data["label"] = label_map[data["label"]]
+    return data
+def tokenize_data(data):
+    return tokenizer(
+        data["text"],
+        padding="max_length",
+        truncation=True,
+        max_length=128
+    )
+# tokenize the dataset
+tokenized_dataset = dataset.map(tokenize_data, batched=True)
+# define the model
+model = AutoModelForSequenceClassification.from_pretrained(
+    "microsoft/Multilingual-MiniLM-L12-H384",
+    num_labels=2
+)
+model.classifier.weight.data.normal_(mean=0.0, std=0.02)
+model.classifier.bias.data.zero_()
+training_args = TrainingArguments(
+    output_dir="./results",
+    # speed training
+    learning_rate=5e-5,
+    # 16 examples per device
+    per_device_train_batch_size=16,
+    # 3 times on the same data
+    num_train_epochs=3,
+    # weight coef
+    weight_decay=0.01,
+    logging_dir='./logs'
+)
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset["train"],
+)
+# train the model
+trainer.train()
+# save the model
+model.save_pretrained("./spam-classifier")
+# save the tokenizer
+tokenizer.save_pretrained("./spam-classifier")