๐ฎ๐ฉ Deteksi Clickbait Bahasa Indonesia (DistilBERT - TensorFlow)
Model ini adalah DistilBERT yang di-fine-tune untuk klasifikasi biner judul berita berbahasa Indonesia (clickbait vs. non-clickbait).
Model ini adalah model murni TensorFlow yang di-fine-tune dari cahya/distilbert-base-indonesian.
๐ Dataset
Model ini dilatih menggunakan dataset CLICK-ID, sebuah dataset novel untuk judul clickbait berbahasa Indonesia.
- Publikasi: CLICK-ID: A novel dataset for Indonesian clickbait headlines
- Penulis: Andika William, Yunita Sari
- DOI: 10.1016/j.dib.2020.106231
๐ Hasil Evaluasi (Evaluation Results)
Model ini dievaluasi pada set evaluasi dari dataset CLICK-ID dan mencapai hasil sebagai berikut:
- Akurasi: 0.91 (91%)
- Precision (rata-rata): 0.91 (91%)
- Recall (rata-rata): 0.91 (91%)
- F1-Score (rata-rata): 0.91 (91%)
โ๏ธ Prosedur Pelatihan (Training Procedure)
- Model Dasar (Base Model):
cahya/distilbert-base-indonesian - Waktu Pelatihan (Training Time): 8.79 menit
- Optimizer:
Adam - Learning Rate:
9e-6(epsilon1e-11) - Epochs: 50 (Maksimal)
- Callback:
EarlyStopping(monitor:val_accuracy, patience: 10)
โฑ๏ธ Kinerja Inferensi (Inference Performance)
Pengujian inferensi dilakukan pada 1723 sampel data:
- Total Waktu: 146.20 detik
- Rata-rata Latency: 0.08 detik/sampel
- Throughput: 707.14 sampel/menit
โ Cara Penggunaan (Usage)
Karena model ini adalah model murni TensorFlow (TF) dan memiliki konfigurasi lama (TF 2.10), cara paling stabil untuk menggunakannya di transformers modern adalah dengan memuat model TF secara eksplisit seperti di bawah ini.
from transformers import pipeline, TFDistilBertForSequenceClassification, DistilBertTokenizer
import torch
model_path = "Rasyy/distilbert_indonesian_news_clickbait_detection"
print("๐น Memuat tokenizer & model TensorFlow...")
tokenizer = DistilBertTokenizer.from_pretrained(model_path)
model = TFDistilBertForSequenceClassification.from_pretrained(model_path)
print("๐น Membuat pipeline...")
pipe = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
framework="tf"
)
print("\nโ
Pipeline berhasil dimuat!\n")
texts = [
"Selamat! Anda memenangkan hadiah besar, klik di sini untuk klaim.",
"Pemerintah mengumumkan kebijakan baru untuk mendukung ekonomi nasional.",
"Sungguh Mengejutkan! Artis Terkenal Ini Ternyata..."
]
for text in texts:
result = pipe(text)[0]
label = "LABEL_0"
score = result['score']
print(f"Teks: {text}")
print(f"Hasil: {label} (Skor: {score:.4f})\n")
- Downloads last month
- 5
Model tree for Rasyy/distilbert_indonesian_news_clickbait_detection
Base model
cahya/distilbert-base-indonesianEvaluation results
- accuracy on CLICK-ID (Evaluation Split)self-reported0.910
- f1 on CLICK-ID (Evaluation Split)self-reported0.910
- precision on CLICK-ID (Evaluation Split)self-reported0.910
- recall on CLICK-ID (Evaluation Split)self-reported0.910