🇮🇩 Deteksi Clickbait Bahasa Indonesia (DistilBERT - TensorFlow)

Model ini adalah DistilBERT yang di-fine-tune untuk klasifikasi biner judul berita berbahasa Indonesia (clickbait vs. non-clickbait).

Model ini adalah model murni TensorFlow yang di-fine-tune dari cahya/distilbert-base-indonesian.

📊 Dataset

Model ini dilatih menggunakan dataset CLICK-ID, sebuah dataset novel untuk judul clickbait berbahasa Indonesia.

Publikasi: CLICK-ID: A novel dataset for Indonesian clickbait headlines
Penulis: Andika William, Yunita Sari
DOI: 10.1016/j.dib.2020.106231

📈 Hasil Evaluasi (Evaluation Results)

Model ini dievaluasi pada set evaluasi dari dataset CLICK-ID dan mencapai hasil sebagai berikut:

Akurasi: 0.91 (91%)
Precision (rata-rata): 0.91 (91%)
Recall (rata-rata): 0.91 (91%)
F1-Score (rata-rata): 0.91 (91%)

⚙️ Prosedur Pelatihan (Training Procedure)

Model Dasar (Base Model): cahya/distilbert-base-indonesian
Waktu Pelatihan (Training Time): 8.79 menit
Optimizer: Adam
Learning Rate: 9e-6 (epsilon 1e-11)
Epochs: 50 (Maksimal)
Callback: EarlyStopping (monitor: val_accuracy, patience: 10)

⏱️ Kinerja Inferensi (Inference Performance)

Pengujian inferensi dilakukan pada 1723 sampel data:

Total Waktu: 146.20 detik
Rata-rata Latency: 0.08 detik/sampel
Throughput: 707.14 sampel/menit

✅ Cara Penggunaan (Usage)

Karena model ini adalah model murni TensorFlow (TF) dan memiliki konfigurasi lama (TF 2.10), cara paling stabil untuk menggunakannya di transformers modern adalah dengan memuat model TF secara eksplisit seperti di bawah ini.

from transformers import pipeline, TFDistilBertForSequenceClassification, DistilBertTokenizer
import torch

model_path = "Rasyy/distilbert_indonesian_news_clickbait_detection"

print("🔹 Memuat tokenizer & model TensorFlow...")

tokenizer = DistilBertTokenizer.from_pretrained(model_path)

model = TFDistilBertForSequenceClassification.from_pretrained(model_path)

print("🔹 Membuat pipeline...")
pipe = pipeline(
    "text-classification",
    model=model,
    tokenizer=tokenizer,
    framework="tf"
)

print("\n✅ Pipeline berhasil dimuat!\n")

texts = [
    "Selamat! Anda memenangkan hadiah besar, klik di sini untuk klaim.",
    "Pemerintah mengumumkan kebijakan baru untuk mendukung ekonomi nasional.",
    "Sungguh Mengejutkan! Artis Terkenal Ini Ternyata..."
]

for text in texts:
    result = pipe(text)[0]

    label = "LABEL_0"
    score = result['score']
    
    print(f"Teks: {text}")
    print(f"Hasil: {label} (Skor: {score:.4f})\n")

Downloads last month: 5

Model tree for Rasyy/distilbert_indonesian_news_clickbait_detection

Base model

cahya/distilbert-base-indonesian

Finetuned

(9)

this model

Evaluation results

accuracy on CLICK-ID (Evaluation Split)
self-reported

0.910
f1 on CLICK-ID (Evaluation Split)
self-reported

0.910
precision on CLICK-ID (Evaluation Split)
self-reported

0.910
recall on CLICK-ID (Evaluation Split)
self-reported

0.910