๐Ÿ‡ฎ๐Ÿ‡ฉ Deteksi Clickbait Bahasa Indonesia (DistilBERT - TensorFlow)

Model ini adalah DistilBERT yang di-fine-tune untuk klasifikasi biner judul berita berbahasa Indonesia (clickbait vs. non-clickbait).

Model ini adalah model murni TensorFlow yang di-fine-tune dari cahya/distilbert-base-indonesian.

๐Ÿ“Š Dataset

Model ini dilatih menggunakan dataset CLICK-ID, sebuah dataset novel untuk judul clickbait berbahasa Indonesia.

  • Publikasi: CLICK-ID: A novel dataset for Indonesian clickbait headlines
  • Penulis: Andika William, Yunita Sari
  • DOI: 10.1016/j.dib.2020.106231

๐Ÿ“ˆ Hasil Evaluasi (Evaluation Results)

Model ini dievaluasi pada set evaluasi dari dataset CLICK-ID dan mencapai hasil sebagai berikut:

  • Akurasi: 0.91 (91%)
  • Precision (rata-rata): 0.91 (91%)
  • Recall (rata-rata): 0.91 (91%)
  • F1-Score (rata-rata): 0.91 (91%)

โš™๏ธ Prosedur Pelatihan (Training Procedure)

  • Model Dasar (Base Model): cahya/distilbert-base-indonesian
  • Waktu Pelatihan (Training Time): 8.79 menit
  • Optimizer: Adam
  • Learning Rate: 9e-6 (epsilon 1e-11)
  • Epochs: 50 (Maksimal)
  • Callback: EarlyStopping (monitor: val_accuracy, patience: 10)

โฑ๏ธ Kinerja Inferensi (Inference Performance)

Pengujian inferensi dilakukan pada 1723 sampel data:

  • Total Waktu: 146.20 detik
  • Rata-rata Latency: 0.08 detik/sampel
  • Throughput: 707.14 sampel/menit

โœ… Cara Penggunaan (Usage)

Karena model ini adalah model murni TensorFlow (TF) dan memiliki konfigurasi lama (TF 2.10), cara paling stabil untuk menggunakannya di transformers modern adalah dengan memuat model TF secara eksplisit seperti di bawah ini.

from transformers import pipeline, TFDistilBertForSequenceClassification, DistilBertTokenizer
import torch

model_path = "Rasyy/distilbert_indonesian_news_clickbait_detection"

print("๐Ÿ”น Memuat tokenizer & model TensorFlow...")

tokenizer = DistilBertTokenizer.from_pretrained(model_path)

model = TFDistilBertForSequenceClassification.from_pretrained(model_path)

print("๐Ÿ”น Membuat pipeline...")
pipe = pipeline(
    "text-classification",
    model=model,
    tokenizer=tokenizer,
    framework="tf"
)

print("\nโœ… Pipeline berhasil dimuat!\n")

texts = [
    "Selamat! Anda memenangkan hadiah besar, klik di sini untuk klaim.",
    "Pemerintah mengumumkan kebijakan baru untuk mendukung ekonomi nasional.",
    "Sungguh Mengejutkan! Artis Terkenal Ini Ternyata..."
]

for text in texts:
    result = pipe(text)[0]

    label = "LABEL_0"
    score = result['score']
    
    print(f"Teks: {text}")
    print(f"Hasil: {label} (Skor: {score:.4f})\n")
Downloads last month
5
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Model tree for Rasyy/distilbert_indonesian_news_clickbait_detection

Finetuned
(9)
this model

Evaluation results