논문 제목 → 학술대회 분류 LLM (IITP 실무 기반 경량 AI)

이 모델은 논문 제목을 입력하면 해당 논문이 발표될 가능성이 높은 학술대회를 예측하는 한국어 경량 LLM입니다.
Agent AI 활용 확산과 맞물려, 연구현장에서 자연어 기반의 분류 업무를 자동화할 수 있도록 실무 데이터를 기반으로 구축하였습니다.

본 프로젝트는 정보통신기획평가원(IITP)의 정책 수혜자로서, 실제 기관에서 직면한 '논문-학술대회 분류' 업무를 효율화하는 데 기여하고자 기획되었습니다.

🧠 Model Details

Base Model: google/gemma-3-1b-it
Fine-tuning method: LoRA (PEFT)
Language: Korean
Task: Classification (논문 제목 → 학술대회)
Developed by: 변정흠
Affiliation: 정보통신기획평가원(IITP) 업무 지원용 Test 모델
Fine-tuned on: 한국연구재단 학술대회 논문심사 데이터 (공개 CSV 활용)

🧾 Dataset

원본: 한국연구재단_학술대회논문심사_20241231.csv
구성: {"text": 논문 제목, "label": 학술대회명} 형태의 JSONL 변환
샘플 수: 약 9,000건
전처리 방식: [INST] 논문 제목: {제목} 어떤 학술대회명인가요? [/INST] {학술대회명} 형식으로 Prompt 생성

🚀 Model Usage

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained("JeongHeum/gemma3-korean-academic-classifier")
tokenizer = AutoTokenizer.from_pretrained("JeongHeum/gemma3-korean-academic-classifier")

prompt = "[INST] 논문 제목: 딥러닝 기반 한국어 음성 인식 시스템 [/INST]"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=20)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# 예시 출력: 한국음성처리학회

Downloads last month: 2

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for djByun/TPGTP

Base model

google/gemma-3-1b-pt

Finetuned

google/gemma-3-1b-it

Adapter

(150)

this model