LT-NER-modernBERT modelio kortelė (LT) / Model Card for LT-NER-modernBERT (EN)
Turinys / Table of contents
- Modelio informacija (LT) / Model Details (EN)
- Kaip pradėti naudoti modelį (LT) / How to Get Started with the Model (EN)
- Naudojimo sritys (LT) / Uses (EN)
- Mokymo detalės (LT) / Training Details (EN)
- Įvertinimas (LT) / Evaluation (EN)
- Citavimas (LT) / Citation (EN)
- Licencija (LT) / License (EN)
Modelio informacija
Modelio pavadinimas: LT-NER-modernBERT
Bazinis modelis: VSSA-SDSA/LT-MLKM-modernBERT
Architektūra: ModernBERT (NVIDIA)
Užduotis: Įvardytųjų esybių atpažinimas (NER)
Modelio aprašas:
LT-NER-modernBERT – tai lietuvių kalbai pritaikytas ModernBERT modelis, specializuotas įvardytųjų esybių atpažinimo (NER) užduotims. Modelis sukurtas remiantis LT-MLKM-modernBERT architektūra ir papildomai išmokytas su lietuviškąja MultiLeg duomenyno dalimi, daugiausia dėmesio skiriant esybių (asmenų, organizacijų, vietovardžių ir kt.) atpažinimui lietuviškuose teisės tekstuose.
Duomenų rinkinys apima šias esybes (žr. lentelę):
| Žyma | Aprašas |
|---|---|
| PER | Asmens vardas, pavardė, inicialas, pravardė, slapyvardis, vartotojo vardas |
| IDNUM | Įvairūs identifikaciniai numeriai ir kodai, pvz., paso numeriai, vairuotojo pažymėjimai, transporto priemonių numeriai, faksas, telefono numeriai ir panašūs unikalūs identifikatoriai |
| LOC | Adresai, šalys, regionai, miestai, gatvės, žymūs pastatai ar kitos vietos |
| ORG | Konkretus (įvardytas) juridinis asmuo: įmonė, įstaiga ar dviejų ir daugiau asmenų organizacija, turinti tam tikrą tikslą |
| URL | URL adresas arba pagrindinio kompiuterio (hostname) pavadinimas |
| DATE | Diena, mėnuo ar metai |
| AMOUNT_VALUE | Dažniausiai vartojama kartu su AMOUNT_UNIT, nurodant skaitinę reikšmę, pvz., amžių, ūgį, procentus ar pinigų sumas |
| AMOUNT_UNIT | Nustatytas kiekio vienetas (ilgio, laiko, šilumos, vertės ir pan.), naudojamas kaip matavimo standartas |
| NATIONALITY | Asmens tautybė, etniškumas, kalba arba pilietybė |
| PROFESSION | Asmens pareigų pavadinimai ar laipsniai |
| TITLE | Įvardyti meno, kūrybos darbai, renginiai |
Papildomas mokymas atliktas naudojant ModernBERT-base modelį teksto vienetų klasifikavimui, optimizuojant parametrus aukštam F1 rodikliui lietuviško NER užduotyse. Modelis efektyviai identifikuoja ir kategorizuoja esybes lietuviškuose tekstuose, ypač tinkamas taikymams su teisiniais, valstybiniais ir viešojo sektoriaus duomenimis.
Papildomam mokymui naudotas kontrolinis taškas (checkpoint):VSSA-SDSA/LT-MLKM-modernBERT
Papildomo mokymo saugykla:
https://github.com/VSSA-AtvirasKodas-LT/LT_AI-NER
Kaip pradėti naudoti modelį
Šį modelį galite naudoti lietuviškam NER (angl. inference) su Hugging Face transformers biblioteka.
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification
model_name = "VSSA-SDSA/LT-NER-modernBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "Lietuvos Respublikos Prezidentas Gitanas Nausėda susitiko su Europos Komisijos nare."
inputs = tokenizer(
text,
return_tensors="pt",
truncation=True,
return_offsets_mapping=True
)
offsets = inputs.pop("offset_mapping")
inputs.pop("token_type_ids", None)
with torch.no_grad():
outputs = model(**inputs)
pred_ids = torch.argmax(outputs.logits, dim=-1)[0].tolist()
labels = [model.config.id2label[i] for i in pred_ids]
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
print("NER Predictions:")
for token, label in zip(tokens, labels):
if token in ["[CLS]", "[SEP]", "[PAD]"]:
continue
decoded = tokenizer.convert_tokens_to_string([token]).strip()
if not decoded:
continue
print(f"{decoded:<20} --> {label}")
Naudojimo sritys
Numatyta paskirtis
- Įvardytųjų esybių atpažinimas (NER) lietuvių kalbos tekstuose.
- Esybių, tokių kaip asmenys, organizacijos, vietovės, teisės aktai ir pan., identifikavimas.
- Taikymai: teisinių dokumentų apdorojimas, informacijos išgavimas, viešojo sektoriaus analitika.
Apribojimai
- Modelis optimizuotas lietuvių kalbos teisiniams ir formaliems tekstams; veikimas gali prastėti su neformalia ar tarmiška kalba.
- Modelis nėra skirtas daugiakalėms ar generatyvioms užduotims.
Mokymo detalės
- Naudotas duomenų rinkinys: MultiLeg Lithuanian dataset
Šis duomenų rinkinys sudarytas iš lietuviškų teisinių tekstų su pažymėtomis įvardytosiomis esybėmis (organizacijos, asmenys, vietovės, teisės aktai ir kt.). Jis yra daugiakalbio MultiLeg projekto dalis, orientuotas į Europos teisinių tekstų supratimą.
Papildomo mokymo konfigūracija
model_checkpoint: VSSA-SDSA/LT-MLKM-modernBERT
output_dir: output_modernbert_rc1
trainer_output_dir: output_modernbert_rc1/model
train_dir: data/conll_train/
test_dir: data/conll_test/
seed: 42
cross_validation: false
cross_validation_folds: 5
training:
num_epochs: 10
learning_rate: 2e-5
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
weight_decay: 0.01
logging_steps: 10
eval_strategy: epoch
save_strategy: epoch
save_total_limit: 2
gradient_accumulation_steps: 1
warmup_ratio: 0.0
fp16: true
Optimizatorius: AdamW
Nuostolių funkcija: Kryžminė entropija
Tikslumas: fp16 (mišrus tikslumas)
Aplinka: Hugging Face Transformers (v4.54.1)
Aparatinė įranga: 1× NVIDIA RTX 3090 GPU
Įvertinimas
Įvertinimui buvo naudotas MultiLeg duomenų rinkinys, daugiausia dėmesio skiriant asmenų, organizacijų ir vietovių aptikimui teisės tekstuose.
Vertinimo metrika
| Metrikos tipas | Preciziškumas | Iškvietimas | F1 rodiklis | MCC |
|---|---|---|---|---|
| Tikslus sutapimas | 0.913 | 0.843 | 0.876 | – |
| Persidengimas | 0.947 | 0.872 | 0.908 | – |
| Sąjungos (union) pagrindu | 0.949 | 0.871 | 0.908 | 0.935 |
Citavimas
Jei naudojate LT-NER-modernBERT ar bet kurią šios saugyklos dalį tyrimuose ar versle, cituokite taip (BibTeX):
@misc{SDSA_LT-NER-modernBERT_2025,
title= {{LT-NER-modernBERT}: Lithuanian NER ModernBERT Model},
author = {{State Digital Solutions Agency (SDSA)}},
year = {2025},
howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT-NER-modernBERT}},
note = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}
Licencija
Autorių teisės (c) 2025 Valstybės skaitmeninių sprendimų agentūra (VSSA) Sukūrė: Vytauto Didžiojo universitetas (VDU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas Licencija: Apache License, 2.0 versija
Pastaba: Finansuojama iš Ekonomikos gaivinimo ir atsparumo didinimo priemonės „Naujos kartos Lietuva“ plano
Model Card for LT-NER-modernBERT (EN)
Model Details
Model name: LT-NER-modernBERT
Base model: VSSA-SDSA/LT-MLKM-modernBERT
Architecture: ModernBERT (NVIDIA)
Task: Named Entity Recognition (NER)
Model description:
LT-NER-modernBERT is a fine-tuned Lithuanian ModernBERT model specialized for Named Entity Recognition (NER) tasks. The model builds on the base architecture of LT-MLKM-modernBERT and was fine-tuned on the Lithuanian portion of the MultiLeg dataset, focusing on recognizing entities in Lithuanian legal texts such as persons, organizations, and locations.
The dataset includes the following entities, shown in the table below.
| Tag | Description |
|---|---|
| PER | A person’s name, surname, initial, nickname, alias, username |
| IDNUM | Various ID numbers and codes, such as passport numbers, driver’s licenses, vehicle license numbers, fax, telephone numbers, and similar unique identifiers |
| LOC | Address strings, countries, regions, cities, streets, famous buildings or other places |
| ORG | Specific (named) organization: a company, institution, or association of two or more people having a particular purpose |
| URL | An URL address, or a hostname |
| DATE | A day, month, or a year |
| AMOUNT_VALUE | Usually used together with AMOUNT_UNIT to indicate some numeric attribute, such as age, height, percentages, or money |
| AMOUNT_UNIT | A determinate quantity (as of length, time, heat, or value) adopted as a standard of measurement |
| NATIONALITY | Nationality, ethnicity, language, or citizenship of a person |
| PROFESSION | Job titles or ranks of a person |
| TITLE | Named art, creative works, events |
The fine-tuning process was conducted using ModernBERT-base with transformer-based token classification heads and trained under optimized parameters for high F1 performance on Lithuanian NER tasks. The model effectively identifies and categorizes named entities in Lithuanian text, particularly suited for applications involving legal, governmental, and public sector data.
Model checkpoint used for fine-tuning:VSSA-SDSA/LT-MLKM-modernBERT
Fine-tuning source repository:
https://github.com/VSSA-AtvirasKodas-LT/LT_AI-NER
How to Get Started with the Model
You can use this model for Lithuanian NER inference with the Hugging Face transformers library.
Example code adapted from the inference notebook:
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification
model_name = "VSSA-SDSA/LT-NER-modernBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "Lietuvos Respublikos Prezidentas Gitanas Nausėda susitiko su Europos Komisijos nare."
inputs = tokenizer(
text,
return_tensors="pt",
truncation=True,
return_offsets_mapping=True
)
offsets = inputs.pop("offset_mapping")
inputs.pop("token_type_ids", None)
with torch.no_grad():
outputs = model(**inputs)
pred_ids = torch.argmax(outputs.logits, dim=-1)[0].tolist()
labels = [model.config.id2label[i] for i in pred_ids]
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
print("NER Predictions:")
for token, label in zip(tokens, labels):
if token in ["[CLS]", "[SEP]", "[PAD]"]:
continue
decoded = tokenizer.convert_tokens_to_string([token]).strip()
if not decoded:
continue
print(f"{decoded:<20} --> {label}")
Uses
Intended use
- Named Entity Recognition (NER) for Lithuanian text.
- Identification of entities such as persons, organizations, locations, laws, etc.
- Applications include legal document processing, information extraction, and public sector analytics.
Limitations
- The model is optimized for Lithuanian legal and formal texts; performance may decrease on informal or dialectal text.
- The model is not intended for multilingual or generative use.
Training details
Dataset used: MultiLeg Lithuanian dataset
This dataset consists of Lithuanian legal texts annotated for named entities (organizations, persons, locations, legal acts, etc.). It is part of the multilingual MultiLeg project focusing on European legal text understanding.
Fine-tuning configuration
model_checkpoint: VSSA-SDSA/LT-MLKM-modernBERT
output_dir: output_modernbert_rc1
trainer_output_dir: output_modernbert_rc1/model
train_dir: data/conll_train/
test_dir: data/conll_test/
seed: 42
cross_validation: false
cross_validation_folds: 5
training:
num_epochs: 10
learning_rate: 2e-5
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
weight_decay: 0.01
logging_steps: 10
eval_strategy: epoch
save_strategy: epoch
save_total_limit: 2
gradient_accumulation_steps: 1
warmup_ratio: 0.0
fp16: true
Optimiser: AdamW
Loss function: Cross-entropy loss
Precision: fp16 (mixed precision)
Framework: Hugging Face Transformers (v4.54.1)
Hardware: 1x NVIDIA RTX 3090 GPU
Evaluation
Evaluation was conducted on the Lithuanian portion of the MultiLeg dataset, focusing on Named Entity Recognition (NER) tasks such as detecting persons, organizations, and locations in Lithuanian legal texts.
Evaluation Metrics
| Metric Type | Precision | Recall | F1-score | MCC |
|---|---|---|---|---|
| Exact match | 0.913 | 0.843 | 0.876 | – |
| Overlap | 0.947 | 0.872 | 0.908 | – |
| Union-based | 0.949 | 0.871 | 0.908 | 0.935 |
Error Analysis
The most common types of errors include:
- Ambiguous entity boundaries - especially between organization and person entities.
- Partial span mismatches - particularly in long multi-word legal titles.
- Overlapping entities - cases where legal act titles contain named persons or organizations.
Despite these challenges, the model achieves strong performance across all NER metrics, demonstrating robust generalization on Lithuanian legal texts.
Citation
If you use LT-NER-modernBERT or any part of this repository in your research or deployment, please cite as follows (BibTeX):
@misc{SDSA_LT-NER-modernBERT_2025,
title= {{LT-NER-modernBERT}: Lithuanian NER ModernBERT Model},
author = {{State Digital Solutions Agency (SDSA)}},
year = {2025},
howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT-NER-modernBERT}},
note = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}
License
Copyright (c) 2025 State Digital Solutions Agency (SDSA)
Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas
Licensed under the Apache License, Version 2.0
Notice: Funded by Economic Recovery and Resilience Facility "New Generation Lithuania" Plan
- Downloads last month
- 64