LT-NER-modernBERT modelio kortelė (LT) / Model Card for LT-NER-modernBERT (EN)

Turinys / Table of contents

Modelio informacija

Modelio pavadinimas: LT-NER-modernBERT

Bazinis modelis: VSSA-SDSA/LT-MLKM-modernBERT

Architektūra: ModernBERT (NVIDIA)

Užduotis: Įvardytųjų esybių atpažinimas (NER)

Modelio aprašas:
LT-NER-modernBERT – tai lietuvių kalbai pritaikytas ModernBERT modelis, specializuotas įvardytųjų esybių atpažinimo (NER) užduotims. Modelis sukurtas remiantis LT-MLKM-modernBERT architektūra ir papildomai išmokytas su lietuviškąja MultiLeg duomenyno dalimi, daugiausia dėmesio skiriant esybių (asmenų, organizacijų, vietovardžių ir kt.) atpažinimui lietuviškuose teisės tekstuose.

Duomenų rinkinys apima šias esybes (žr. lentelę):

Žyma Aprašas
PER Asmens vardas, pavardė, inicialas, pravardė, slapyvardis, vartotojo vardas
IDNUM Įvairūs identifikaciniai numeriai ir kodai, pvz., paso numeriai, vairuotojo pažymėjimai, transporto priemonių numeriai, faksas, telefono numeriai ir panašūs unikalūs identifikatoriai
LOC Adresai, šalys, regionai, miestai, gatvės, žymūs pastatai ar kitos vietos
ORG Konkretus (įvardytas) juridinis asmuo: įmonė, įstaiga ar dviejų ir daugiau asmenų organizacija, turinti tam tikrą tikslą
URL URL adresas arba pagrindinio kompiuterio (hostname) pavadinimas
DATE Diena, mėnuo ar metai
AMOUNT_VALUE Dažniausiai vartojama kartu su AMOUNT_UNIT, nurodant skaitinę reikšmę, pvz., amžių, ūgį, procentus ar pinigų sumas
AMOUNT_UNIT Nustatytas kiekio vienetas (ilgio, laiko, šilumos, vertės ir pan.), naudojamas kaip matavimo standartas
NATIONALITY Asmens tautybė, etniškumas, kalba arba pilietybė
PROFESSION Asmens pareigų pavadinimai ar laipsniai
TITLE Įvardyti meno, kūrybos darbai, renginiai

Papildomas mokymas atliktas naudojant ModernBERT-base modelį teksto vienetų klasifikavimui, optimizuojant parametrus aukštam F1 rodikliui lietuviško NER užduotyse. Modelis efektyviai identifikuoja ir kategorizuoja esybes lietuviškuose tekstuose, ypač tinkamas taikymams su teisiniais, valstybiniais ir viešojo sektoriaus duomenimis.

Papildomam mokymui naudotas kontrolinis taškas (checkpoint):
VSSA-SDSA/LT-MLKM-modernBERT

Papildomo mokymo saugykla:
https://github.com/VSSA-AtvirasKodas-LT/LT_AI-NER


Kaip pradėti naudoti modelį

Šį modelį galite naudoti lietuviškam NER (angl. inference) su Hugging Face transformers biblioteka.

import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

model_name = "VSSA-SDSA/LT-NER-modernBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

text = "Lietuvos Respublikos Prezidentas Gitanas Nausėda susitiko su Europos Komisijos nare."
inputs = tokenizer(
    text,
    return_tensors="pt",
    truncation=True,
    return_offsets_mapping=True
)
offsets = inputs.pop("offset_mapping")
inputs.pop("token_type_ids", None)

with torch.no_grad():
    outputs = model(**inputs)

pred_ids = torch.argmax(outputs.logits, dim=-1)[0].tolist()
labels = [model.config.id2label[i] for i in pred_ids]
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

print("NER Predictions:")
for token, label in zip(tokens, labels):
    if token in ["[CLS]", "[SEP]", "[PAD]"]:
        continue
    decoded = tokenizer.convert_tokens_to_string([token]).strip()
    if not decoded:
        continue
    print(f"{decoded:<20} --> {label}")

Naudojimo sritys

Numatyta paskirtis

  • Įvardytųjų esybių atpažinimas (NER) lietuvių kalbos tekstuose.
  • Esybių, tokių kaip asmenys, organizacijos, vietovės, teisės aktai ir pan., identifikavimas.
  • Taikymai: teisinių dokumentų apdorojimas, informacijos išgavimas, viešojo sektoriaus analitika.

Apribojimai

  • Modelis optimizuotas lietuvių kalbos teisiniams ir formaliems tekstams; veikimas gali prastėti su neformalia ar tarmiška kalba.
  • Modelis nėra skirtas daugiakalėms ar generatyvioms užduotims.

Mokymo detalės

Šis duomenų rinkinys sudarytas iš lietuviškų teisinių tekstų su pažymėtomis įvardytosiomis esybėmis (organizacijos, asmenys, vietovės, teisės aktai ir kt.). Jis yra daugiakalbio MultiLeg projekto dalis, orientuotas į Europos teisinių tekstų supratimą.

Papildomo mokymo konfigūracija

model_checkpoint: VSSA-SDSA/LT-MLKM-modernBERT
output_dir: output_modernbert_rc1
trainer_output_dir: output_modernbert_rc1/model
train_dir: data/conll_train/
test_dir: data/conll_test/
seed: 42
cross_validation: false
cross_validation_folds: 5
training:
  num_epochs: 10
  learning_rate: 2e-5
  per_device_train_batch_size: 8
  per_device_eval_batch_size: 8
  weight_decay: 0.01
  logging_steps: 10
  eval_strategy: epoch
  save_strategy: epoch
  save_total_limit: 2
  gradient_accumulation_steps: 1
  warmup_ratio: 0.0
  fp16: true

Optimizatorius: AdamW
Nuostolių funkcija: Kryžminė entropija
Tikslumas: fp16 (mišrus tikslumas)
Aplinka: Hugging Face Transformers (v4.54.1)
Aparatinė įranga: 1× NVIDIA RTX 3090 GPU

Įvertinimas

Įvertinimui buvo naudotas MultiLeg duomenų rinkinys, daugiausia dėmesio skiriant asmenų, organizacijų ir vietovių aptikimui teisės tekstuose.

Vertinimo metrika

Metrikos tipas Preciziškumas Iškvietimas F1 rodiklis MCC
Tikslus sutapimas 0.913 0.843 0.876
Persidengimas 0.947 0.872 0.908
Sąjungos (union) pagrindu 0.949 0.871 0.908 0.935

Citavimas

Jei naudojate LT-NER-modernBERT ar bet kurią šios saugyklos dalį tyrimuose ar versle, cituokite taip (BibTeX):

@misc{SDSA_LT-NER-modernBERT_2025,
title= {{LT-NER-modernBERT}: Lithuanian NER ModernBERT Model},
author = {{State Digital Solutions Agency (SDSA)}},
year = {2025},
howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT-NER-modernBERT}},
note = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}

Licencija

Autorių teisės (c) 2025 Valstybės skaitmeninių sprendimų agentūra (VSSA) Sukūrė: Vytauto Didžiojo universitetas (VDU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas Licencija: Apache License, 2.0 versija

Pastaba: Finansuojama iš Ekonomikos gaivinimo ir atsparumo didinimo priemonės „Naujos kartos Lietuva“ plano

Model Card for LT-NER-modernBERT (EN)

Model Details

Model name: LT-NER-modernBERT

Base model: VSSA-SDSA/LT-MLKM-modernBERT

Architecture: ModernBERT (NVIDIA)

Task: Named Entity Recognition (NER)

Model description:
LT-NER-modernBERT is a fine-tuned Lithuanian ModernBERT model specialized for Named Entity Recognition (NER) tasks. The model builds on the base architecture of LT-MLKM-modernBERT and was fine-tuned on the Lithuanian portion of the MultiLeg dataset, focusing on recognizing entities in Lithuanian legal texts such as persons, organizations, and locations.

The dataset includes the following entities, shown in the table below.

Tag Description
PER A person’s name, surname, initial, nickname, alias, username
IDNUM Various ID numbers and codes, such as passport numbers, driver’s licenses, vehicle license numbers, fax, telephone numbers, and similar unique identifiers
LOC Address strings, countries, regions, cities, streets, famous buildings or other places
ORG Specific (named) organization: a company, institution, or association of two or more people having a particular purpose
URL An URL address, or a hostname
DATE A day, month, or a year
AMOUNT_VALUE Usually used together with AMOUNT_UNIT to indicate some numeric attribute, such as age, height, percentages, or money
AMOUNT_UNIT A determinate quantity (as of length, time, heat, or value) adopted as a standard of measurement
NATIONALITY Nationality, ethnicity, language, or citizenship of a person
PROFESSION Job titles or ranks of a person
TITLE Named art, creative works, events

The fine-tuning process was conducted using ModernBERT-base with transformer-based token classification heads and trained under optimized parameters for high F1 performance on Lithuanian NER tasks. The model effectively identifies and categorizes named entities in Lithuanian text, particularly suited for applications involving legal, governmental, and public sector data.

Model checkpoint used for fine-tuning:
VSSA-SDSA/LT-MLKM-modernBERT

Fine-tuning source repository:
https://github.com/VSSA-AtvirasKodas-LT/LT_AI-NER


How to Get Started with the Model

You can use this model for Lithuanian NER inference with the Hugging Face transformers library.

Example code adapted from the inference notebook:

import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

model_name = "VSSA-SDSA/LT-NER-modernBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "Lietuvos Respublikos Prezidentas Gitanas Nausėda susitiko su Europos Komisijos nare."

inputs = tokenizer(
    text,
    return_tensors="pt",
    truncation=True,
    return_offsets_mapping=True
)
offsets = inputs.pop("offset_mapping")
inputs.pop("token_type_ids", None)

with torch.no_grad():
    outputs = model(**inputs)

pred_ids = torch.argmax(outputs.logits, dim=-1)[0].tolist()
labels = [model.config.id2label[i] for i in pred_ids]
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

print("NER Predictions:")
for token, label in zip(tokens, labels):
    if token in ["[CLS]", "[SEP]", "[PAD]"]:
        continue
    decoded = tokenizer.convert_tokens_to_string([token]).strip()
    if not decoded:
        continue
    print(f"{decoded:<20} --> {label}")

Uses

Intended use

  • Named Entity Recognition (NER) for Lithuanian text.
  • Identification of entities such as persons, organizations, locations, laws, etc.
  • Applications include legal document processing, information extraction, and public sector analytics.

Limitations

  • The model is optimized for Lithuanian legal and formal texts; performance may decrease on informal or dialectal text.
  • The model is not intended for multilingual or generative use.

Training details

Dataset used: MultiLeg Lithuanian dataset

This dataset consists of Lithuanian legal texts annotated for named entities (organizations, persons, locations, legal acts, etc.). It is part of the multilingual MultiLeg project focusing on European legal text understanding.

Fine-tuning configuration

model_checkpoint: VSSA-SDSA/LT-MLKM-modernBERT
output_dir: output_modernbert_rc1
trainer_output_dir: output_modernbert_rc1/model
train_dir: data/conll_train/
test_dir: data/conll_test/
seed: 42
cross_validation: false
cross_validation_folds: 5

training:
  num_epochs: 10
  learning_rate: 2e-5
  per_device_train_batch_size: 8
  per_device_eval_batch_size: 8
  weight_decay: 0.01
  logging_steps: 10
  eval_strategy: epoch
  save_strategy: epoch
  save_total_limit: 2
  gradient_accumulation_steps: 1
  warmup_ratio: 0.0
  fp16: true

Optimiser: AdamW
Loss function: Cross-entropy loss
Precision: fp16 (mixed precision)
Framework: Hugging Face Transformers (v4.54.1)
Hardware: 1x NVIDIA RTX 3090 GPU

Evaluation

Evaluation was conducted on the Lithuanian portion of the MultiLeg dataset, focusing on Named Entity Recognition (NER) tasks such as detecting persons, organizations, and locations in Lithuanian legal texts.

Evaluation Metrics

Metric Type Precision Recall F1-score MCC
Exact match 0.913 0.843 0.876
Overlap 0.947 0.872 0.908
Union-based 0.949 0.871 0.908 0.935

Error Analysis

The most common types of errors include:

  • Ambiguous entity boundaries - especially between organization and person entities.
  • Partial span mismatches - particularly in long multi-word legal titles.
  • Overlapping entities - cases where legal act titles contain named persons or organizations.

Despite these challenges, the model achieves strong performance across all NER metrics, demonstrating robust generalization on Lithuanian legal texts.

Citation

If you use LT-NER-modernBERT or any part of this repository in your research or deployment, please cite as follows (BibTeX):

@misc{SDSA_LT-NER-modernBERT_2025,
title= {{LT-NER-modernBERT}: Lithuanian NER ModernBERT Model},
author = {{State Digital Solutions Agency (SDSA)}},
year = {2025},
howpublished = {\url{https://huggingface.co/VSSA-SDSA/LT-NER-modernBERT}},
note = {Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas}
}

License

Copyright (c) 2025 State Digital Solutions Agency (SDSA)

Developed by Vytautas Magnus University (VMU), UAB Neurotechnology, UAB Tilde informacinės technologijos, MB Krilas

Licensed under the Apache License, Version 2.0

Notice: Funded by Economic Recovery and Resilience Facility "New Generation Lithuania" Plan

Downloads last month
64
Safetensors
Model size
0.2B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support