Justina Clarus 24B — safetensors (v2)

Versão 2. Reforçada com mais sessões de treino e mais pares Q/A em PT-PT, mantendo foco no CPC e no CC e temas conexos.

O que mudou na v2

Aumento do número de pares e iterações de treino.
Maior consistência estilística em PT-PT técnico e jurídico.
Mais robustez a variações de pergunta dentro do mesmo domínio.

Generalização e não-memorização

O modelo não memoriza verbatim todas as respostas. Retém padrões gerais e pode aproximar-se de formulações consistentes.
Aprendeu formato, tom e padrões das tuas perguntas e respostas formais em PT-PT com jargões específicos (jurídico, técnico). Responde de forma consistente nesse estilo, mesmo para perguntas diferentes das do dataset. Útil para: aplicações que exigem respostas consistentes com o tom do dataset, sem exigir reprodução literal. Excelente para RAG.
Capta padrões semânticos e sintáticos do corpus jurídico PT-PT. Para perguntas idênticas ou muito próximas, as respostas tendem a ser precisas (>80–90% de equivalência semântica, mesmo sem verbatim). Útil para: cenários com perguntas variadas mas dentro do mesmo tema jurídico. Melhor generalização.

Destinos preferenciais

Este modelo é base para:

fine-tune dirigido a matérias legais específicas;
integração em RAG;
uso de contexto dado no prompt (leis, interpretações, factos) para compor texto jurídico.

Cobertura jurídica

CPC: espécies de ações, processos, competência, recursos, caso julgado.
CC: obrigações, responsabilidade civil, direitos de personalidade.
Reforços: abuso de direito; família e menores; liberdade sexual; ações populares.
Contexto adicional (seletivo): CPP, CP, CRP, CEDH, RGPD (+ Lei 58/2019), Lei 112/2009, Lei 130/2015, LAV, Reg. (UE) 1215/2012, Reg. (UE) 2019/1111, Dir. 2004/25/CE, CVM 194/196.

Dados e esquema

Treino em JSONL com pares Q/A autossuficientes.

Schema {"messages":[{"role":"user","content":"…"},{"role":"assistant","content":"…"}]}

Exemplos {"messages":[{"role":"user","content":"Quais são as espécies fundamentais de ações no Direito Processual Civil segundo o artigo 10.º, n.º 1 CPC?"},{"role":"assistant","content":"Segundo o artigo 10.º, n.º 1 CPC, distinguem-se duas espécies fundamentais de ações no esquema do processo civil."}]} {"messages":[{"role":"user","content":"O que caracteriza a ação declarativa?"},{"role":"assistant","content":"A ação declarativa pode ser de simples apreciação, de condenação ou constitutiva (art. 10.º, n.os 2 e 3 CPC), pedindo-se em cada subespécie providências distintas."}]}

Utilização

Distribuição em safetensors para transformers.

Python (FP16/BF16) from transformers import AutoTokenizer, AutoModelForCausalLM import torch repo = "VirtuoTuring/justina_clarus-24b-safetensors" tok = AutoTokenizer.from_pretrained(repo, use_fast=True) dtype = torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16 model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=dtype, device_map="auto") prompt = "Pergunta: Indique as espécies de ações no art. 10.º, n.º 1 CPC.\nResposta:" out = model.generate(**tok(prompt, return_tensors="pt").to(model.device), max_new_tokens=400, temperature=0.2, top_p=0.9) print(tok.decode(out[0], skip_special_tokens=True))

Python 4-bit (bitsandbytes) from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig import torch bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16) tok = AutoTokenizer.from_pretrained(repo, use_fast=True) model = AutoModelForCausalLM.from_pretrained(repo, quantization_config=bnb, device_map="auto")

Boas práticas

Cite artigos e números quando aplicável.
Valide com fontes oficiais. Revisão humana obrigatória em peças processuais.
Para produção, preferir temperature baixa e limites explícitos de tokens.

Limitações

Janela de contexto ~4k tokens.
Não substitui profissionais forenses nem decisões dos tribunais.
Pode falhar em regimes especiais ou alterações legislativas recentes.

Licença

Virtuo 1.0. Uso, modificação e redistribuição, incluindo comercial, com preservação dos avisos e referência a Virtuo Turing – Artificial Intelligence, S.A.

Créditos

Virtuo Turing – Artificial Intelligence, S.A. (Portugal) e Octávio Viana. Base © Mistral AI (Apache-2.0). Website: https://justina.cloud

Justina Clarus 24B — safetensors (v2)

Version 2. Reinforced with more training sessions and more PT-PT Q/A pairs, maintaining focus on CPC and CC and related topics.

What’s new in v2

Larger number of pairs and training iterations.
Improved stylistic consistency in technical and legal PT-PT.
More robustness to question variation within the same domain.

Generalization and non-memorization

The model does not memorize all answers verbatim. It retains general patterns and may converge to consistent formulations.
It learned the format, tone, and patterns of formal PT-PT Q/A with specialized jargon (e.g., legal, technical). It answers consistently in that style even for questions different from those in the dataset. Useful for: applications needing consistency with the dataset’s tone without literal reproduction. Excellent for RAG.
It captures semantic and syntactic patterns of the PT-PT legal corpus. For identical or very close questions, answers tend to be accurate (>80–90% semantic equivalence even without verbatim). Useful for: scenarios with varied questions within the same legal theme. Better generalization.

Primary uses

This model is a base for:

fine-tuning to specific legal domains;
integration in RAG;
injecting user-supplied context at prompt time (laws, interpretations) to compose legal text.

Legal coverage

CPC: types of actions, procedures, jurisdiction, appeals, res judicata.
CC: obligations, tort, personality rights.
Reinforcements: abuse of rights; family and minors; sexual freedom; popular actions.
Additional context (selective): CPP, CP, CRP, ECHR, GDPR (+ Law 58/2019), Law 112/2009, Law 130/2015, LAV, Reg. (EU) 1215/2012, Reg. (EU) 2019/1111, Dir. 2004/25/EC, CVM 194/196.

Data and schema

Training in JSONL using self-contained Q/A pairs.

Schema {"messages":[{"role":"user","content":"…"},{"role":"assistant","content":"…"}]}

Examples {"messages":[{"role":"user","content":"Quais são as espécies fundamentais de ações no Direito Processual Civil segundo o artigo 10.º, n.º 1 CPC?"},{"role":"assistant","content":"Segundo o artigo 10.º, n.º 1 CPC, distinguem-se duas espécies fundamentais de ações no esquema do processo civil."}]} {"messages":[{"role":"user","content":"O que caracteriza a ação declarativa?"},{"role":"assistant","content":"A ação declarativa pode ser de simples apreciação, de condenação ou constitutiva (art. 10.º, n.os 2 e 3 CPC), pedindo-se em cada subespécie providências distintas."}]}

Usage

Distributed as safetensors for transformers.

Good practice

Cite article numbers when applicable.
Validate against official sources. Human review is mandatory for filings.
For production, prefer low temperature and explicit token limits.

Limitations

Context window ~4k tokens.
Not a substitute for legal professionals or courts.
May miss special regimes or recent legislative changes.

License

Virtuo 1.0. Use, modification, and redistribution, including commercial, with notices preserved and reference to Virtuo Turing – Artificial Intelligence, S.A.

Credits

Virtuo Turing – Artificial Intelligence, S.A. (Portugal) and Octávio Viana. Base © Mistral AI (Apache-2.0). Website: https://justina.cloud

Downloads last month: -; Downloads are not tracked for this model. How to track

Model tree for VirtuoTuring/justina_clarus-24b-v2

Base model

mistralai/Mistral-Small-24B-Base-2501

Finetuned

mistralai/Mistral-Small-24B-Instruct-2501

Finetuned

VirtuoTuring/chat_noir-24b

Finetuned

(3)

this model

VirtuoTuring
/

justina_clarus-24b-v2

Justina Clarus 24B — safetensors (v2)

O que mudou na v2

Generalização e não-memorização

Destinos preferenciais

Cobertura jurídica

Dados e esquema

Utilização

Boas práticas

Limitações

Licença

Créditos

Justina Clarus 24B — safetensors (v2)

What’s new in v2

Generalization and non-memorization

Primary uses

Legal coverage

Data and schema

Usage

Good practice

Limitations

License

Credits

Model tree for VirtuoTuring/justina_clarus-24b-v2

Dataset used to train VirtuoTuring/justina_clarus-24b-v2