SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("gpellejero/sodebur")
# Run inference
sentences = [
    '¿Hay rutas recomendadas para recorrer durante la Floración en Las Caderechas?',
    'Título: Floración en Las Caderechas\nZona: Bureba\nDuración: \nCoordenadas: 42.767300730677,-3.4972729277385\nTipo de recurso: Naturaleza, Mucho más\n\nFloración en Las Caderechas\n\n',
    'Título: Btt Dehesas Montijanas\nZona: Merindades\nDuración: 12 h\nCoordenadas: 43.03553,-3.4830100000000006\nTipo de recurso: Rutas-Territorio Ciclista-BTT\n\nBtt Dehesas Montijanas\n\nComenzamos ruta en la localidad de El Ribero de Montija.Desde el área recreativa y zona verde del pueblo, junto al río Cerneja, salimos callejeando hasta cruzar la carretera en dirección Norte, rodando entre dicho río y la montaña por caminos y pistas entre bosques de pino y roble.Unos km más adelante, cambiamos de rumbo totalmente transitando por caminos anchos sencillos entre los típicos prados montijanos, pasando por la bonita dehesa de Villasante, con ejemplares de robles centenarios.De ahí nos dirigimos al monte Edilla, donde haremos uno de los tramos más divertidos, por un sendero largo y revirado bajo un frondoso robledal y a orillas del río Trueba. Tras este bonito paso, volvemos a abrirnos a los praderíos, siempre por caminos de herradura y pista ancha, acercándonos a la gran dificultad de la ruta, la ascensión al monte de Bedón, con rampas duras que nos llevarán entre bonitos pinares y praderas altas.Tras un rápido descenso, llegamos a Bedón, donde afrontaremos una divertida trialera, con algunas zonas de pierda suelta y continuos sube y bajas, tras los que pasaremos por las extensas campas verdes de peña Horrero.TTras un bonito camino dominando las lagunas de Antuzanos, iremos descendiendo hacia la ribera del Trueba, por donde llegaremos cómodamente al punto final de ruta por caminos clásicos de herradura entre el río y las huertas de ribera.Zonas de especial atención:-KM 1: cruce de carretera nacional. Extremar precaución-KM 4-6: Tramo de pista y camino ancho con algunas roderas y charcos profundos creados por la lluvia. Transitar con precaución-KM 7: cruce de carretera nacional. Extremar precaución-KM 28-30: tramo por trialera técnica. Transitar con precaución-KM 36,5: cruce de carretera nacional. Extremar precaución\n\n\n\n\n\n\n\n\n        btt-larga.jpg\n    \n  \n  \n      \n\n  \n\n\n\n\n\n\n\n\n\n\n\n\n        logotipo_lineaverde_merindades.png',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.8111
spearman_cosine 0.7896

Training Details

Training Dataset

Unnamed Dataset

  • Size: 3,726 training samples
  • Columns: sentence_0, sentence_1, and sentence_2
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2
    type string string string
    details
    • min: 10 tokens
    • mean: 21.75 tokens
    • max: 34 tokens
    • min: 31 tokens
    • mean: 242.86 tokens
    • max: 512 tokens
    • min: 31 tokens
    • mean: 477.1 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2
    ¿Dónde están ubicadas las principales áreas de interés en el PRC-BU 142 Riberas de Medina? Título: PRC-BU 142 Riberas de Medina
    Zona: Merindades
    Duración: 3 h
    Coordenadas: 42.924728,-3.484652
    Tipo de recurso: Rutas-De senderos

    PRC-BU 142 Riberas de Medina

    El sendero parte hacia el oeste de Medina para dirigirse hacia el río Nela y continuar paralelo a su curso hacia el sur. Por el camino pasa por la antigua centra del Quintarnaza y por la localidad de El Vado, que conserva un buen puente de piedra sobre el río. Al regresar hacia Medina se atraviesa el río Trueba por pueblo un puente del antiguo trazado ferroviario del Santander- Mediterráneo. La ruta pasa por Villacomparada entre huertas antes de llegar a Medina.
    Título: Btt Dehesas Montijanas
    Zona: Merindades
    Duración: 12 h
    Coordenadas: 43.03553,-3.4830100000000006
    Tipo de recurso: Rutas-Territorio Ciclista-BTT

    Btt Dehesas Montijanas

    Comenzamos ruta en la localidad de El Ribero de Montija.Desde el área recreativa y zona verde del pueblo, junto al río Cerneja, salimos callejeando hasta cruzar la carretera en dirección Norte, rodando entre dicho río y la montaña por caminos y pistas entre bosques de pino y roble.Unos km más adelante, cambiamos de rumbo totalmente transitando por caminos anchos sencillos entre los típicos prados montijanos, pasando por la bonita dehesa de Villasante, con ejemplares de robles centenarios.De ahí nos dirigimos al monte Edilla, donde haremos uno de los tramos más divertidos, por un sendero largo y revirado bajo un frondoso robledal y a orillas del río Trueba. Tras este bonito paso, volvemos a abrirnos a los praderíos, siempre por caminos de herradura y pista ancha, acercándonos a la gran dificultad de la ruta, la a...
    ¿Cuál es la gastronomía típica de Mesanza? Título: Mesanza
    Zona: Bureba
    Duración:
    Coordenadas: 42.678771790052,-2.6608528685311
    Tipo de recurso: Descúbrenos, Bureba y Valles

    Mesanza

    Título: PRC-BU 183 Sendero de Fuente Sagredo
    Zona: Merindades
    Duración: 2 h 30 min
    Coordenadas: 42.808774,-3.523065
    Tipo de recurso: Rutas-De senderos

    PRC-BU 183 Sendero de Fuente Sagredo

    El Sendero de Fuente Sagredo, es una bella ruta circular cuyo punto de partida se encuentra en la localidad de Condado de Valdivielso.Con la ribera del Ebro como protagonista, en su recorrido, perfectamente señalizado, disfrutarás de impresionantes panorámicas del valle de Valdivielso y descubrirás la cueva de origen Kárstico de Fuente Sagredo.
    ¿Qué recomendaciones tienes para visitar el Castillo Monasterio de Rodilla? Título: Castillo Monasterio de Rodilla
    Zona: Bureba
    Duración:
    Coordenadas: 42.463387339222,-3.4849133085937
    Tipo de recurso: Patrimonio, Arte medieval y castillos

    Castillo Monasterio de Rodilla

    Título: BTT
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.7
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • num_train_epochs: 0.1
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 0.1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step val_spearman_cosine
0.1026 12 0.7896

Framework Versions

  • Python: 3.12.3
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.7.0+cu126
  • Accelerate: 1.6.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for gpellejero/sodebur

Papers for gpellejero/sodebur

Evaluation results