SEO Embedding Model - UczciweSEO.pl v2

Model embeddingowy fine-tuned dla polskiego rynku SEO, wytrenowany na:

  • cyberandy/seo-grpo-reasoning-dataset-1000 - dataset SEO reasoning
  • UczciweSEO.pl - polskie dane SEO
  • Terminologia seovoc/schema.org

Wyniki

Metryka v1 v2 Zmiana
Pary podobne 0.7762 0.8229 +0.047
Pary różne 0.3309 0.2982 -0.033
Gap (separacja) 0.4453 0.5247 +0.079

Użycie

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Kelnux/seo-embedding-uczciweseo")

# Generuj embeddingi
sentences = ["technical SEO audit", "audyt techniczny strony"]
embeddings = model.encode(sentences)

# Oblicz podobieństwo
from sklearn.metrics.pairwise import cosine_similarity
similarity = cosine_similarity([embeddings[0]], [embeddings[1]])[0][0]
print(f"Podobieństwo: {similarity:.4f}")

Przykłady

Fraza 1 Fraza 2 Podobieństwo
technical SEO audit steps crawl errors in Google Search Console 0.79
structured data dane strukturalne schema.org 0.93
organic traffic ruch organiczny 0.91
keyword difficulty long-tail keywords 0.88

Specyfikacja

  • Wymiar: 384
  • Base model: paraphrase-multilingual-MiniLM-L12-v2
  • Dane treningowe: 298 par (SEO-GRPO + UczciweSEO + terminologia)
  • Języki: polski, angielski

Kategorie treningowe

  • Technical SEO (crawl issues, indexing)
  • Content SEO (keywords, optimization)
  • Link building (internal linking, anchor text)
  • seovoc/schema.org concepts
  • UczciweSEO terminology (uczciwe praktyki SEO)

Citation

@misc{seo-embedding-uczciweseo,
  title={SEO Embedding Model for UczciweSEO.pl},
  year={2025},
  publisher={HuggingFace},
  url={https://huggingface.co/Kelnux/seo-embedding-uczciweseo}
}
Downloads last month
344
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Kelnux/seo-embedding-uczciweseo

Dataset used to train Kelnux/seo-embedding-uczciweseo