SEO Embedding Model - UczciweSEO.pl v2
Model embeddingowy fine-tuned dla polskiego rynku SEO, wytrenowany na:
- cyberandy/seo-grpo-reasoning-dataset-1000 - dataset SEO reasoning
- UczciweSEO.pl - polskie dane SEO
- Terminologia seovoc/schema.org
Wyniki
| Metryka |
v1 |
v2 |
Zmiana |
| Pary podobne |
0.7762 |
0.8229 |
+0.047 |
| Pary różne |
0.3309 |
0.2982 |
-0.033 |
| Gap (separacja) |
0.4453 |
0.5247 |
+0.079 |
Użycie
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Kelnux/seo-embedding-uczciweseo")
sentences = ["technical SEO audit", "audyt techniczny strony"]
embeddings = model.encode(sentences)
from sklearn.metrics.pairwise import cosine_similarity
similarity = cosine_similarity([embeddings[0]], [embeddings[1]])[0][0]
print(f"Podobieństwo: {similarity:.4f}")
Przykłady
| Fraza 1 |
Fraza 2 |
Podobieństwo |
| technical SEO audit steps |
crawl errors in Google Search Console |
0.79 |
| structured data |
dane strukturalne schema.org |
0.93 |
| organic traffic |
ruch organiczny |
0.91 |
| keyword difficulty |
long-tail keywords |
0.88 |
Specyfikacja
- Wymiar: 384
- Base model: paraphrase-multilingual-MiniLM-L12-v2
- Dane treningowe: 298 par (SEO-GRPO + UczciweSEO + terminologia)
- Języki: polski, angielski
Kategorie treningowe
- Technical SEO (crawl issues, indexing)
- Content SEO (keywords, optimization)
- Link building (internal linking, anchor text)
- seovoc/schema.org concepts
- UczciweSEO terminology (uczciwe praktyki SEO)
Citation
@misc{seo-embedding-uczciweseo,
title={SEO Embedding Model for UczciweSEO.pl},
year={2025},
publisher={HuggingFace},
url={https://huggingface.co/Kelnux/seo-embedding-uczciweseo}
}