Jibay-2p-500M
A Lightweight, Fast, and Efficient Retrieval‑Based AI Model
by JibayAI
🌟 Introduction
Jibay‑2p‑500M is a retrieval‑based artificial intelligence model designed for environments where computational resources are limited but high‑speed responses are required. Unlike large neural networks (like GPT), Jibay uses a hybrid approach: it memorizes training data, performs intelligent pattern matching, and can generate coherent text when no direct match is found.
It is the successor to Jibay‑1.5p‑30M, with a 500 million parameter architecture that significantly improves knowledge retention and response quality while keeping the model lightweight and fast.
🤖 Why Jibay is Considered an AI
Artificial Intelligence is defined by the ability to learn from data, adapt to new inputs, and perform tasks that typically require human intelligence. Jibay fulfills this through:
- Learning Phase (Training) : It reads a dataset (prompts + responses) and builds a structured knowledge base.
- Pattern Recognition : During inference, it compares user input with stored prompts using a custom similarity algorithm.
- Text Generation : If no match is found, it generates meaningful sentences using token‑based statistical methods.
- Tokenization : Like modern LLMs, it converts words into numerical IDs, enabling efficient processing.
Thus, Jibay is a bona fide AI system — different from neural networks, but equally valid for many practical applications.
⚙️ How It Works
- Tokenizer – Words are mapped to unique IDs (vocabulary up to 100,000 tokens). Special tokens
[START],[END],[UNK],[PAD]are included. - Knowledge Base – During training, every prompt‑response pair is stored as sequences of token IDs.
- Similarity Search – When a user asks something, the input is tokenized and compared against all stored prompts using a prefix‑matching similarity algorithm.
- Response Selection – The most similar prompt (with a similarity score ≥ 99% down to 50%) is chosen, and its response is returned.
- Fallback Generation – If no good match exists, the model generates a random but grammatically plausible sentence using token frequency and repetition avoidance.
- Streaming – Optionally, the response can be streamed word‑by‑word for a real‑time experience.
📊 Comparison: Jibay‑2p‑500M vs. ChatGPT vs. Jibay‑1.5p‑30M
| Feature | Jibay‑2p‑500M | ChatGPT (GPT‑3.5/4) | Jibay‑1.5p‑30M |
|---|---|---|---|
| Architecture | Retrieval‑based + statistical generation | Deep neural network (Transformer) | Retrieval‑based |
| Parameters | 500 million | 175 billion+ | 30 million |
| Training Data | Custom dataset (JSONL) | Massive internet‑scale corpora | Custom dataset (JSONL) |
| Inference Speed | ⚡ Extremely fast (milliseconds) | 🐢 Moderate to slow (depends on load) | ⚡ Very fast |
| Resource Requirements | 💻 Low (runs on any PHP server) | 🖥️ High (requires powerful GPUs) | 💻 Very low |
| Context Window | Up to 262k input / 524k output tokens | 4k‑128k tokens | Limited by dataset |
| Internet Dependency | ❌ No (fully offline) | ✅ Usually requires API | ❌ No |
| Customization | ✅ Full control over dataset and tokenizer | ⚠️ Limited (fine‑tuning is complex) | ✅ Full control |
| Cost | 🆓 Free | 💰 Paid or rate‑limited | 🆓 Free |
🚀 Usage
📦 Requirements
- PHP 7.4+ with
opensslandmbstringextensions - A dataset in JSONL format (
{"prompt": "...", "response": "..."}per line) - Configuration files (
config.json,config_tokenizer.json)
🔧 Training
php train.php # trains a new model from scratch (mode: all)
php train.php new # updates an existing model with new data
🤖 Inference (Web Interface)
Place the run.php file in your web server, then call:
http://your-server/index.php?text=your question
Set streaming on/off by editing the STREAM_ENABLED constant in index.php.
⚙️ Configuration (config.json)
{
"bot_name": "Jibay-2p",
"model_name": "jibay-2p-500M",
"tokenizer_file": "tokenizer.json",
"tokenizer_config_file": "config_tokenizer.json",
"model_file": "model-jibay-00001-of-00001.bin",
"max_input_tokens": 262144,
"max_output_tokens": 524288,
"vocab_size": 100000,
"min_token_frequency": 2,
"dataset_path": "dataset.jsonl",
"seed": 16719
}
📄 Tokenizer Config (config_tokenizer.json)
{
"lowercase": true,
"split_on_whitespace": true,
"min_token_frequency": 1,
"special_tokens": ["[START]", "[END]", "[UNK]", "[PAD]"]
}
📈 Performance & Limitations
- Speed: Response time is typically under 100ms on a shared host.
- Accuracy: Depends entirely on the quality and coverage of the training dataset.
- Language: Supports english and persian language, as it works at the word level.
- No Deep Understanding: Because it lacks neural reasoning, it cannot perform complex multi‑step reasoning or creative tasks beyond its training data.
📜 License
This project is open‑source under the Apache 2.0 License. You are free to use, modify, and distribute it.
جیبای-۲پی-۵۰۰ میلیون
یک مدل هوش مصنوعی سبک، سریع و کارآمد مبتنی بر بازیابی اطلاعات
توسط شرکت جیبای
🌟 معرفی
جیبای-۲پی-۵۰۰ میلیون یک هوش مصنوعی مبتنی بر بازیابی (Retrieval‑Based) است که برای محیطهایی با منابع محدود اما نیازمند پاسخدهی سریع طراحی شده. برخلاف شبکههای عصبی بزرگ (مثل GPT)، جیبای از یک رویکرد ترکیبی استفاده میکند: دادههای آموزشی را به خاطر میسپارد، تطابق هوشمند الگو انجام میدهد و در صورت عدم وجود تطابق مستقیم، متنی منسجم تولید میکند.
این مدل جانشین جیبای-۱٫۵پی-۳۰ میلیون است و با ۵۰۰ میلیون پارامتر، دانش و کیفیت پاسخ را به طور قابل توجهی بهبود داده، در عین حال سبک و سریع باقی مانده است.
🤖 چرا جیبای یک هوش مصنوعی محسوب میشود؟
هوش مصنوعی به توانایی یادگیری از داده، تطبیق با ورودیهای جدید و انجام کارهایی که معمولاً به هوش انسانی نیاز دارند تعریف میشود. جیبای این ویژگیها را از طریق موارد زیر داراست:
- فاز یادگیری (آموزش) : دیتاست (پرسشها و پاسخها) را میخواند و یک پایگاه دانش ساختیافته ایجاد میکند.
- تشخیص الگو : در زمان اجرا، ورودی کاربر را با پرسشهای ذخیرهشده با استفاده از الگوریتم تشابه سفارشی مقایسه میکند.
- تولید متن : اگر تطابق مناسبی پیدا نشود، جملات معنادار با روشهای آماری مبتنی بر توکن تولید میکند.
- توکنسازی : مانند مدلهای بزرگ زبانی، کلمات را به اعداد منحصربهفرد تبدیل میکند تا پردازش بهینه باشد.
بنابراین جیبای یک سیستم هوش مصنوعی واقعی است — متفاوت از شبکههای عصبی، اما برای بسیاری از کاربردهای عملی کاملاً معتبر.
⚙️ نحوه عملکرد
۱. توکنساز – کلمات به شناسههای یکتا نگاشته میشوند (واژگان تا ۱۰۰٬۰۰۰ توکن). توکنهای ویژه [START]، [END]، [UNK] و [PAD] در نظر گرفته شدهاند.
۲. پایگاه دانش – در طول آموزش، هر جفت پرسش‑پاسخ به صورت دنبالهای از شناسههای توکن ذخیره میشود.
۳. جستجوی تشابه – وقتی کاربر سؤالی میپرسد، ورودی توکنسازی شده و با همه پرسشهای ذخیرهشده توسط الگوریتم تطابق پیشوندی مقایسه میشود.
۴. انتخاب پاسخ – مشابهترین پرسش (با امتیاز تشابه ≥۹۹٪ تا ۵۰٪) انتخاب و پاسخ آن برگردانده میشود.
۵. تولید پیشفرض – اگر تطابق خوبی یافت نشود، مدل یک جمله تصادفی اما از نظر دستوری محتمل با استفاده از فراوانی توکنها و جلوگیری از تکرار تولید میکند.
۶. استریم – به صورت اختیاری پاسخ میتواند کلمه به کلمه و به صورت زنده نمایش داده شود.
📊 مقایسه: جیبای-۲پی-۵۰۰ میلیون در برابر ChatGPT و جیبای-۱٫۵پی-۳۰ میلیون
| ویژگی | جیبای-۲پی-۵۰۰ میلیون | ChatGPT (GPT‑3.5/4) | جیبای-۱٫۵پی-۳۰ میلیون |
|---|---|---|---|
| معماری | مبتنی بر بازیابی + تولید آماری | شبکه عصبی عمیق (ترنسفورمر) | مبتنی بر بازیابی |
| پارامترها | ۵۰۰ میلیون | ۱۷۵ میلیارد+ | ۳۰ میلیون |
| دادههای آموزشی | دیتاست دلخواه (JSONL) | مجموعه داده عظیم از اینترنت | دیتاست دلخواه (JSONL) |
| سرعت استنتاج | ⚡ بسیار سریع (چند میلیثانیه) | 🐢 متوسط تا کند (به بار بستگی دارد) | ⚡ بسیار سریع |
| نیازمندیهای سختافزاری | 💻 پایین (روی هر سرور PHP اجرا میشود) | 🖥️ بالا (نیاز به GPU قوی) | 💻 بسیار پایین |
| پنجره متنی | تا ۲۶۲هزار توکن ورودی / ۵۲۴هزار توکن خروجی | ۴هزار‑۱۲۸هزار توکن | محدود به دیتاست |
| وابستگی به اینترنت | ❌ خیر (کاملاً آفلاین) | ✅ معمولاً نیاز به API دارد | ❌ خیر |
| شخصیسازی | ✅ کنترل کامل روی دیتاست و توکنساز | ⚠️ محدود (تنظیم دقیق پیچیده است) | ✅ کنترل کامل |
| هزینه | 🆓 رایگان | 💰 پولی یا محدودیت تعداد درخواست | 🆓 رایگان |
🚀 نحوه استفاده
📦 نیازمندیها
- PHP 7.4+ با افزونههای
opensslوmbstring - دیتاست با فرمت JSONL (هر خط:
{"prompt": "...", "response": "..."}) - فایلهای پیکربندی (
config.json،config_tokenizer.json)
🔧 آموزش مدل
php train.php # آموزش مدل جدید از ابتدا (حالت all)
php train.php new # بهروزرسانی مدل موجود با داده جدید
🤖 استنتاج (رابط وب)
فایل run.php را روی سرور وب قرار داده و با آدرس زیر فراخوانی کنید:
http://your-server/index.php?text=سوال شما
با تغییر ثابت STREAM_ENABLED در فایل index.php میتوانید استریم را فعال/غیرفعال کنید.
⚙️ پیکربندی (config.json)
{
"bot_name": "Jibay-2p",
"model_name": "jibay-2p-500M",
"tokenizer_file": "tokenizer.json",
"tokenizer_config_file": "config_tokenizer.json",
"model_file": "model-jibay-00001-of-00001.bin",
"max_input_tokens": 262144,
"max_output_tokens": 524288,
"vocab_size": 100000,
"min_token_frequency": 2,
"dataset_path": "dataset.jsonl",
"seed": 16719
}
📄 پیکربندی توکنساز (config_tokenizer.json)
{
"lowercase": true,
"split_on_whitespace": true,
"min_token_frequency": 1,
"special_tokens": ["[START]", "[END]", "[UNK]", "[PAD]"]
}
📈 عملکرد و محدودیتها
- سرعت: زمان پاسخ معمولاً زیر ۱۰۰ میلیثانیه روی هاست اشتراکی.
- دقت: کاملاً به کیفیت و پوشش دیتاست آموزشی وابسته است.
- زبان: از زبان انگلیسی و فارسی پشتیبانی میکند، چون در سطح کلمه کار میکند.
- عدم درک عمیق: به دلیل نداشتن استدلال عصبی، نمیتواند کارهای پیچیده چندمرحلهای یا خلاقانه فراتر از دادههای آموزشی انجام دهد.
📜 مجوز
این پروژه تحت مجوز Apache 2.0 منتشر میشود. استفاده، تغییر و توزیع آن آزاد است.
- Downloads last month
- 78
