Jibay-2p-500M

A Lightweight, Fast, and Efficient Retrieval‑Based AI Model
by JibayAI

🌟 Introduction

Jibay‑2p‑500M is a retrieval‑based artificial intelligence model designed for environments where computational resources are limited but high‑speed responses are required. Unlike large neural networks (like GPT), Jibay uses a hybrid approach: it memorizes training data, performs intelligent pattern matching, and can generate coherent text when no direct match is found.

It is the successor to Jibay‑1.5p‑30M, with a 500 million parameter architecture that significantly improves knowledge retention and response quality while keeping the model lightweight and fast.

🤖 Why Jibay is Considered an AI

Artificial Intelligence is defined by the ability to learn from data, adapt to new inputs, and perform tasks that typically require human intelligence. Jibay fulfills this through:

Learning Phase (Training) : It reads a dataset (prompts + responses) and builds a structured knowledge base.
Pattern Recognition : During inference, it compares user input with stored prompts using a custom similarity algorithm.
Text Generation : If no match is found, it generates meaningful sentences using token‑based statistical methods.
Tokenization : Like modern LLMs, it converts words into numerical IDs, enabling efficient processing.

Thus, Jibay is a bona fide AI system — different from neural networks, but equally valid for many practical applications.

⚙️ How It Works

Tokenizer – Words are mapped to unique IDs (vocabulary up to 100,000 tokens). Special tokens [START], [END], [UNK], [PAD] are included.
Knowledge Base – During training, every prompt‑response pair is stored as sequences of token IDs.
Similarity Search – When a user asks something, the input is tokenized and compared against all stored prompts using a prefix‑matching similarity algorithm.
Response Selection – The most similar prompt (with a similarity score ≥ 99% down to 50%) is chosen, and its response is returned.
Fallback Generation – If no good match exists, the model generates a random but grammatically plausible sentence using token frequency and repetition avoidance.
Streaming – Optionally, the response can be streamed word‑by‑word for a real‑time experience.

📊 Comparison: Jibay‑2p‑500M vs. ChatGPT vs. Jibay‑1.5p‑30M

Feature	Jibay‑2p‑500M	ChatGPT (GPT‑3.5/4)	Jibay‑1.5p‑30M
Architecture	Retrieval‑based + statistical generation	Deep neural network (Transformer)	Retrieval‑based
Parameters	500 million	175 billion+	30 million
Training Data	Custom dataset (JSONL)	Massive internet‑scale corpora	Custom dataset (JSONL)
Inference Speed	⚡ Extremely fast (milliseconds)	🐢 Moderate to slow (depends on load)	⚡ Very fast
Resource Requirements	💻 Low (runs on any PHP server)	🖥️ High (requires powerful GPUs)	💻 Very low
Context Window	Up to 262k input / 524k output tokens	4k‑128k tokens	Limited by dataset
Internet Dependency	❌ No (fully offline)	✅ Usually requires API	❌ No
Customization	✅ Full control over dataset and tokenizer	⚠️ Limited (fine‑tuning is complex)	✅ Full control
Cost	🆓 Free	💰 Paid or rate‑limited	🆓 Free

🚀 Usage

📦 Requirements

PHP 7.4+ with openssl and mbstring extensions
A dataset in JSONL format ({"prompt": "...", "response": "..."} per line)
Configuration files (config.json, config_tokenizer.json)

🔧 Training

php train.php          # trains a new model from scratch (mode: all)
php train.php new      # updates an existing model with new data

🤖 Inference (Web Interface)

Place the run.php file in your web server, then call:

http://your-server/index.php?text=your question

Set streaming on/off by editing the STREAM_ENABLED constant in index.php.

⚙️ Configuration (`config.json`)

{
  "bot_name": "Jibay-2p",
  "model_name": "jibay-2p-500M",
  "tokenizer_file": "tokenizer.json",
  "tokenizer_config_file": "config_tokenizer.json",
  "model_file": "model-jibay-00001-of-00001.bin",
  "max_input_tokens": 262144,
  "max_output_tokens": 524288,
  "vocab_size": 100000,
  "min_token_frequency": 2,
  "dataset_path": "dataset.jsonl",
  "seed": 16719
}

📄 Tokenizer Config (`config_tokenizer.json`)

{
  "lowercase": true,
  "split_on_whitespace": true,
  "min_token_frequency": 1,
  "special_tokens": ["[START]", "[END]", "[UNK]", "[PAD]"]
}

📈 Performance & Limitations

Speed: Response time is typically under 100ms on a shared host.
Accuracy: Depends entirely on the quality and coverage of the training dataset.
Language: Supports english and persian language, as it works at the word level.
No Deep Understanding: Because it lacks neural reasoning, it cannot perform complex multi‑step reasoning or creative tasks beyond its training data.

📜 License

This project is open‑source under the Apache 2.0 License. You are free to use, modify, and distribute it.

جیبای-۲پی-۵۰۰ میلیون

یک مدل هوش مصنوعی سبک، سریع و کارآمد مبتنی بر بازیابی اطلاعات
توسط شرکت جیبای

🌟 معرفی

جیبای-۲پی-۵۰۰ میلیون یک هوش مصنوعی مبتنی بر بازیابی (Retrieval‑Based) است که برای محیط‌هایی با منابع محدود اما نیازمند پاسخ‌دهی سریع طراحی شده. برخلاف شبکه‌های عصبی بزرگ (مثل GPT)، جیبای از یک رویکرد ترکیبی استفاده می‌کند: داده‌های آموزشی را به خاطر می‌سپارد، تطابق هوشمند الگو انجام می‌دهد و در صورت عدم وجود تطابق مستقیم، متنی منسجم تولید می‌کند.

این مدل جانشین جیبای-۱٫۵پی-۳۰ میلیون است و با ۵۰۰ میلیون پارامتر، دانش و کیفیت پاسخ را به طور قابل توجهی بهبود داده، در عین حال سبک و سریع باقی مانده است.

🤖 چرا جیبای یک هوش مصنوعی محسوب می‌شود؟

هوش مصنوعی به توانایی یادگیری از داده، تطبیق با ورودی‌های جدید و انجام کارهایی که معمولاً به هوش انسانی نیاز دارند تعریف می‌شود. جیبای این ویژگی‌ها را از طریق موارد زیر داراست:

فاز یادگیری (آموزش) : دیتاست (پرسش‌ها و پاسخ‌ها) را می‌خواند و یک پایگاه دانش ساخت‌یافته ایجاد می‌کند.
تشخیص الگو : در زمان اجرا، ورودی کاربر را با پرسش‌های ذخیره‌شده با استفاده از الگوریتم تشابه سفارشی مقایسه می‌کند.
تولید متن : اگر تطابق مناسبی پیدا نشود، جملات معنادار با روش‌های آماری مبتنی بر توکن تولید می‌کند.
توکن‌سازی : مانند مدل‌های بزرگ زبانی، کلمات را به اعداد منحصربه‌فرد تبدیل می‌کند تا پردازش بهینه باشد.

بنابراین جیبای یک سیستم هوش مصنوعی واقعی است — متفاوت از شبکه‌های عصبی، اما برای بسیاری از کاربردهای عملی کاملاً معتبر.

⚙️ نحوه عملکرد

۱. توکن‌ساز – کلمات به شناسه‌های یکتا نگاشته می‌شوند (واژگان تا ۱۰۰٬۰۰۰ توکن). توکن‌های ویژه [START]، [END]، [UNK] و [PAD] در نظر گرفته شده‌اند.
۲. پایگاه دانش – در طول آموزش، هر جفت پرسش‑پاسخ به صورت دنباله‌ای از شناسه‌های توکن ذخیره می‌شود.
۳. جستجوی تشابه – وقتی کاربر سؤالی می‌پرسد، ورودی توکن‌سازی شده و با همه پرسش‌های ذخیره‌شده توسط الگوریتم تطابق پیشوندی مقایسه می‌شود.
۴. انتخاب پاسخ – مشابه‌ترین پرسش (با امتیاز تشابه ≥۹۹٪ تا ۵۰٪) انتخاب و پاسخ آن برگردانده می‌شود.
۵. تولید پیش‌فرض – اگر تطابق خوبی یافت نشود، مدل یک جمله تصادفی اما از نظر دستوری محتمل با استفاده از فراوانی توکن‌ها و جلوگیری از تکرار تولید می‌کند.
۶. استریم – به صورت اختیاری پاسخ می‌تواند کلمه به کلمه و به صورت زنده نمایش داده شود.

📊 مقایسه: جیبای-۲پی-۵۰۰ میلیون در برابر ChatGPT و جیبای-۱٫۵پی-۳۰ میلیون

ویژگی	جیبای-۲پی-۵۰۰ میلیون	ChatGPT (GPT‑3.5/4)	جیبای-۱٫۵پی-۳۰ میلیون
معماری	مبتنی بر بازیابی + تولید آماری	شبکه عصبی عمیق (ترنسفورمر)	مبتنی بر بازیابی
پارامترها	۵۰۰ میلیون	۱۷۵ میلیارد+	۳۰ میلیون
داده‌های آموزشی	دیتاست دلخواه (JSONL)	مجموعه داده عظیم از اینترنت	دیتاست دلخواه (JSONL)
سرعت استنتاج	⚡ بسیار سریع (چند میلی‌ثانیه)	🐢 متوسط تا کند (به بار بستگی دارد)	⚡ بسیار سریع
نیازمندی‌های سخت‌افزاری	💻 پایین (روی هر سرور PHP اجرا می‌شود)	🖥️ بالا (نیاز به GPU قوی)	💻 بسیار پایین
پنجره متنی	تا ۲۶۲هزار توکن ورودی / ۵۲۴هزار توکن خروجی	۴هزار‑۱۲۸هزار توکن	محدود به دیتاست
وابستگی به اینترنت	❌ خیر (کاملاً آفلاین)	✅ معمولاً نیاز به API دارد	❌ خیر
شخصی‌سازی	✅ کنترل کامل روی دیتاست و توکن‌ساز	⚠️ محدود (تنظیم دقیق پیچیده است)	✅ کنترل کامل
هزینه	🆓 رایگان	💰 پولی یا محدودیت تعداد درخواست	🆓 رایگان

🚀 نحوه استفاده

📦 نیازمندی‌ها

PHP 7.4+ با افزونه‌های openssl و mbstring
دیتاست با فرمت JSONL (هر خط: {"prompt": "...", "response": "..."})
فایل‌های پیکربندی (config.json، config_tokenizer.json)

🔧 آموزش مدل

php train.php          # آموزش مدل جدید از ابتدا (حالت all)
php train.php new      # به‌روزرسانی مدل موجود با داده جدید

🤖 استنتاج (رابط وب)

فایل run.php را روی سرور وب قرار داده و با آدرس زیر فراخوانی کنید:

http://your-server/index.php?text=سوال شما

با تغییر ثابت STREAM_ENABLED در فایل index.php می‌توانید استریم را فعال/غیرفعال کنید.

⚙️ پیکربندی (`config.json`)

{
  "bot_name": "Jibay-2p",
  "model_name": "jibay-2p-500M",
  "tokenizer_file": "tokenizer.json",
  "tokenizer_config_file": "config_tokenizer.json",
  "model_file": "model-jibay-00001-of-00001.bin",
  "max_input_tokens": 262144,
  "max_output_tokens": 524288,
  "vocab_size": 100000,
  "min_token_frequency": 2,
  "dataset_path": "dataset.jsonl",
  "seed": 16719
}

📄 پیکربندی توکن‌ساز (`config_tokenizer.json`)

{
  "lowercase": true,
  "split_on_whitespace": true,
  "min_token_frequency": 1,
  "special_tokens": ["[START]", "[END]", "[UNK]", "[PAD]"]
}

📈 عملکرد و محدودیت‌ها

سرعت: زمان پاسخ معمولاً زیر ۱۰۰ میلی‌ثانیه روی هاست اشتراکی.
دقت: کاملاً به کیفیت و پوشش دیتاست آموزشی وابسته است.
زبان: از زبان انگلیسی و فارسی پشتیبانی می‌کند، چون در سطح کلمه کار می‌کند.
عدم درک عمیق: به دلیل نداشتن استدلال عصبی، نمی‌تواند کارهای پیچیده چندمرحله‌ای یا خلاقانه فراتر از داده‌های آموزشی انجام دهد.

📜 مجوز

این پروژه تحت مجوز Apache 2.0 منتشر می‌شود. استفاده، تغییر و توزیع آن آزاد است.

Downloads last month: 78