SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

SSLogic הוא מסגרת סוכנית שמרחיבה אימון RLVR באמצעות יצירה ותיקון איטרטיביים של זוגות תוכנה Generator–Validator, כך שהתגמול למודל נשען על אימות קוד דטרמיניסטי ולא על תיוג אנושי. לפי המאמר, התהליך הגדיל 400 משפחות משימות ל-953 והרחיב את מספר המופעים הניתנים לאימות מ-5,718 ל-21,389. לארגונים בישראל זה רלוונטי במיוחד כי רבים מפעילים שירות ומכירות ב-WhatsApp ומנהלים תהליכים ב-CRM: אם בונים שכבת Validator סביב כללים (opt-in, הרשאות, שדות חובה, SLA), אפשר להקטין טעויות ולמדוד איכות. פיילוט פרקטי הוא למפות 10 חוקים קשיחים, לבנות Validator ב-N8N, לייצר 200 תרחישים ולמדוד ירידה של 30% בפסילות תוך 30 יום.

McKinsey

SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

וקטורי היגוי למודלי שפה: למה הם לא תמיד עובדים ואיך לנבא את הכישלון

RAG היברידי לצ׳טבוט ספרות מדעית: וקטורים מול גרפים

סגנון שיחה של צ׳אטבוטים במשימות ניווט: למה זה משנה לנשים בעסקים

NeuroWeaver לניתוח EEG קליני: מודלים קלים במקום Foundation Models

On-Policy SFT לקיצור Chain-of-Thought: דיוק דומה, 80% פחות טקסט

BotzoneBench להערכת אסטרטגיה של מודלי שפה: מדידה מוחלטת מול עוגני AI קבועים

MoralityGym להערכת יישור מוסרי היררכי בסוכני החלטה: מה זה אומר לעסקים

בינה מלאכותית לחיתום ביטוח מסחרי עם ביקורת עצמית: ירידה בהזיות ל‑3.8%

הערכת T‑Shirt לפרויקטי LLM: למה היא נכשלת ואיך עוברים ל-Checkpoint Sizing

אזורים פרמטריים לבטיחות ב‑LLM: למה אי אפשר עדיין “לנעול” את המודל

זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי

AsynDBT לכוונון פרומפטים ו-ICL בארגונים: פחות סטרגלרים, יותר דיוק

ScaleBITS לכימות LLM מתחת ל-4 ביט: חיפוש ביטווידת אוטומטי

EXACT להתאמת תגובות LLM בזמן דיקוד לפי תכונות מפורשות

DECKBench ליצירת מצגות אקדמיות: מדד שמודד נאמנות, פריסה וציות להוראות

Agentic Unlearning לסוכנים מבוססי LLM: מחיקה גם מהפרמטרים וגם מהזיכרון

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק