AIME25 — חדשות AI ואוטומציה

SSR להכוונת מודלים במתמטיקה: למה דוגמאות לא תמיד עובדות

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

SSR להכוונת מודלים במתמטיקה: למה דוגמאות לא תמיד עובדות

**יכולת ביצוע אסטרטגיה היא המדד שקובע אם דוגמה או Prompt באמת משפרים מודל בזמן אמת, ולא רק נראים נכונים.** מחקר חדש ב-arXiv מציג את SSR, מסגרת שבוחרת ומשלבת אסטרטגיות לפי מקור ואפקטיביות בפועל, עם שיפור של עד 13 נקודות ב-AIME25 ועד 5 נקודות ב-Apex. עבור עסקים בישראל, הלקח חשוב במיוחד בפרויקטים של AI Agents, WhatsApp Business API, Zoho CRM ו-N8N: לא מעתיקים תסריט כי הוא מרשים, אלא בודקים אם הוא מעלה דיוק, זמן תגובה או המרות. מי שמודד מסלולי הנחיה ברמת CRM ובונה פיילוט של 14 יום, מקטין סיכון ומקבל תמונה אמינה יותר על הערך העסקי.

AIME25 Apex GitHub

קרא עוד

סוכני זיכרון אוטונומיים ל-LLM: למה U-Mem משנה את המשחק

מחקר

8 במרץ 2026

6 דקות

מ־arXiv cs.AI

סוכני זיכרון אוטונומיים ל-LLM: למה U-Mem משנה את המשחק

**סוכני זיכרון אוטונומיים הם שכבת זיכרון חיצונית למודלי שפה שיודעת לא רק לשמור מידע, אלא גם לחפש, לאמת ולעדכן ידע לפי עלות ותועלת.** לפי המחקר על U-Mem, הגישה הזו שיפרה את HotpotQA ב-14.6 נקודות ואת AIME25 ב-7.33 נקודות. עבור עסקים בישראל, המשמעות היא שאפשר לשפר איכות תשובות של מערכות AI בלי להסתמך רק על אימון מחדש של המודל. החיבור בין AI Agents, WhatsApp Business API, Zoho CRM ו-N8N יכול להפוך את הרעיון הזה למערכת שירות ומכירות שעובדת על ידע עדכני, בקרה אנושית ועלויות צפויות יותר.

U-Mem HotpotQA AIME25

קרא עוד

SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

ניתוח

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

SSLogic הוא מסגרת סוכנית שמרחיבה אימון RLVR באמצעות יצירה ותיקון איטרטיביים של זוגות תוכנה Generator–Validator, כך שהתגמול למודל נשען על אימות קוד דטרמיניסטי ולא על תיוג אנושי. לפי המאמר, התהליך הגדיל 400 משפחות משימות ל-953 והרחיב את מספר המופעים הניתנים לאימות מ-5,718 ל-21,389. לארגונים בישראל זה רלוונטי במיוחד כי רבים מפעילים שירות ומכירות ב-WhatsApp ומנהלים תהליכים ב-CRM: אם בונים שכבת Validator סביב כללים (opt-in, הרשאות, שדות חובה, SLA), אפשר להקטין טעויות ולמדוד איכות. פיילוט פרקטי הוא למפות 10 חוקים קשיחים, לבנות Validator ב-N8N, לייצר 200 תרחישים ולמדוד ירידה של 30% בפסילות תוך 30 יום.

SSLogic RLVR Generator

קרא עוד