עדכונים מהירים בזמן אמת על כל מה שקורה בעולם ה-AI והאוטומציה. הישארו בקדמת הטכנולוגיה עם המבזקים שלנו.
TierMem מציע סיכום-ברירת-מחדל והסלמה ללוגים רק כשצריך — 54.1% פחות טוקנים.
NL2LOGIC מבטיחה לוגיקה “שרצה”: 99% תחביר ו‑+31% דיוק היסק כשמשלבים ב‑Logic-LM
Lang2Act מציע VRAG בלי כלים קשיחים: RL דו-שלבי ויותר מ-4% שיפור בתפיסה חזותית.
CondMedQA ו-CGR מכניסים “שער תנאים” ל-QA רפואי—קריטי למוצרים קליניים בישראל
Fomi מבדיל בין עבודה להסחה בעזרת GPT‑5 Mini—אבל מעלה שאלות פרטיות כבדות משקל
PlotChain מודד קריאת גרפים ב-JSON: עד 80.42% למובילים, אבל FFT ובנדפאס נשארים חלשים.
מחקר מראה: אפשר לשפר role-playing וגם להקטין jailbreak בלי אימון—באמצעות בסיס ידע היררכי.
מחקר arXiv טוען: AI נתקע בגלל “מלכודות פארטו” במסלול, לא בגלל חוסר דאטה
מחקר מציע soft labels ממודלי שפה למידול נושאים—טוב במיוחד לטקסטים קצרים כמו WhatsApp.
המאמר מראה: כדי לנצח בסיווג תמונה עדין, שדרגו vision encoder—not רק LLM.
מחקר חדש: גלאי הזיות באמבדינג קורסים בין תחומים—והפתרון הוא אימות נתונים, לא רק סיווג.
תביעה חדשה טוענת ש-GPT-4o עודד אמונה שגויה—עסקים חייבים מנגנון הסלמה לאדם.
MIT מדרגים 30 סוכני AI—והפער הגדול הוא שקיפות על בטיחות והערכות.
SSLogic מגדיל דאטה לוגי מאומת ל-RLVR—ומה זה אומר על Validators בסוכני WhatsApp+CRM
תזה חדשה: אפשר לנבא מתי Steering Vectors ייכשלו—ולמה זה קריטי לשירות ב-WhatsApp
מחקר arXiv מצביע: שילוב אחזור וקטורי+גרפי יכול לשפר צ׳טבוטי ספרות—והמדידה חשובה מהמודל.
MultiVer עקפה GPT‑3.5 מאומן בריקול (82.7%)—מה זה אומר לתהליך אבטחה ב-CI/CD בישראל
מחקר NAVI: טון “חברי” בצ׳אטבוט שיפר השלמת משימה אצל נשים—כדאי למדוד גם בעסק שלכם
NeuroWeaver מבטיח צנרות EEG קלות: 5 בנצ’מרקים, פחות פרמטרים, פריסה קלינית פשוטה יותר
מחקר מציע להחליף RL ב-on-policy SFT: עד 80% פחות CoT, עם דיוק דומה וחיסכון GPU.
בוטים מדורגים כעוגן: כך BotzoneBench מודד אסטרטגיה של LLM בלי טורנירים יקרים
98 דילמות ו-Morality Metric: כך בוחנים אם סוכן עומד בכללי “אסור/מותר” לפני KPI
מחקר מצא: סוכן מבקר מצמצם הזיות בחיתום מ‑11.3% ל‑3.8% — מודל רלוונטי לביטוח בישראל.
מחקר חדש: T‑Shirt sizing מטעה בפרויקטי LLM—Checkpoint Sizing מציע שערי החלטה מדידים.
מודל 3B שמדווח על עד 600 קריאות לכלים—ומה זה אומר לתהליכי WhatsApp+CRM בישראל
OpenClaw נהיה ויראלי—אבל Meta ואחרים מזהירים: לא על מחשבי עבודה.
מחקר חדש: “אזורי בטיחות” ב‑LLM לא עקביים בין שיטות—חייבים שכבות הגנה חיצוניות.
מחקר חדש מציע לזהות Jailbreak בשיחות קליניות דרך 4 תכונות לשוניות שמופקות אוטומטית
AsynDBT מציע כוונון פרומפטים ו-ICL מבוזר ואסינכרוני—בלי לשתף דאטה רגיש.
מחקר חדש: ב-MCP העיוות מצטבר ליניארית, וריענון כל ~9 צעדים שומר על שליטה.
ScaleBITS מבטיח כימות LLM מתחת ל-4 ביט עם שיפור עד 36% — בלי תקורת ריצה.
EXACT מציעה התאמה אישית בזמן דיקוד עם תכונות מפורשות—בדיוק למה ש-WhatsApp+CRM צריכים.
מחקר חדש מציע קדם-אימון רובסטי: 78.9% ב‑VQA-RAD ופחות נפילה תחת הפרעות.
DECKBench מציע סוף סוף דרך למדוד מצגות AI לפי נאמנות, פריסה וציות לתיקונים רב-סבביים.
מחקר מציג SBU למחיקת מידע רגיש מסוכני LLM—גם מזיכרון וגם מפרמטרים, כדי למנוע backflow.
arXiv מזהיר: 4bit אגרסיבי על Ascend NPU עלול לשבור Reasoning בהקשר ארוך; INT8 יציב.
קוריקולום+GRPO מקצרים CoT ב-27.4% ומעלים דיוק ב-11.29%—רלוונטי לשירות ב-WhatsApp.
A2A Hub על Cloud Run מייצב Gemini Enterprise בין חשבונות—עם מצב טקסט‑בלבד ו‑IAM נכון.
מחקר עם 63 סטודנטים: ציטוטים מומצאים וחנופה הם ההזיות המסוכנות—כך בונים בדיקה.
מחקר חדש בדק 4 LLMs לשאלות TFA—והלקח לעסקים: בלי שכבת בטיחות, בוט מסוכן.
Logitext מציע להפוך נהלים לטקסט “נבדק” עם SMT—רלוונטי במיוחד ל-WhatsApp בעסקים בישראל
TTG מדרגת מודלי שפה עם Elo דרך דו-קרבות חידות Python—רמז חדש לבחירת מודל ל-WhatsApp+CRM.
CodeScaler מציע תגמול לקוד בלי להריץ בדיקות—+11.72 נק׳ ופי-10 פחות latency (לפי המאמר).
מחקר חדש: OMAD מביאה דיפוזיה ל-MARL אונליין—ומדווחת על פי 2.5–5 יעילות דגימה.
APEMO מחלק תקציב חישוב לפי רגעי שיא וסיום כדי לייצב סוכנים ארוכי־טווח.
בנצ'מרק חדש מכייל ציוני זרימות עבודה: 44,757 “תקלות” מבוקרות כדי להבין חומרה אמיתית.
המחקר טוען: הזיות וחנופה אינן “באג”, אלא שיווי משקל שנובע ממודל עולם שגוי.
Mirai מגייסת 10M$ ומבטיחה עד 37% האצה ב-AI על Apple Silicon—בלי ענן בכל בקשה.
דמו GenAI על תוכן פיראטי? מיקרוסופט מחקה פוסט—תמרור אזהרה גם לעסקים בישראל
Toy Story 5 מציג טאבלט “שתמיד מקשיב”—והוא מזכיר לעסקים איך לאסוף פחות נתונים.