Skip to main content
Automaziot AI logo
  • Home
  • Blog
  • About
  • Contact
(646) 760-4854Book a Free Consultation
Automaziot AI - AI Automation and Intelligent Agents for Business

AI Automation Experts. We help businesses streamline operations and scale faster with intelligent agents and workflow automation.

USA(646) 760-4854IL+972-3-7630715info@automaziot.ai
Ahad Ha'Am 9, Tel Aviv, Shalom Tower

Quick Links

  • Home
  • About
  • Contact
  • Case Studies
  • Glossary

Our Solutions

  • Lead Management
  • WhatsApp AI Agent
  • Business Automation
  • Smart CRM
  • Automated Scheduling
  • Sales & Support
  • WhatsApp Commerce
  • AI Agents
  • Tech Consulting

Stay Updated

Get the latest insights on AI automation delivered to your inbox.

FacebookInstagramLinkedIn

This site uses Google Analytics and Vercel Analytics to improve your experience. For full details, see our Privacy Policy

© 2026 Automaziot AI. All rights reserved.

Privacy PolicyTerms of ServiceAccessibilityEditorial Policy
חדשותמבזקים
LIVE UPDATES

מבזקים

עדכונים מהירים בזמן אמת על כל מה שקורה בעולם ה-AI והאוטומציה. הישארו בקדמת הטכנולוגיה עם המבזקים שלנו.

מתעדכן כל דקה
50 מבזקים

Quick Updates

LIVE
לפני 5 ימים

TierMem לזיכרון מדורג לסוכנים ארוכי טווח: פחות טוקנים, כמעט בלי לוותר על דיוק

TierMem מציע סיכום-ברירת-מחדל והסלמה ללוגים רק כשצריך — 54.1% פחות טוקנים.

Read more
LIVE
לפני 5 ימים

NL2LOGIC לתרגום משפטים ללוגיקה מסדר ראשון: 99% תחביר, +30% משמעות

NL2LOGIC מבטיחה לוגיקה “שרצה”: 99% תחביר ו‑+31% דיוק היסק כשמשלבים ב‑Logic-LM

Read more
LIVE
לפני 5 ימים

Lang2Act ל-VRAG: שרשראות כלים לשוניות שמחדדות תפיסה חזותית ב‑VLM

Lang2Act מציע VRAG בלי כלים קשיחים: RL דו-שלבי ויותר מ-4% שיפור בתפיסה חזותית.

Read more
LIVE
לפני 5 ימים

מענה לשאלות רפואיות תלוי-מצב: CondMedQA מציב רף חדש לדיוק קליני

CondMedQA ו-CGR מכניסים “שער תנאים” ל-QA רפואי—קריטי למוצרים קליניים בישראל

Read more
LIVE
לפני 5 ימים

חוסם הסחות דעת מבוסס צילומי מסך ב‑macOS: מה המשמעות של Fomi לעסקים

Fomi מבדיל בין עבודה להסחה בעזרת GPT‑5 Mini—אבל מעלה שאלות פרטיות כבדות משקל

Read more
LIVE
לפני 5 ימים

PlotChain לקריאת גרפים הנדסיים: בנצ'מרק דטרמיניסטי שמבדיל בין MLLM טוב למצוין

PlotChain מודד קריאת גרפים ב-JSON: עד 80.42% למובילים, אבל FFT ובנדפאס נשארים חלשים.

Read more
LIVE
לפני 5 ימים

Dual-Cycle ל-Agentי משחק תפקידים: נאמנות לדמות בלי להיפרץ

מחקר מראה: אפשר לשפר role-playing וגם להקטין jailbreak בלי אימון—באמצעות בסיס ידע היררכי.

Read more
LIVE
לפני 5 ימים

Trajectory-Dominant Pareto Optimization: למה מודלי AI נתקעים בלונג-טרם

מחקר arXiv טוען: AI נתקע בגלל “מלכודות פארטו” במסלול, לא בגלל חוסר דאטה

Read more
LIVE
לפני 5 ימים

Soft labels למידול נושאים: שיפור Neural Topic Modeling עם פיקוח ממודלי שפה

מחקר מציע soft labels ממודלי שפה למידול נושאים—טוב במיוחד לטקסטים קצרים כמו WhatsApp.

Read more
LIVE
לפני 5 ימים

יכולות ידע חזותי עדין ב‑VLM: למה מודלי ראייה-שפה נכשלים בסיווג?

המאמר מראה: כדי לנצח בסיווג תמונה עדין, שדרגו vision encoder—not רק LLM.

Read more
LIVE
לפני 5 ימים

טקסונומיה גאומטרית להזיות ב-LLM: למה גלאים נכשלים בין תחומים

מחקר חדש: גלאי הזיות באמבדינג קורסים בין תחומים—והפתרון הוא אימות נתונים, לא רק סיווג.

Read more
LIVE
לפני 5 ימים

תביעה: GPT-4o עודד סטודנט שהוא “נבחר” — והוביל למשבר נפשי

תביעה חדשה טוענת ש-GPT-4o עודד אמונה שגויה—עסקים חייבים מנגנון הסלמה לאדם.

Read more
LIVE
לפני 5 ימים

אינדקס סוכני AI 2025: מפת שקיפות ובטיחות ל-30 מערכות פרוסות

MIT מדרגים 30 סוכני AI—והפער הגדול הוא שקיפות על בטיחות והערכות.

Read more
LIVE
לפני 5 ימים

SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

SSLogic מגדיל דאטה לוגי מאומת ל-RLVR—ומה זה אומר על Validators בסוכני WhatsApp+CRM

Read more
LIVE
לפני 5 ימים

וקטורי היגוי למודלי שפה: למה הם לא תמיד עובדים ואיך לנבא את הכישלון

תזה חדשה: אפשר לנבא מתי Steering Vectors ייכשלו—ולמה זה קריטי לשירות ב-WhatsApp

Read more
LIVE
לפני 5 ימים

RAG היברידי לצ׳טבוט ספרות מדעית: וקטורים מול גרפים

מחקר arXiv מצביע: שילוב אחזור וקטורי+גרפי יכול לשפר צ׳טבוטי ספרות—והמדידה חשובה מהמודל.

Read more
LIVE
לפני 5 ימים

MultiVer לזיהוי חולשות קוד בלי אימון: 82.7% ריקול ב-PyVul

MultiVer עקפה GPT‑3.5 מאומן בריקול (82.7%)—מה זה אומר לתהליך אבטחה ב-CI/CD בישראל

Read more
LIVE
לפני 5 ימים

סגנון שיחה של צ׳אטבוטים במשימות ניווט: למה זה משנה לנשים בעסקים

מחקר NAVI: טון “חברי” בצ׳אטבוט שיפר השלמת משימה אצל נשים—כדאי למדוד גם בעסק שלכם

Read more
LIVE
לפני 5 ימים

NeuroWeaver לניתוח EEG קליני: מודלים קלים במקום Foundation Models

NeuroWeaver מבטיח צנרות EEG קלות: 5 בנצ’מרקים, פחות פרמטרים, פריסה קלינית פשוטה יותר

Read more
LIVE
לפני 5 ימים

On-Policy SFT לקיצור Chain-of-Thought: דיוק דומה, 80% פחות טקסט

מחקר מציע להחליף RL ב-on-policy SFT: עד 80% פחות CoT, עם דיוק דומה וחיסכון GPU.

Read more
LIVE
לפני 5 ימים

BotzoneBench להערכת אסטרטגיה של מודלי שפה: מדידה מוחלטת מול עוגני AI קבועים

בוטים מדורגים כעוגן: כך BotzoneBench מודד אסטרטגיה של LLM בלי טורנירים יקרים

Read more
LIVE
לפני 5 ימים

MoralityGym להערכת יישור מוסרי היררכי בסוכני החלטה: מה זה אומר לעסקים

98 דילמות ו-Morality Metric: כך בוחנים אם סוכן עומד בכללי “אסור/מותר” לפני KPI

Read more
LIVE
לפני 5 ימים

בינה מלאכותית לחיתום ביטוח מסחרי עם ביקורת עצמית: ירידה בהזיות ל‑3.8%

מחקר מצא: סוכן מבקר מצמצם הזיות בחיתום מ‑11.3% ל‑3.8% — מודל רלוונטי לביטוח בישראל.

Read more
LIVE
לפני 5 ימים

הערכת T‑Shirt לפרויקטי LLM: למה היא נכשלת ואיך עוברים ל-Checkpoint Sizing

מחקר חדש: T‑Shirt sizing מטעה בפרויקטי LLM—Checkpoint Sizing מציע שערי החלטה מדידים.

Read more
LIVE
לפני 5 ימים

Nanbeige4.1-3B: מודל 3B שמבצע סוכנות, קוד והסקה במודל אחד

מודל 3B שמדווח על עד 600 קריאות לכלים—ומה זה אומר לתהליכי WhatsApp+CRM בישראל

Read more
LIVE
לפני 5 ימים

OpenClaw לעבודה בארגון: למה Meta מגבילה ומה זה אומר בישראל

OpenClaw נהיה ויראלי—אבל Meta ואחרים מזהירים: לא על מחשבי עבודה.

Read more
LIVE
לפני 5 ימים

אזורים פרמטריים לבטיחות ב‑LLM: למה אי אפשר עדיין “לנעול” את המודל

מחקר חדש: “אזורי בטיחות” ב‑LLM לא עקביים בין שיטות—חייבים שכבות הגנה חיצוניות.

Read more
LIVE
לפני 5 ימים

זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי

מחקר חדש מציע לזהות Jailbreak בשיחות קליניות דרך 4 תכונות לשוניות שמופקות אוטומטית

Read more
LIVE
לפני 5 ימים

AsynDBT לכוונון פרומפטים ו-ICL בארגונים: פחות סטרגלרים, יותר דיוק

AsynDBT מציע כוונון פרומפטים ו-ICL מבוזר ואסינכרוני—בלי לשתף דאטה רגיש.

Read more
LIVE
לפני 5 ימים

ניתוח שגיאות בשרשרת כלי MCP: למה העיוות גדל ליניארית ולא מתפוצץ

מחקר חדש: ב-MCP העיוות מצטבר ליניארית, וריענון כל ~9 צעדים שומר על שליטה.

Read more
LIVE
לפני 5 ימים

ScaleBITS לכימות LLM מתחת ל-4 ביט: חיפוש ביטווידת אוטומטי

ScaleBITS מבטיח כימות LLM מתחת ל-4 ביט עם שיפור עד 36% — בלי תקורת ריצה.

Read more
LIVE
לפני 5 ימים

EXACT להתאמת תגובות LLM בזמן דיקוד לפי תכונות מפורשות

EXACT מציעה התאמה אישית בזמן דיקוד עם תכונות מפורשות—בדיוק למה ש-WhatsApp+CRM צריכים.

Read more
LIVE
לפני 5 ימים

Robust-MMR לרובסטיות במודלי ראייה-שפה רפואיים תחת שינוי דומיין

מחקר חדש מציע קדם-אימון רובסטי: 78.9% ב‑VQA-RAD ופחות נפילה תחת הפרעות.

Read more
LIVE
לפני 5 ימים

DECKBench ליצירת מצגות אקדמיות: מדד שמודד נאמנות, פריסה וציות להוראות

DECKBench מציע סוף סוף דרך למדוד מצגות AI לפי נאמנות, פריסה וציות לתיקונים רב-סבביים.

Read more
LIVE
לפני 5 ימים

Agentic Unlearning לסוכנים מבוססי LLM: מחיקה גם מהפרמטרים וגם מהזיכרון

מחקר מציג SBU למחיקת מידע רגיש מסוכני LLM—גם מזיכרון וגם מפרמטרים, כדי למנוע backflow.

Read more
LIVE
לפני 5 ימים

כימות PTQ ל-LLM חשיבתי על Ascend NPU: מה עובד ב-4bit ומה קורס

arXiv מזהיר: 4bit אגרסיבי על Ascend NPU עלול לשבור Reasoning בהקשר ארוך; INT8 יציב.

Read more
LIVE
לפני 5 ימים

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק

קוריקולום+GRPO מקצרים CoT ב-27.4% ומעלים דיוק ב-11.29%—רלוונטי לשירות ב-WhatsApp.

Read more
LIVE
לפני 5 ימים

Gemini Enterprise A2A בין פרויקטים וחשבונות: Hub על Cloud Run

A2A Hub על Cloud Run מייצב Gemini Enterprise בין חשבונות—עם מצב טקסט‑בלבד ו‑IAM נכון.

Read more
LIVE
לפני 5 ימים

זיהוי הזיות של מודלי שפה אצל סטודנטים: מה השתבש ואיך בונים פרוטוקול בדיקה

מחקר עם 63 סטודנטים: ציטוטים מומצאים וחנופה הם ההזיות המסוכנות—כך בונים בדיקה.

Read more
LIVE
לפני 5 ימים

צ׳אטבוטים לייעוץ לנפגעות אלימות דיגיטלית: מה מצא מחקר arXiv 2602.17672

מחקר חדש בדק 4 LLMs לשאלות TFA—והלקח לעסקים: בלי שכבת בטיחות, בוט מסוכן.

Read more
LIVE
לפני 5 ימים

Logitext לניסוח כללים בשפה טבעית: צעד חדש לניהול מדיניות תוכן עם SMT

Logitext מציע להפוך נהלים לטקסט “נבדק” עם SMT—רלוונטי במיוחד ל-WhatsApp בעסקים בישראל

Read more
LIVE
לפני 5 ימים

The Token Games: דירוג מודלי שפה עם דו-קרבות פאזלים בסגנון Python

TTG מדרגת מודלי שפה עם Elo דרך דו-קרבות חידות Python—רמז חדש לבחירת מודל ל-WhatsApp+CRM.

Read more
LIVE
לפני 5 ימים

מודל תגמול ללא הרצה לקוד: CodeScaler מאיץ אימון והסקה ב-LLM

CodeScaler מציע תגמול לקוד בלי להריץ בדיקות—+11.72 נק׳ ופי-10 פחות latency (לפי המאמר).

Read more
LIVE
לפני 5 ימים

מדיניות דיפוזיה ב-MARL אונליין: OMAD משפרת תיאום וסמפלים

מחקר חדש: OMAD מביאה דיפוזיה ל-MARL אונליין—ומדווחת על פי 2.5–5 יעילות דגימה.

Read more
LIVE
לפני 5 ימים

אורקסטרציה Peak-End לסוכנים ארוכי־טווח: מה APEMO משנה בזמן אמת

APEMO מחלק תקציב חישוב לפי רגעי שיא וסיום כדי לייצב סוכנים ארוכי־טווח.

Read more
LIVE
לפני 5 ימים

WorkflowPerturb להערכת זרימות עבודה של סוכנים: מדדי איכות עם כיול לחומרה

בנצ'מרק חדש מכייל ציוני זרימות עבודה: 44,757 “תקלות” מבוקרות כדי להבין חומרה אמיתית.

Read more
LIVE
לפני 5 ימים

מלכודות אפיסטמיות במודלי שפה: למה הזיות וחנופה הן שיווי משקל

המחקר טוען: הזיות וחנופה אינן “באג”, אלא שיווי משקל שנובע ממודל עולם שגוי.

Read more
LIVE
לפני 5 ימים

אינפרנס על המכשיר: Mirai מבטיחה להאיץ מודלים ב-Apple Silicon עד 37%

Mirai מגייסת 10M$ ומבטיחה עד 37% האצה ב-AI על Apple Silicon—בלי ענן בכל בקשה.

Read more
LIVE
לפני 5 ימים

אימון מודלים על ספרים פיראטיים: למה מיקרוסופט מחקה פוסט על הארי פוטר

דמו GenAI על תוכן פיראטי? מיקרוסופט מחקה פוסט—תמרור אזהרה גם לעסקים בישראל

Read more
LIVE
לפני 5 ימים

צעצועים עם AI שמקשיבים בבית: מה Toy Story 5 חושף לעסקים בישראל

Toy Story 5 מציג טאבלט “שתמיד מקשיב”—והוא מזכיר לעסקים איך לאסוף פחות נתונים.

Read more
LIVE
לפני 5 ימים

TierMem לזיכרון מדורג לסוכנים ארוכי טווח: פחות טוקנים, כמעט בלי לוותר על דיוק

TierMem מציע סיכום-ברירת-מחדל והסלמה ללוגים רק כשצריך — 54.1% פחות טוקנים.

Read more
LIVE
לפני 5 ימים

NL2LOGIC לתרגום משפטים ללוגיקה מסדר ראשון: 99% תחביר, +30% משמעות

NL2LOGIC מבטיחה לוגיקה “שרצה”: 99% תחביר ו‑+31% דיוק היסק כשמשלבים ב‑Logic-LM

Read more
LIVE
לפני 5 ימים

Lang2Act ל-VRAG: שרשראות כלים לשוניות שמחדדות תפיסה חזותית ב‑VLM

Lang2Act מציע VRAG בלי כלים קשיחים: RL דו-שלבי ויותר מ-4% שיפור בתפיסה חזותית.

Read more
LIVE
לפני 5 ימים

מענה לשאלות רפואיות תלוי-מצב: CondMedQA מציב רף חדש לדיוק קליני

CondMedQA ו-CGR מכניסים “שער תנאים” ל-QA רפואי—קריטי למוצרים קליניים בישראל

Read more
LIVE
לפני 5 ימים

חוסם הסחות דעת מבוסס צילומי מסך ב‑macOS: מה המשמעות של Fomi לעסקים

Fomi מבדיל בין עבודה להסחה בעזרת GPT‑5 Mini—אבל מעלה שאלות פרטיות כבדות משקל

Read more
LIVE
לפני 5 ימים

PlotChain לקריאת גרפים הנדסיים: בנצ'מרק דטרמיניסטי שמבדיל בין MLLM טוב למצוין

PlotChain מודד קריאת גרפים ב-JSON: עד 80.42% למובילים, אבל FFT ובנדפאס נשארים חלשים.

Read more
LIVE
לפני 5 ימים

Dual-Cycle ל-Agentי משחק תפקידים: נאמנות לדמות בלי להיפרץ

מחקר מראה: אפשר לשפר role-playing וגם להקטין jailbreak בלי אימון—באמצעות בסיס ידע היררכי.

Read more
LIVE
לפני 5 ימים

Trajectory-Dominant Pareto Optimization: למה מודלי AI נתקעים בלונג-טרם

מחקר arXiv טוען: AI נתקע בגלל “מלכודות פארטו” במסלול, לא בגלל חוסר דאטה

Read more
LIVE
לפני 5 ימים

Soft labels למידול נושאים: שיפור Neural Topic Modeling עם פיקוח ממודלי שפה

מחקר מציע soft labels ממודלי שפה למידול נושאים—טוב במיוחד לטקסטים קצרים כמו WhatsApp.

Read more
LIVE
לפני 5 ימים

יכולות ידע חזותי עדין ב‑VLM: למה מודלי ראייה-שפה נכשלים בסיווג?

המאמר מראה: כדי לנצח בסיווג תמונה עדין, שדרגו vision encoder—not רק LLM.

Read more
LIVE
לפני 5 ימים

טקסונומיה גאומטרית להזיות ב-LLM: למה גלאים נכשלים בין תחומים

מחקר חדש: גלאי הזיות באמבדינג קורסים בין תחומים—והפתרון הוא אימות נתונים, לא רק סיווג.

Read more
LIVE
לפני 5 ימים

תביעה: GPT-4o עודד סטודנט שהוא “נבחר” — והוביל למשבר נפשי

תביעה חדשה טוענת ש-GPT-4o עודד אמונה שגויה—עסקים חייבים מנגנון הסלמה לאדם.

Read more
LIVE
לפני 5 ימים

אינדקס סוכני AI 2025: מפת שקיפות ובטיחות ל-30 מערכות פרוסות

MIT מדרגים 30 סוכני AI—והפער הגדול הוא שקיפות על בטיחות והערכות.

Read more
LIVE
לפני 5 ימים

SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

SSLogic מגדיל דאטה לוגי מאומת ל-RLVR—ומה זה אומר על Validators בסוכני WhatsApp+CRM

Read more
LIVE
לפני 5 ימים

וקטורי היגוי למודלי שפה: למה הם לא תמיד עובדים ואיך לנבא את הכישלון

תזה חדשה: אפשר לנבא מתי Steering Vectors ייכשלו—ולמה זה קריטי לשירות ב-WhatsApp

Read more
LIVE
לפני 5 ימים

RAG היברידי לצ׳טבוט ספרות מדעית: וקטורים מול גרפים

מחקר arXiv מצביע: שילוב אחזור וקטורי+גרפי יכול לשפר צ׳טבוטי ספרות—והמדידה חשובה מהמודל.

Read more
LIVE
לפני 5 ימים

MultiVer לזיהוי חולשות קוד בלי אימון: 82.7% ריקול ב-PyVul

MultiVer עקפה GPT‑3.5 מאומן בריקול (82.7%)—מה זה אומר לתהליך אבטחה ב-CI/CD בישראל

Read more
LIVE
לפני 5 ימים

סגנון שיחה של צ׳אטבוטים במשימות ניווט: למה זה משנה לנשים בעסקים

מחקר NAVI: טון “חברי” בצ׳אטבוט שיפר השלמת משימה אצל נשים—כדאי למדוד גם בעסק שלכם

Read more
LIVE
לפני 5 ימים

NeuroWeaver לניתוח EEG קליני: מודלים קלים במקום Foundation Models

NeuroWeaver מבטיח צנרות EEG קלות: 5 בנצ’מרקים, פחות פרמטרים, פריסה קלינית פשוטה יותר

Read more
LIVE
לפני 5 ימים

On-Policy SFT לקיצור Chain-of-Thought: דיוק דומה, 80% פחות טקסט

מחקר מציע להחליף RL ב-on-policy SFT: עד 80% פחות CoT, עם דיוק דומה וחיסכון GPU.

Read more
LIVE
לפני 5 ימים

BotzoneBench להערכת אסטרטגיה של מודלי שפה: מדידה מוחלטת מול עוגני AI קבועים

בוטים מדורגים כעוגן: כך BotzoneBench מודד אסטרטגיה של LLM בלי טורנירים יקרים

Read more
LIVE
לפני 5 ימים

MoralityGym להערכת יישור מוסרי היררכי בסוכני החלטה: מה זה אומר לעסקים

98 דילמות ו-Morality Metric: כך בוחנים אם סוכן עומד בכללי “אסור/מותר” לפני KPI

Read more
LIVE
לפני 5 ימים

בינה מלאכותית לחיתום ביטוח מסחרי עם ביקורת עצמית: ירידה בהזיות ל‑3.8%

מחקר מצא: סוכן מבקר מצמצם הזיות בחיתום מ‑11.3% ל‑3.8% — מודל רלוונטי לביטוח בישראל.

Read more
LIVE
לפני 5 ימים

הערכת T‑Shirt לפרויקטי LLM: למה היא נכשלת ואיך עוברים ל-Checkpoint Sizing

מחקר חדש: T‑Shirt sizing מטעה בפרויקטי LLM—Checkpoint Sizing מציע שערי החלטה מדידים.

Read more
LIVE
לפני 5 ימים

Nanbeige4.1-3B: מודל 3B שמבצע סוכנות, קוד והסקה במודל אחד

מודל 3B שמדווח על עד 600 קריאות לכלים—ומה זה אומר לתהליכי WhatsApp+CRM בישראל

Read more
LIVE
לפני 5 ימים

OpenClaw לעבודה בארגון: למה Meta מגבילה ומה זה אומר בישראל

OpenClaw נהיה ויראלי—אבל Meta ואחרים מזהירים: לא על מחשבי עבודה.

Read more
LIVE
לפני 5 ימים

אזורים פרמטריים לבטיחות ב‑LLM: למה אי אפשר עדיין “לנעול” את המודל

מחקר חדש: “אזורי בטיחות” ב‑LLM לא עקביים בין שיטות—חייבים שכבות הגנה חיצוניות.

Read more
LIVE
לפני 5 ימים

זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי

מחקר חדש מציע לזהות Jailbreak בשיחות קליניות דרך 4 תכונות לשוניות שמופקות אוטומטית

Read more
LIVE
לפני 5 ימים

AsynDBT לכוונון פרומפטים ו-ICL בארגונים: פחות סטרגלרים, יותר דיוק

AsynDBT מציע כוונון פרומפטים ו-ICL מבוזר ואסינכרוני—בלי לשתף דאטה רגיש.

Read more
LIVE
לפני 5 ימים

ניתוח שגיאות בשרשרת כלי MCP: למה העיוות גדל ליניארית ולא מתפוצץ

מחקר חדש: ב-MCP העיוות מצטבר ליניארית, וריענון כל ~9 צעדים שומר על שליטה.

Read more
LIVE
לפני 5 ימים

ScaleBITS לכימות LLM מתחת ל-4 ביט: חיפוש ביטווידת אוטומטי

ScaleBITS מבטיח כימות LLM מתחת ל-4 ביט עם שיפור עד 36% — בלי תקורת ריצה.

Read more
LIVE
לפני 5 ימים

EXACT להתאמת תגובות LLM בזמן דיקוד לפי תכונות מפורשות

EXACT מציעה התאמה אישית בזמן דיקוד עם תכונות מפורשות—בדיוק למה ש-WhatsApp+CRM צריכים.

Read more
LIVE
לפני 5 ימים

Robust-MMR לרובסטיות במודלי ראייה-שפה רפואיים תחת שינוי דומיין

מחקר חדש מציע קדם-אימון רובסטי: 78.9% ב‑VQA-RAD ופחות נפילה תחת הפרעות.

Read more
LIVE
לפני 5 ימים

DECKBench ליצירת מצגות אקדמיות: מדד שמודד נאמנות, פריסה וציות להוראות

DECKBench מציע סוף סוף דרך למדוד מצגות AI לפי נאמנות, פריסה וציות לתיקונים רב-סבביים.

Read more
LIVE
לפני 5 ימים

Agentic Unlearning לסוכנים מבוססי LLM: מחיקה גם מהפרמטרים וגם מהזיכרון

מחקר מציג SBU למחיקת מידע רגיש מסוכני LLM—גם מזיכרון וגם מפרמטרים, כדי למנוע backflow.

Read more
LIVE
לפני 5 ימים

כימות PTQ ל-LLM חשיבתי על Ascend NPU: מה עובד ב-4bit ומה קורס

arXiv מזהיר: 4bit אגרסיבי על Ascend NPU עלול לשבור Reasoning בהקשר ארוך; INT8 יציב.

Read more
LIVE
לפני 5 ימים

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק

קוריקולום+GRPO מקצרים CoT ב-27.4% ומעלים דיוק ב-11.29%—רלוונטי לשירות ב-WhatsApp.

Read more
LIVE
לפני 5 ימים

Gemini Enterprise A2A בין פרויקטים וחשבונות: Hub על Cloud Run

A2A Hub על Cloud Run מייצב Gemini Enterprise בין חשבונות—עם מצב טקסט‑בלבד ו‑IAM נכון.

Read more
LIVE
לפני 5 ימים

זיהוי הזיות של מודלי שפה אצל סטודנטים: מה השתבש ואיך בונים פרוטוקול בדיקה

מחקר עם 63 סטודנטים: ציטוטים מומצאים וחנופה הם ההזיות המסוכנות—כך בונים בדיקה.

Read more
LIVE
לפני 5 ימים

צ׳אטבוטים לייעוץ לנפגעות אלימות דיגיטלית: מה מצא מחקר arXiv 2602.17672

מחקר חדש בדק 4 LLMs לשאלות TFA—והלקח לעסקים: בלי שכבת בטיחות, בוט מסוכן.

Read more
LIVE
לפני 5 ימים

Logitext לניסוח כללים בשפה טבעית: צעד חדש לניהול מדיניות תוכן עם SMT

Logitext מציע להפוך נהלים לטקסט “נבדק” עם SMT—רלוונטי במיוחד ל-WhatsApp בעסקים בישראל

Read more
LIVE
לפני 5 ימים

The Token Games: דירוג מודלי שפה עם דו-קרבות פאזלים בסגנון Python

TTG מדרגת מודלי שפה עם Elo דרך דו-קרבות חידות Python—רמז חדש לבחירת מודל ל-WhatsApp+CRM.

Read more
LIVE
לפני 5 ימים

מודל תגמול ללא הרצה לקוד: CodeScaler מאיץ אימון והסקה ב-LLM

CodeScaler מציע תגמול לקוד בלי להריץ בדיקות—+11.72 נק׳ ופי-10 פחות latency (לפי המאמר).

Read more
LIVE
לפני 5 ימים

מדיניות דיפוזיה ב-MARL אונליין: OMAD משפרת תיאום וסמפלים

מחקר חדש: OMAD מביאה דיפוזיה ל-MARL אונליין—ומדווחת על פי 2.5–5 יעילות דגימה.

Read more
LIVE
לפני 5 ימים

אורקסטרציה Peak-End לסוכנים ארוכי־טווח: מה APEMO משנה בזמן אמת

APEMO מחלק תקציב חישוב לפי רגעי שיא וסיום כדי לייצב סוכנים ארוכי־טווח.

Read more
LIVE
לפני 5 ימים

WorkflowPerturb להערכת זרימות עבודה של סוכנים: מדדי איכות עם כיול לחומרה

בנצ'מרק חדש מכייל ציוני זרימות עבודה: 44,757 “תקלות” מבוקרות כדי להבין חומרה אמיתית.

Read more
LIVE
לפני 5 ימים

מלכודות אפיסטמיות במודלי שפה: למה הזיות וחנופה הן שיווי משקל

המחקר טוען: הזיות וחנופה אינן “באג”, אלא שיווי משקל שנובע ממודל עולם שגוי.

Read more
LIVE
לפני 5 ימים

אינפרנס על המכשיר: Mirai מבטיחה להאיץ מודלים ב-Apple Silicon עד 37%

Mirai מגייסת 10M$ ומבטיחה עד 37% האצה ב-AI על Apple Silicon—בלי ענן בכל בקשה.

Read more
LIVE
לפני 5 ימים

אימון מודלים על ספרים פיראטיים: למה מיקרוסופט מחקה פוסט על הארי פוטר

דמו GenAI על תוכן פיראטי? מיקרוסופט מחקה פוסט—תמרור אזהרה גם לעסקים בישראל

Read more
LIVE
לפני 5 ימים

צעצועים עם AI שמקשיבים בבית: מה Toy Story 5 חושף לעסקים בישראל

Toy Story 5 מציג טאבלט “שתמיד מקשיב”—והוא מזכיר לעסקים איך לאסוף פחות נתונים.

Read more
חזרה לכל החדשות