DSGym: מסגרת חדשה לבדיקת סוכני מדע נתונים

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

DSGym: מסגרת חדשה לבדיקת סוכני מדע נתונים

סוכני מדע נתונים מבטיחים מהפכה, אך בדיקות קיימות חלשות. DSGym – מסגרת חדשה להערכה ואימון אמיתיים. קראו עכשיו על DSBio, DSPredict והמודל שמכה GPT-4o.

DSGym DSGym-Tasks DSBio

קרא עוד

מחקר

23 בינואר 2026

4 דקות

מ־Google Research

GIST של גוגל: השלב הבא בדגימה חכמה

בעידן הלמידה המכונית... [פסקה ראשונה מלאה] קראו עכשיו את הפרטים המלאים על GIST!

GIST NeurIPS 2025 ImageNet

קרא עוד

כיול ביטחון אג'נטי: פריצת דרך לסוכני AI אמינים

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

כיול ביטחון אג'נטי: פריצת דרך לסוכני AI אמינים

בעידן שבו סוכני AI עוברים מלמידת שפה פסיבית למערכות אוטונומיות המבצעות משימות מורכבות רב-שלביות, הביטחון העודף שלהם בכשלונות נותר מחסום מרכזי להטמעה בסביבות בעלות סיכון גבוה. קראו על HTC החדשנית שמשנה את חוקי המשחק. קראו עכשיו!

HTC GAC GAIA

קרא עוד

AgentSM: זיכרון סמנטי לסוכנים ב-Text-to-SQL

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

AgentSM: זיכרון סמנטי לסוכנים ב-Text-to-SQL

האם מסדי הנתונים שלכם מסובכים מדי? AgentSM, מסגרת חדשנית ל-Text-to-SQL, משפרת יעילות ודיוק עם זיכרון סמנטי. קראו עכשיו!

AgentSM Spider 2.0 Spider 2.0 Lite

קרא עוד

ניהול סוכני AI בבריאות: תוכנית UALM למניעת כאוס

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

ניהול סוכני AI בבריאות: תוכנית UALM למניעת כאוס

ארגוני בריאות מתמודדים עם פיזור סוכני AI – תוכנית UALM מציעה 5 שכבות שליטה. קראו עכשיו על הניהול הבטוח!

UALM agentic AI

קרא עוד

PhysProver: פריצת דרך בהוכחת משפטים בפיזיקה

מחקר

23 בינואר 2026

3 דקות

מ־arXiv cs.AI

PhysProver: פריצת דרך בהוכחת משפטים בפיזיקה

בעידן שבו שילוב של שפות ניתנות לאימות ומודלי שפה גדולים משנה את עולם המתמטיקה, תחום הפיזיקה הפורמלית מקבל דחיפה עם PhysProver. קראו על השיפורים המרשימים. קראו עכשיו!

PhysProver PhysLeanData DeepSeek-Prover-V2-7B

קרא עוד

מכמות פסיבית לסיגנל פעיל: כימות אי-ודאות ב-LLM

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

מכמות פסיבית לסיגנל פעיל: כימות אי-ודאות ב-LLM

בעידן שבו דגמי שפה גדולים מציגים יכולות מרשימות אך אי-אמינות, סקר חדש חושף כיצד כימות אי-ודאות הפך לסיגנל בקרה פעיל בשלושה תחומים: היגיון, סוכנים ולמידה מחוזקת. קראו עכשיו!

Large Language Models Bayesian methods Conformal Prediction

קרא עוד

ALIGNAgent: AI ללמידה מותאמת וזיהוי פערי ידע

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

ALIGNAgent: AI ללמידה מותאמת וזיהוי פערי ידע

מערכות ללמידה מותאמת אישית מפוצלות? ALIGNAgent משנה את חוקי המשחק עם רב-סוכנים AI שמזהים פערים וממליצים במדויק. קראו על הביצועים המרשימים במחקר חדש.

ALIGNAgent GPT-4o

קרא עוד

בנצ'מרק חדש: Text-to-Python נגד Text-to-SQL

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

בנצ'מרק חדש: Text-to-Python נגד Text-to-SQL

בעידן הנתונים העצומים, מנהלי עסקים בישראל מחפשים כלים גמישים לניתוח מידע. מחקר חדש מציג BIRD-Python – בנצ'מרק שמוכיח כי Text-to-Python יכול להתחרות ב-Text-to-SQL. קראו עכשיו!

BIRD-Python Logic Completion Framework

קרא עוד

רשת בינלאומית משפרת בדיקות סוכני AI: דליפות, הונאה וסייבר

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

רשת בינלאומית משפרת בדיקות סוכני AI: דליפות, הונאה וסייבר

סוכני AI אוטונומיים מביאים סיכונים חדשים – רשת בינלאומית משפרת מתודולוגיות בדיקה. קראו על התרגיל השלישי ועל מסלולי הסיכונים.

International Network for Advanced AI Measurement, Evaluation and Science Singapore AISI UK AISI

קרא עוד

מודלי עולם: ממנועי וידאו להארקה פיזית אמיתית

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

מודלי עולם: ממנועי וידאו להארקה פיזית אמיתית

האם AI יכול לתכנן עתידות מדומיינים באופן אמין שיציל חיים? סקירה חדשה ב-arXiv טוענת כי מודלי עולם נוכחיים סובלים מבלבול ויזואלי ומתעלמים מפיזיקה. קראו עכשיו על הפתרון: סימולטורים ברי-ביצוע.

World Models

קרא עוד

SigEnt-SAC: למידה מחוזקת בעולם האמיתי עם מסלול מומחה אחד

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

SigEnt-SAC: למידה מחוזקת בעולם האמיתי עם מסלול מומחה אחד

בעולם שבו פריסת למידה מחוזקת נתקלת בקשיים רבים, SigEnt-SAC מאפשרת למידה מאפס עם מסלול מומחה אחד בלבד. קראו על התוצאות המרשימות בעולם האמיתי.

SigEnt-SAC D4RL

קרא עוד

בדיקות בטיחות AI רב-לשוניות: תוצאות מפתיעות

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

בדיקות בטיחות AI רב-לשוניות: תוצאות מפתיעות

בעידן שבו מודלי AI מתפשטים בעולם כולו, חשוב לוודא שהם בטוחים בכל שפה ותרבות. מחקר חדש בדק שני מודלים בעשר שפות וגילה פערים בבטיחות. קראו את התוצאות המלאות עכשיו! (112 מילים)

Singapore AISI International Network for Advanced AI Measurement, Evaluation and Science

קרא עוד

CogToM: בנצ'מרק חדש לתיאוריית הנפש ב-LLMs

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

CogToM: בנצ'מרק חדש לתיאוריית הנפש ב-LLMs

האם LLMs מבינים תיאוריית הנפש כמו בני אדם? CogToM, בנצ'מרק חדש עם 8,000 דוגמאות, בודק זאת ומגלה פערים. קראו עכשיו על התוצאות!

CogToM GPT-5.1 Qwen3-Max

קרא עוד

בנצ'מרק TRACK חושף כשלי LLMs בחשיבה עם ידע סותר

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

בנצ'מרק TRACK חושף כשלי LLMs בחשיבה עם ידע סותר

בעידן שבו מודלי שפה גדולים מניעים החלטות עסקיות, בנצ'מרק TRACK חושף כשל: עדכון ידע סותר מחמיר ביצועי חשיבה רב-שלבית. קראו את הניתוח המלא עכשיו.

TRACK arXiv:2601.15495 WIKI

קרא עוד

TabII: הסקה מוטבעת חדשה לנתונים טבלאיים דינמיים

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

TabII: הסקה מוטבעת חדשה לנתונים טבלאיים דינמיים

נתונים טבלאיים משתנים – מודלי AI נתקעים. TabII מאפשרת הסקה מוטבעת עם עמודות חדשות ללא אימון מחדש. קראו על השיטה ששברה שיאים במבחנים. קראו עכשיו.

TabII Large Language Model TabAdapter

קרא עוד

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

פריצת דרך: AUQ משפרת אמינות סוכני AI

סוכני AI סובלים מספירלת הזיות – שגיאות שמתפשטות. מסגרת AUQ החדשה, ללא אימון, משפרת אמינות עם UAM ו-UAR. קראו עכשיו על הפריצה הזו!

AUQ UAM UAR

קרא עוד

AUTOBUS: מערכת עסקים אוטונומית מבוססת AI נוירו-סמלי

מחקר

23 בינואר 2026

2 דקות

מ־arXiv cs.AI

AUTOBUS: מערכת עסקים אוטונומית מבוססת AI נוירו-סמלי

בעידן העסקי המהיר שבו ארגונים נדרשים לשנות תהליכים חוצי-פונקציות כל הזמן, מערכות הארגון נשארות תקועות במבנה סילואים. AUTOBUS – מערכת עסקים אוטונומית מבוססת AI נוירו-סמלי – משלבת סוכני LLM ולוגיקה כדי להפעיל יוזמות עסקיות. קראו עכשיו על החידוש.

AUTOBUS

קרא עוד

חדשות מחקר

מחקר - עמוד 44

DSGym: מסגרת חדשה לבדיקת סוכני מדע נתונים

GIST של גוגל: השלב הבא בדגימה חכמה

כיול ביטחון אג'נטי: פריצת דרך לסוכני AI אמינים

AgentSM: זיכרון סמנטי לסוכנים ב-Text-to-SQL

ניהול סוכני AI בבריאות: תוכנית UALM למניעת כאוס

PhysProver: פריצת דרך בהוכחת משפטים בפיזיקה

מכמות פסיבית לסיגנל פעיל: כימות אי-ודאות ב-LLM

ALIGNAgent: AI ללמידה מותאמת וזיהוי פערי ידע

בנצ'מרק חדש: Text-to-Python נגד Text-to-SQL

רשת בינלאומית משפרת בדיקות סוכני AI: דליפות, הונאה וסייבר

מודלי עולם: ממנועי וידאו להארקה פיזית אמיתית

SigEnt-SAC: למידה מחוזקת בעולם האמיתי עם מסלול מומחה אחד

בדיקות בטיחות AI רב-לשוניות: תוצאות מפתיעות

CogToM: בנצ'מרק חדש לתיאוריית הנפש ב-LLMs

בנצ'מרק TRACK חושף כשלי LLMs בחשיבה עם ידע סותר

TabII: הסקה מוטבעת חדשה לנתונים טבלאיים דינמיים

פריצת דרך: AUQ משפרת אמינות סוכני AI

AUTOBUS: מערכת עסקים אוטונומית מבוססת AI נוירו-סמלי