03-7630715 קבע יעוץ חינם

חדשות מחקר | עמוד 18

מחקר

חדשות מחקר

מחקרים ופרסומים אקדמיים בתחום הבינה המלאכותית

1449

כתבות

LIVE

משפט מאסק נגד אלטמן: התפקיד החשאי של שיבון זיליס בדירקטוריון

אבטחת מידע ברשתות סוכני AI: סכנות חדשות בעבודה אוטונומית

מאסק נגד אלטמן והשפעת סוכני בינה מלאכותית על מצבת כוח אדם: מציאות 2026

הסייע הרפואי של Google DeepMind: מערכות בינה מלאכותית למרפאות פרטיות בישראל

ספקולטיב דיקודינג במובייל: למה AHASD משנה את המשחק

Auto-ARGUE להערכת דוחות RAG: למה זה חשוב לעסקים

מיקרוסופט קופיילוט לארגונים: 20 מיליון משתמשים בתשלום

השקעות ענן ל-AI באמזון: מה זינוק AWS אומר לעסקים

צווארי בקבוק ב-Google Cloud: מה זה אומר על AI ארגוני

Empirical Research Assistance של גוגל: מה עסקים בישראל לומדים מזה

מנויי Google One ו-YouTube מזנקים: מה זה אומר לעסקים

רובוטקסי וחירום עירוני: למה Waymo מסתבכת בשטח

Parallel Web Systems ושוק כלי המחקר לסוכני AI מזנקים

מודלי עולם ב-AI וידאו: למה Runway מכוונת מעבר להוליווד

Gemini ב-Google TV: מה זה אומר לעסקים עם מסכים חכמים

משפט מאסק נגד אלטמן: התפקיד החשאי של שיבון זיליס בדירקטוריון

אבטחת מידע ברשתות סוכני AI: סכנות חדשות בעבודה אוטונומית

מאסק נגד אלטמן והשפעת סוכני בינה מלאכותית על מצבת כוח אדם: מציאות 2026

הסייע הרפואי של Google DeepMind: מערכות בינה מלאכותית למרפאות פרטיות בישראל

ספקולטיב דיקודינג במובייל: למה AHASD משנה את המשחק

Auto-ARGUE להערכת דוחות RAG: למה זה חשוב לעסקים

מיקרוסופט קופיילוט לארגונים: 20 מיליון משתמשים בתשלום

השקעות ענן ל-AI באמזון: מה זינוק AWS אומר לעסקים

צווארי בקבוק ב-Google Cloud: מה זה אומר על AI ארגוני

Empirical Research Assistance של גוגל: מה עסקים בישראל לומדים מזה

מנויי Google One ו-YouTube מזנקים: מה זה אומר לעסקים

רובוטקסי וחירום עירוני: למה Waymo מסתבכת בשטח

Parallel Web Systems ושוק כלי המחקר לסוכני AI מזנקים

מודלי עולם ב-AI וידאו: למה Runway מכוונת מעבר להוליווד

Gemini ב-Google TV: מה זה אומר לעסקים עם מסכים חכמים

הכל חדשות ניתוח מחקר מוצר חדש מדריך דעה

מחקר - עמוד 18

עמוד 18 מתוך 81

On-Policy SFT לקיצור Chain-of-Thought: דיוק דומה, 80% פחות טקסט

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

On-Policy SFT לקיצור Chain-of-Thought: דיוק דומה, 80% פחות טקסט

**On-Policy SFT היא גישת אימון למודלי Reasoning שמחליפה RL מורכב באימון מפוקח על תשובות שהמודל עצמו ייצר—ואז סוננו לפי נכונות וקיצור.** לפי arXiv:2602.13407v1, השיטה מקצרת Chain-of-Thought בעד 80% בלי לפגוע בדיוק, ובמקביל משפרת את יעילות האימון (עד 50% פחות זיכרון GPU ו-70% התכנסות מהירה יותר). לעסקים בישראל המשמעות פרקטית: פחות טוקנים בשיחות WhatsApp, זמן תגובה קצר יותר, ופחות סיכון לתשובות ארוכות שחושפות מידע לא נחוץ. גם בלי צוות ML, אפשר ליישם את העיקרון דרך איסוף “תשובות זהב” קצרות, סינון תשובות ארוכות ב-N8N, ותיעוד נקי ב-Zoho CRM.

On-Policy SFT EIT-NLP GitHub

BotzoneBench להערכת אסטרטגיה של מודלי שפה: מדידה מוחלטת מול עוגני AI קבועים

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

BotzoneBench להערכת אסטרטגיה של מודלי שפה: מדידה מוחלטת מול עוגני AI קבועים

**BotzoneBench הוא בנצ'מרק שמודד יכולות אסטרטגיות של מודלי שפה בצורה יציבה לאורך זמן—באמצעות השוואה לעוגנים קבועים של בוטים מדורגים (AI למשחקים) במקום טורנירי LLM-מול-LLM.** לפי המאמר arXiv:2602.13214v1, ההערכה מכסה 8 משחקים ונשענת על 177,047 זוגות מצב-פעולה, כך שניתן לקבל מדידה “מוחלטת” ולא דירוג שתלוי במאגר מודלים משתנה. לעסקים בישראל זה מתרגם לצורך בהערכה מעוגנת של מערכות החלטה בוואטסאפ וב-CRM: הגדירו תרחישים מדורגים (קל/בינוני/קשה), מדיניות פעולה קבועה (למשל SLA של 5 דקות והסלמה אחרי 2 ניסיונות), ולוגים ב-N8N כדי להשוות מודלים לאורך זמן בצורה הוגנת.

Botzone BotzoneBench Large Language Models

MoralityGym להערכת יישור מוסרי היררכי בסוכני החלטה: מה זה אומר לעסקים

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

MoralityGym להערכת יישור מוסרי היררכי בסוכני החלטה: מה זה אומר לעסקים

**MoralityGym הוא Benchmark שמודד יישור מוסרי היררכי בסוכני קבלת החלטות, עם 98 דילמות אתיות כסביבות Gymnasium ומדד Morality Metric שמפריד בין הצלחת משימה לבין עמידה בנורמות.** לפי arXiv:2602.13372v1, גם שיטות Safe RL מציגות מגבלות כשהכללים סותרים ומדורגים. לעסקים בישראל זה רלוונטי במיוחד במערכות שירות ומכירה שמבצעות פעולות: WhatsApp Business API שמחובר ל-Zoho CRM דרך N8N יכול לסגור יותר פניות, אבל גם להפר כלל גבוה כמו פרטיות או הוגנות אם אין “שרשרת נורמות” מוגדרת. הצעד הפרקטי: להגדיר 10 החלטות רגישות, לקבוע להן היררכיית כללים (פרטיות/ציות מעל KPI), ולהוסיף לוגים והסלמה לנציג אנושי במקרים רגישים.

MoralityGym Morality Chains Morality Metric

בינה מלאכותית לחיתום ביטוח מסחרי עם ביקורת עצמית: ירידה בהזיות ל‑3.8%

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

בינה מלאכותית לחיתום ביטוח מסחרי עם ביקורת עצמית: ירידה בהזיות ל‑3.8%

**ביקורת עצמית אדוורסרית בסוכני AI לחיתום ביטוח מסחרי היא מנגנון בטיחות שבו סוכן “מבקר” מאתגר את מסקנות הסוכן הראשי לפני שהן מגיעות לחתם אנושי. לפי arXiv:2602.13213v1, בניסוי על 500 מקרי חיתום מאומתים-מומחים, הגישה הורידה הזיות מ‑11.3% ל‑3.8% והעלתה דיוק החלטות מ‑92% ל‑96%, תוך שמירה על סמכות אנושית מלאה בהחלטות מחייבות. עבור עסקים בישראל—סוכנויות ביטוח, ברוקרים ו-MGA—המשמעות היא פיילוט תפעולי שבו מסמכים נכנסים דרך WhatsApp Business API, נפתחים כתיק ב-Zoho CRM, וזרימת N8N מפעילה “סוכן + מבקר” שמספקים תקציר מבוסס-ראיות ורשימת חסרים. כך מצמצמים טעויות, משפרים תיעוד לציות, ומקצרים זמן מענה בלי להוציא את האדם מהלולאה.

Agentic AI Commercial Insurance Underwriting WhatsApp Business API

Nanbeige4.1-3B: מודל 3B שמבצע סוכנות, קוד והסקה במודל אחד

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

Nanbeige4.1-3B: מודל 3B שמבצע סוכנות, קוד והסקה במודל אחד

**Nanbeige4.1-3B הוא מודל שפה קטן (3B פרמטרים) שמנסה לאחד במודל אחד יכולות של סוכן עם שימוש בכלים, יצירת קוד והסקה כללית. לפי המאמר ב-arXiv (2602.13367v1), האימון מכוון לאינטראקציות יציבות לטווח ארוך ומדווח על יכולת להגיע עד 600 תורות של קריאות לכלים — נתון שמעניין במיוחד עסקים שבונים תהליכים רב-שלביים.** לעסקים בישראל המשמעות יכולה להיות פריסה זולה יותר וקרובה יותר לנתונים (שרת פרטי/ענן פרטי), מה שמקטין חשיפה של מידע לקוחות ומקל על ציות. השילוב המתבקש בשטח הוא תזמור תהליכים ב‑N8N יחד עם Zoho CRM ו‑WhatsApp Business API, כדי לסגור מעגל “ליד → בדיקה → תיאום → עדכון CRM” עם פחות לוגיקה ידנית ויותר עקביות.

Nanbeige4.1-3B Nanbeige4-3B-2511 Qwen3-4B

אזורים פרמטריים לבטיחות ב‑LLM: למה אי אפשר עדיין “לנעול” את המודל

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

אזורים פרמטריים לבטיחות ב‑LLM: למה אי אפשר עדיין “לנעול” את המודל

**“אזור בטיחות” במודל שפה גדול הוא ניסיון לזהות תת‑קבוצה של פרמטרים שאחראית להתנהגות בטיחותית, כדי להקפיא/להגביל רק אותה. לפי מחקר arXiv:2602.17696v1, ארבע שיטות נפוצות לזיהוי אזורי בטיחות (ממשקלים ועד שכבות Transformer) מייצרות חפיפה נמוכה‑בינונית במדד IoU, והחפיפה יורדת משמעותית כשמחדדים את האזור בעזרת Utility datasets (שאילתות לא מזיקות).** לעסקים בישראל זה אומר שלא כדאי לבנות על “נעילת פרמטרים” כפתרון בטיחות יחיד, במיוחד כשמחברים LLM ל‑WhatsApp Business API או ל‑Zoho CRM. במקום זאת, מומלץ להוסיף שכבת שער ב‑N8N, להגביל שדות שמותר לשלוף מה‑CRM, ולנהל מסלול הסלמה לנציג אנושי עם לוגים ובקרות ציות לחוק הגנת הפרטיות.

Transformer IoU Meta

זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי

**זיהוי Jailbreak ב-LLM קליניים הוא זיהוי סטיות לשוניות שמרמזות שמשתמש מנסה להוציא מערכת הדרכה רפואית מהקשר מקצועי, רפואי או אתי. במחקר arXiv:2602.13321v1 החוקרים החליפו תיוג ידני של 4 תכונות (מקצועיות, רלוונטיות רפואית, אתיקה והסחת הקשר) במודלים מבוססי BERT שמנבאים את הציונים מהטקסט, ואז מזינים אותם למסווג שמעריך הסתברות ל-Jailbreak.** למרות שהמיקוד קליני, השיטה רלוונטית גם לעסקים בישראל שמפעילים מערכות שיחה בוואטסאפ או צ׳אט: תכונות ברות-פרשנות מאפשרות לקבוע ספים, לתעד ב-CRM (כמו Zoho) ולהפעיל זרימות ב-N8N שמנתבות שיחות חשודות לנציג אנושי. היתרון: לא “לרדוף” אחרי ניסוחי עקיפה, אלא למדוד שינויי התנהגות בשפה.

BERT 2-Sigma WhatsApp Business API

AsynDBT לכוונון פרומפטים ו-ICL בארגונים: פחות סטרגלרים, יותר דיוק

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

AsynDBT לכוונון פרומפטים ו-ICL בארגונים: פחות סטרגלרים, יותר דיוק

**AsynDBT הוא אלגוריתם אסינכרוני ללמידה מבוזרת שמכוונן יחד דוגמאות In‑Context Learning (ICL) ושברי פרומפט לפי משוב ממודל שפה (LLM), בלי Fine‑Tuning של המודל.** לפי arXiv:2602.17694v1, המטרה היא להתמודד עם שתי בעיות שמקשות על שימוש ארגוני ב-LLM APIs: “סטרגלרים” (צדדים איטיים במערכת מבוזרת) ונתונים הטרוגניים non‑IID בין אתרים. לעסקים בישראל זה חשוב במיוחד כשדאטה רגיש (WhatsApp, תיקים משפטיים, מידע רפואי) לא יכול להתרכז במקום אחד. במקום לכוונן פרומפטים ידנית שבועות, אפשר לבנות תהליך PromptOps מדיד: KPI ברורים, סט דוגמאות ICL לכל סניף, ותיעוד גרסאות באמצעות N8N, יחד עם Zoho CRM ו-WhatsApp Business API. כך אתם משפרים איכות תשובות ומקטינים סבבי ניסוי יקרים.

AsynDBT Large Language Models LLM API

ניתוח שגיאות בשרשרת כלי MCP: למה העיוות גדל ליניארית ולא מתפוצץ

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

ניתוח שגיאות בשרשרת כלי MCP: למה העיוות גדל ליניארית ולא מתפוצץ

**שגיאות בסוכן LLM שמבצע שרשרת קריאות לכלים (MCP) לא חייבות “להתפוצץ”.** לפי arXiv:2602.13320v1, העיוות המצטבר גדל בקירוב ליניארי עם מספר הצעדים T, והסטיות סביב המגמה נשלטות בהסתברות גבוהה בגבול O(√T). בניסויים על Qwen2-7B, Llama-3-8B ו-Mistral-7B, המדידות עקבו אחרי המודל התיאורטי; שקלול סמנטי במדד הפחית עיוות בכ-80%, וריענון מקור אמת (“re-grounding”) כל ~9 צעדים הספיק לבקרת שגיאות. לעסקים בישראל שמחברים WhatsApp Business API ל-Zoho CRM דרך N8N, זה מתרגם לכלל עבודה: לקבוע נקודות בדיקה מחזוריות מול ה-CRM לפני פעולות קריטיות כמו תמחור, קביעת פגישה או הפקת מסמך.

Model Context Protocol MCP Qwen2-7B

ScaleBITS לכימות LLM מתחת ל-4 ביט: חיפוש ביטווידת אוטומטי

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

ScaleBITS לכימות LLM מתחת ל-4 ביט: חיפוש ביטווידת אוטומטי

**ScaleBITS היא מסגרת לכימות משקלים במודלי שפה גדולים שמקצה אוטומטית ביטווידת לכל בלוק תחת תקציב זיכרון, תוך התאמה לחומרה.** לפי המאמר (arXiv:2602.17698v1), השיטה מציגה שיפור עד 36% לעומת כימות אחיד ועד 13% מול שיטות רגישות אחרות במשטר “מתחת ל‑4 ביט בממוצע” — ומדגישה שאין תקורת ריצה נוספת. לעסקים בישראל זה רלוונטי כשמריצים LLM כחלק מתהליך שירות/מכירות: WhatsApp Business API → ניסוח תשובה בעברית → עדכון Zoho CRM → אוטומציה ב‑N8N. כימות יעיל יכול להקטין VRAM ועלויות GPU, לאפשר הרצה על תשתית צנועה יותר, ולשפר שליטה בנתונים כשנמנעים משליחת מידע רגיש לענן.

ScaleBITS WhatsApp Business API Zoho CRM

EXACT להתאמת תגובות LLM בזמן דיקוד לפי תכונות מפורשות

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

EXACT להתאמת תגובות LLM בזמן דיקוד לפי תכונות מפורשות

**EXACT היא שיטה להתאמה אישית של מודלי שפה בזמן דיקוד, שמכוונת את התשובה לפי סט תכונות מפורשות (כמו טון, אורך ומבנה) במקום “וקטור העדפה” סמוי. לפי arXiv:2602.17695v1, היא לומדת ממשוב pairwise מצומצם בשלב offline, ובזמן אמת מאחזרת את התכונות הסמנטיות הרלוונטיות לפרומפט ומזריקה אותן להקשר כדי להתמודד עם שינויי העדפות בין משימות.** לעסקים בישראל זה מתחבר במיוחד לערוצי WhatsApp: אותו לקוח מצפה לתשובה קצרה בליד חדש, אבל לנוהל מסודר בקריאת שירות. חיבור WhatsApp Business API ל-Zoho CRM דרך N8N מאפשר לבחור תכונות לפי סטטוס לקוח/עסקה, ולמדוד KPI כמו זמן תגובה ושיעור סגירה — בלי לאמן מודל מחדש.

EXACT McKinsey Gartner

Robust-MMR לרובסטיות במודלי ראייה-שפה רפואיים תחת שינוי דומיין

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

Robust-MMR לרובסטיות במודלי ראייה-שפה רפואיים תחת שינוי דומיין

**Robust-MMR הוא קדם-אימון ללא פיקוח למודלי ראייה-ושפה רפואיים שמכניס “רובסטיות” לתוך הלמידה, כדי לצמצם נפילות ביצועים כשמכשיר הדימות, פרוטוקול הצילום או סגנון הדיווח משתנים. לפי arXiv:2602.17689v1, השיטה מגיעה ל‑78.9% דיוק cross-domain ב‑VQA-RAD (גבוה ב‑3.8 נק’ אחוז מהבייסליין) ומשפרת תוצאות תחת הפרעות מ‑69.1% ל‑75.6%.** לעסקים בישראל זה רלוונטי גם מחוץ לרפואה: כל תהליך שמקבל תמונות, מסמכים וטקסט חופשי (למשל ב‑WhatsApp) סובל מ”שינוי דומיין” יומיומי. המסקנה הפרקטית: למדוד עמידות כבר בפיילוט, לתכנן נפילה של מודאליות, ולשמור “רשומת אמת” במערכת כמו Zoho CRM דרך זרימות N8N.

Robust-MMR VQA-RAD SLAKE

DECKBench ליצירת מצגות אקדמיות: מדד שמודד נאמנות, פריסה וציות להוראות

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

DECKBench ליצירת מצגות אקדמיות: מדד שמודד נאמנות, פריסה וציות להוראות

**DECKBench הוא בנצ’מרק חדש שמודד יצירה ועריכה של מצגות אקדמיות על ידי מערכות מרובות-סוכנים—לא רק לפי “איכות סיכום”, אלא גם לפי נאמנות למאמר, קוהרנטיות בין שקפים, איכות פריסה (layout) ויכולת לציית להוראות עריכה לאורך כמה סבבים.** לפי המאמר ב-arXiv, הדאטה בנוי מזוגות “מאמר→מצגת” עם הוראות עריכה מדומות, והקוד זמין ב-GitHub. לעסקים בישראל זה רלוונטי כי רוב העבודה האמיתית היא סבבי תיקון: התאמת מסרים, הסרת מידע רגיש, ושמירה על תבנית מותג. אם אתם מפיקים דקים ממסמכים (נהלים, הצעות, הדרכות), כדאי לבנות תהליך מודולרי (סיכום→תכנון→HTML→בדיקות) ולנהל משוב רב-סבבי דרך מערכות כמו Zoho CRM, N8N ו-WhatsApp Business API.

DECKBench GitHub Morgan Heisler

Agentic Unlearning לסוכנים מבוססי LLM: מחיקה גם מהפרמטרים וגם מהזיכרון

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

Agentic Unlearning לסוכנים מבוססי LLM: מחיקה גם מהפרמטרים וגם מהזיכרון

**Agentic Unlearning הוא מנגנון שמוחק מידע רגיש מסוכן מבוסס LLM גם ממשקלי המודל וגם מהזיכרון המתמשך וממערכת האחזור (RAG).** לפי מאמר arXiv:2602.17692v1, המסגרת SBU מסנכרנת “דו-עדכון” בין מסלול הזיכרון למסלול הפרמטרים כדי למנוע מצב שבו מידע שנמחק חוזר דרך backflow (למשל: זיכרון שמזין מחדש את המודל או להפך), ונבחנה על משימות שאלות-תשובות רפואיות עם פגיעה מוגבלת בידע שנשמר. לעסקים בישראל זה רלוונטי במיוחד כשסוכנים עובדים על WhatsApp, שומרים סיכומי שיחה ב-Zoho CRM ומחזיקים אינדקס וקטורי. מחיקה “רק ב-CRM” לא מספיקה—צריך תהליך מחיקה מסונכרן בכל נקודות השמירה, רצוי דרך N8N ומדיניות retention מספרית.

Synchronized Backflow Unlearning SBU Retrieval-Augmented Generation

כימות PTQ ל-LLM חשיבתי על Ascend NPU: מה עובד ב-4bit ומה קורס

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

כימות PTQ ל-LLM חשיבתי על Ascend NPU: מה עובד ב-4bit ומה קורס

כימות PTQ (Post‑Training Quantization) הוא דרך לדחוס מודל שפה אחרי אימון ל-INT8/INT4 כדי להקטין זיכרון ולשפר ביצועים בפריסה. לפי arXiv:2602.17693v1 שבחן מודלי reasoning כמו DeepSeek-R1-Distill-Qwen (1.5B/7B/14B) ו-QwQ-32B על Ascend NPU, מתקבלת רגישות פלטפורמה מובהקת: INT8 נשאר יציב מספרית, בעוד שכימות 4bit אגרסיבי למשקולות+אקטיבציות עלול ליצור חוסר יציבות בכיול שכבות ולהוביל ל״קריסת לוגיקה״ בהקשר ארוך. לעסקים בישראל שמפעילים תהליכים מבוססי WhatsApp ו-CRM, ההמלצה הפרקטית היא להתחיל ב-INT8, לבנות סט בדיקות הקשר ארוך אמיתי מהדאטה שלכם, ורק אחר כך לשקול 4bit weight-only עם מדידת ביצועים מקצה לקצה (כולל overhead של dynamic quantization).

Ascend NPU DeepSeek-R1-Distill-Qwen QwQ-32B

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק

**דיסטילציית Chain-of-Thought (CoT) יעילה מאפשרת ללמד מודל קטן לבצע נימוק רב-שלבי כמו מודל גדול, אבל להוציא תשובה קצרה שמתאימה לערוצי שירות ומכירה.** לפי arXiv:2602.17686v1, קוריקולום בן 3 שלבים (מסיכות מבניות, אופטימיזציה עם GRPO, ושכתוב ממוקד של מקרי כשל) העלה את הדיוק של Qwen2.5-3B-Base ב-11.29% והקטין את אורך הפלט ב-27.4% על GSM8K. לעסקים בישראל זה מתרגם ישירות לעלויות טוקנים ולחוויית לקוח, במיוחד בשירות ב-WhatsApp. ההמלצה המעשית: להפריד בין “נימוק חיצוני” קצר ללקוח לבין לוג מלא ב-Zoho CRM, ולהפעיל את הזרימה דרך N8N כדי למדוד זמן תגובה ושיעור פתרון בפנייה ראשונה.

Qwen2.5-3B-Base GSM8K GRPO

זיהוי הזיות של מודלי שפה אצל סטודנטים: מה השתבש ואיך בונים פרוטוקול בדיקה

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

זיהוי הזיות של מודלי שפה אצל סטודנטים: מה השתבש ואיך בונים פרוטוקול בדיקה

**הזיות של מודלי שפה הן תשובות שנשמעות בטוחות ומנומקות, אבל כוללות מידע שגוי או מקורות מומצאים.** במחקר arXiv:2602.17671 על 63 סטודנטים, הבעיות השכיחות היו ציטוטים מפוברקים, מידע לא נכון, ביטחון יתר, אי-עמידה בהנחיות וחנופה (sycophancy). סטודנטים זיהו הזיות או דרך אינטואיציה (“זה לא נשמע נכון”) או באמצעות אימות אקטיבי כמו הצלבה מול מקורות חיצוניים ורה-פרומפטינג. לעסקים בישראל זה רלוונטי במיוחד כשמשתמשים ב-LLM להודעות שירות ב-WhatsApp, למסמכי מדיניות ולתמחור. הפתרון הוא לא רק “פרומפטים טובים”, אלא פרוטוקול בדיקה: כל מספר/חוק/מקור חייב קישור או מסמך מקור, ותשובות רגישות עוברות אישור ותיעוד ב-CRM (למשל Zoho) עם זרימות N8N.

ChatGPT Gartner McKinsey

צ׳אטבוטים לייעוץ לנפגעות אלימות דיגיטלית: מה מצא מחקר arXiv 2602.17672

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

צ׳אטבוטים לייעוץ לנפגעות אלימות דיגיטלית: מה מצא מחקר arXiv 2602.17672

צ׳אטבוטים מבוססי LLM לשאלות על אלימות מתווכת-טכנולוגיה (TFA) יכולים לתת הכוונה ראשונית מהירה, אבל איכות התשובות והבטיחות שלהן משתנות משמעותית—ולכן אסור להטמיע אותם בלי מדידה ושכבות בקרה. במחקר arXiv:2602.17672v1 הוערכו ידנית 4 מודלים (שניים כלליים ושניים ייעודיים ל-IPV) על שאלות אמיתיות מהספרות ומפורומים, בגישה של zero-shot וסבב תשובה יחיד, ובנוסף נערך מחקר משתמשים שבחן עד כמה התשובות נתפסות כישימות עבור מי שחוו TFA. לעסקים בישראל זה שיעור ישיר: אם אתם מפעילים צ׳אטבוט ב-WhatsApp Business API, חייבים מנגנון ניתוב לנציג, תיעוד ב-CRM (למשל Zoho CRM) וכללי מדיניות ב-N8N—במיוחד בפניות רגישות כמו חשד לפריצה, מעקב או בעיות פרטיות.

WhatsApp Business API Zoho CRM N8N