Skip to main content
Automaziot AI logo
  • Home
  • Blog
  • About
  • Contact
(646) 760-4854Book a Free Consultation
Automaziot AI - AI Automation and Intelligent Agents for Business

AI Automation Experts. We help businesses streamline operations and scale faster with intelligent agents and workflow automation.

USA(646) 760-4854IL+972-3-7630715info@automaziot.ai
Ahad Ha'Am 9, Tel Aviv, Shalom Tower

Quick Links

  • Home
  • About
  • Contact
  • Case Studies
  • Glossary

Our Solutions

  • Lead Management
  • WhatsApp AI Agent
  • Business Automation
  • Smart CRM
  • Automated Scheduling
  • Sales & Support
  • WhatsApp Commerce
  • AI Agents
  • Tech Consulting

Stay Updated

Get the latest insights on AI automation delivered to your inbox.

FacebookInstagramLinkedIn

This site uses Google Analytics and Vercel Analytics to improve your experience. For full details, see our Privacy Policy

© 2026 Automaziot AI. All rights reserved.

Privacy PolicyTerms of ServiceAccessibilityEditorial Policy
זיהוי חולשות קוד ב-Zero‑Shot עם MultiVer | Automaziot
MultiVer לזיהוי חולשות קוד בלי אימון: 82.7% ריקול ב-PyVul
ביתחדשותMultiVer לזיהוי חולשות קוד בלי אימון: 82.7% ריקול ב-PyVul
מחקר

MultiVer לזיהוי חולשות קוד בלי אימון: 82.7% ריקול ב-PyVul

מערך 4 סוכנים (אבטחה/נכונות/ביצועים/סגנון) עקף GPT‑3.5 מאומן—אבל עם ירידת דיוק ל-48.8%

אייל יעקבי מילראייל יעקבי מילר
23 בפברואר 2026
6 דקות קריאה

תגיות

arXivMultiVerPyVulGPT-3.5SecurityEvalGitHub ActionsGitLab CIJenkinsN8NZoho CRMZoho ProjectsJiraLinearWhatsApp Business APIAutomaziot AI

נושאים קשורים

#אבטחת קוד#DevSecOps#N8N#Zoho CRM#WhatsApp Business API#CI/CD

✨תקציר מנהלים

Key Takeaways

  • 82.7% Recall ב‑PyVul בלי fine‑tuning—גבוה ב‑1.4 נק׳ אחוז מ‑GPT‑3.5 מאומן (81.3%).

  • ב‑SecurityEval: 91.7% detection rate עם אותה ארכיטקטורת 4 סוכנים.

  • Precision יורד ל‑48.8% (לעומת 63.9%) ולכן חייבים triage; F1 מדווח: 61.4%.

  • אבלציה: המערך הרב‑סוכני מוסיף 17 נק׳ אחוז Recall לעומת סוכן אבטחה יחיד.

  • פיילוט מומלץ 14 יום: GitHub/GitLab + N8N + פתיחת טיקט רק כשיש הסכמה בין סוכנים והתרעה ב‑WhatsApp לפי חומרה.

MultiVer לזיהוי חולשות קוד בלי אימון: 82.7% ריקול ב-PyVul

  • 82.7% Recall ב‑PyVul בלי fine‑tuning—גבוה ב‑1.4 נק׳ אחוז מ‑GPT‑3.5 מאומן (81.3%).
  • ב‑SecurityEval: 91.7% detection rate עם אותה ארכיטקטורת 4 סוכנים.
  • Precision יורד ל‑48.8% (לעומת 63.9%) ולכן חייבים triage; F1 מדווח: 61.4%.
  • אבלציה: המערך הרב‑סוכני מוסיף 17 נק׳ אחוז Recall לעומת סוכן אבטחה יחיד.
  • פיילוט מומלץ 14 יום: GitHub/GitLab + N8N + פתיחת טיקט רק כשיש הסכמה בין סוכנים...

זיהוי חולשות קוד ב-Zero‑Shot עם MultiVer: מה השתנה באמת

ANSWER ZONE (MANDATORY - first 40-60 words): MultiVer הוא מערך Zero‑Shot של ארבעה סוכנים לניתוח קוד שמזהה חולשות אבטחה בלי אימון מחדש (fine‑tuning), באמצעות “הצבעת איחוד” שמעדיפה לא לפספס פגיעויות. לפי המאמר arXiv:2602.17875v1, המערכת מגיעה ל‑82.7% Recall על PyVul—גבוה ב‑1.4 נקודות אחוז מ‑GPT‑3.5 שעבר fine‑tuning.

למה זה חשוב עכשיו לעסקים בישראל? כי ברוב הארגונים אין צוות AppSec גדול, אבל יש יותר קוד שנכתב מהר יותר—כולל באמצעות קוד גנרטיבי. כשפספוס חולשה (False Negative) עולה ביוקר יותר מהתרעת שווא, שינוי של 17 נקודות אחוז בריקול (כפי שנמצא באבלציה) יכול להפוך בדיקת אבטחה אוטומטית מ”עוד כלי” לשכבת הגנה אמיתית—במיוחד לפני פריסה לייצור.

מה זה זיהוי חולשות קוד ב-Zero‑Shot? (DEFINITION - MANDATORY)

זיהוי חולשות קוד ב‑Zero‑Shot הוא שימוש במודל שפה כדי לאתר פגיעויות או דפוסים מסוכנים בקוד ללא אימון על הדאטה הפנימי של הארגון וללא fine‑tuning. בהקשר עסקי, המשמעות היא שמריצים בדיקה “כמו שהיא” על Pull Requests או על קבצי מקור, ומקבלים ממצאים, נימוקים ולעיתים הצעות תיקון. לדוגמה, חברה ישראלית שמפתחת שירות Python יכולה להריץ בדיקה אוטומטית לפני merge, כדי להקטין סיכון לתקלות אבטחה. במחקר הנוכחי דווח על 82.7% Recall במדד PyVul—כלומר שיעור גבוה של זיהוי המקרים הפגיעים.

MultiVer ונתוני הביצועים: 82.7% Recall ב-PyVul בלי Fine‑Tuning

לפי הדיווח במאמר “MultiVer: Zero‑Shot Multi‑Agent Vulnerability Detection”, החוקרים מציגים מערכת רב‑סוכנית (multi‑agent) שמבצעת ניתוח קוד מזוויות שונות. הארכיטקטורה כוללת ארבעה סוכנים: אבטחה (security), נכונות לוגית (correctness), ביצועים (performance) וסגנון (style). התוצאה המרכזית: על PyVul המערכת מגיעה ל‑82.7% Recall, ובכך עוקפת baseline של GPT‑3.5 שעבר fine‑tuning שעמד על 81.3%—פער של 1.4 נקודות אחוז לטובת Zero‑Shot.

היתרון מגיע דרך מנגנון הצבעה מסוג union voting: אם סוכן אחד או יותר מסמנים קטע קוד כפגיע, המערכת “מאחדת” את האיתותים ומסווגת כפגיע. זה מסביר את הדגש על Recall, אבל גם את המחיר בצד ה‑Precision. בהשוואה לבייסליין המאומן, MultiVer מדווחת על Precision של 48.8% בלבד מול 63.9% לבייסליין, עם F1 של 61.4%.

SecurityEval: 91.7% Detection Rate שמיישר קו עם מערכות ייעודיות

מעבר ל‑PyVul, לפי המאמר אותו עקרון נבחן גם על SecurityEval, ושם אותה ארכיטקטורה מגיעה ל‑91.7% detection rate. החוקרים מציינים שזה “מתאים” (matching) למערכות ייעודיות לזיהוי חולשות. עבור מנהלי פיתוח, המשמעות היא שמודל/מערך כללי שמורכב מכמה סוכנים יכול להתקרב לתוצאות של כלים ייעודיים—לפחות במדד הזיהוי—בלי תהליך אימון מחדש, בלי צנרת ML, ועם זמן הטמעה קצר יותר.

אבלציה: למה ארבעה סוכנים עדיפים מסוכן אבטחה יחיד

לפי ניסויי האבלציה במאמר, עצם השימוש במערך רב‑סוכני מוסיף 17 נקודות אחוז Recall לעומת סוכן אבטחה יחיד. זה נתון קריטי: הוא מרמז שהשיפור לא מגיע רק מ”עוד פרומפט”, אלא מהפרדה מכוונת של תפקידים (אבטחה/נכונות/ביצועים/סגנון) שמייצרת כיסוי רחב יותר של דפוסים בעייתיים. בעולמות אבטחה, הכיסוי הזה שווה כסף—כי הוא מצמצם את הסיכוי שחולשה תחליק לפרודקשן.

הקשר תעשייתי: למה Recall מנצח Precision בבדיקות אבטחה מסוימות

הטענה המסכמת של החוקרים ברורה: ביישומי אבטחה שבהם False Negatives יקרים יותר מ‑False Positives, עדיף “ללכוד יותר” גם במחיר רעש. זה לא תמיד נכון—בצוות קטן, 48.8% Precision עלול להציף את ה‑backlog. אבל יש תרחישים שבהם זה בדיוק מה שצריך: לפני שחרור גרסה גדולה, לפני onboarding של צוות חדש, או כשמתחילים להשתמש בקוד שנוצר אוטומטית. בפועל, הרבה ארגונים פותרים את זה עם שכבה שנייה של triage: סורק עם Recall גבוה + סינון/אימות אנושי או כלי נוסף.

ניתוח מקצועי: איך MultiVer מתרגם למוצר אבטחה שמתחבר ל-CI/CD

מנקודת מבט של יישום בשטח, MultiVer מדגים דפוס שאפשר לשחזר גם בלי לאמץ “את המערכת” כמות שהיא: לפרק את בדיקת הקוד לכמה פרסונות עם מטרות שונות, ואז לאחד את התשובות לפי אסטרטגיית סיכון. במערכות CI/CD בישראל (GitHub Actions, GitLab CI, Jenkins) אפשר להריץ ניתוח בקוד חדש בלבד (diff), ולהגדיר כלל: כל איתות “אדום” נכנס לבדיקה, אבל רק ממצאים עם נימוק ברור וקטע קוד ספציפי יוצרים משימה.

המשמעות האמיתית כאן היא ארכיטקטורה: במקום לחפש מודל אחד “שיעשה הכול”, משתמשים בכמה סוכנים עם פרומפטים ממוקדים ובקר החלטה. אם העסק שלכם עובד עם Zoho CRM ו‑WhatsApp Business API, רוב הסיכון מגיע מאינטגרציות, מפתחות API וניהול הרשאות—ולכן סוכן “security” צריך לשאול על אחסון סודות, הרשאות מינימליות (least privilege) ושימוש נכון ב‑webhooks, בעוד סוכן “correctness” יתפוס תרחישים שגורמים להזרקת נתונים שגויה או לוגיקה שמדליפה מידע.

ההשלכות לעסקים בישראל: פיתוח מהיר, רגולציה, ועלויות טיפול בהתרעות

לעסקים ישראלים—במיוחד SaaS קטן‑בינוני, סוכנויות דיגיטל, וחברות שמחזיקות צוות פיתוח מצומצם—היכולת לקבל Recall של 82.7% על Benchmark (PyVul) בלי fine‑tuning עשויה להיות ההבדל בין “אבטחה לפי תחושה” לבין תהליך בדיקה חוזר. במגזרים כמו פיננסים, ביטוח וקליניקות פרטיות, הדלפת מידע היא לא רק נזק תדמיתי אלא גם חשיפה רגולטורית תחת חוק הגנת הפרטיות הישראלי והנחיות הרשות להגנת הפרטיות—ולכן העדפה לזיהוי יתר (גם עם התרעות שווא) הגיונית, אם יש תהליך סינון.

בפרקטיקה, אם Precision הוא 48.8%, בערך חצי מהדגלים יהיו רעש. לכן צריך לתמחר זאת: למשל, לקבוע SLA פנימי של 15 דקות triage לכל ממצא, ולמדוד כמה ממצאים יוצאים מכל PR. בהטמעות אוטומציה שאנחנו רואים בשוק, עסקים מצמצמים עלות באמצעות זרימת עבודה ב‑N8N: פותחים כרטיס ב‑Jira/Linear רק אם שני סוכנים מסכימים, או אם מדובר בקבצים רגישים (auth, payments). אפשר גם להקפיץ ממצאים ל‑WhatsApp של צוות הפיתוח (דרך WhatsApp Business API) רק כשמדובר ב‑high severity, ולתעד ב‑Zoho (כמשימה/טיקט) לשקיפות מול הנהלה. למי שצריך מסגרת עבודה, אפשר להתחיל דרך ייעוץ טכנולוגי כדי לאפיין מדיניות סיכון והגדרות CI.

מה לעשות עכשיו: פיילוט של 14 יום עם N8N, GitHub, וזרימת Triage

  1. בחרו מדד החלטה: אם אצלכם פספוס חולשה חמור יותר מרעש, הגדירו KPI של Recall תחילה, והגדירו סף: למשל “0 ממצאי High שלא נבדקו” בכל ספרינט.
  2. הריצו פיילוט 14 יום על PRs בלבד: חברו את GitHub/GitLab ל‑N8N, והריצו ניתוח רב‑סוכני על diff (לא על כל הריפו).
  3. בנו מסלול סינון: פתחו טיקט רק כשיש “union” של אבטחה+נכונות, או כשמדובר בתיקיות auth/secrets; אחרת—רק הערה ב‑PR.
  4. שלבו תיעוד תפעולי: עדכנו סטטוס וממצאים ב‑Zoho CRM/Zoho Projects, ובמקרה חירום שלחו התראה ב‑WhatsApp Business API. אם אתם צריכים שכבת ביצוע מלאה, התחילו מ-פתרונות אוטומציה.

מבט קדימה: מערכי סוכנים יהפכו לסטנדרט, לא לטריק מחקרי

ב‑12–18 החודשים הקרובים נראה יותר ארכיטקטורות רב‑סוכניות שמחליפות fine‑tuning במקרים תפעוליים: זה מקצר זמן הטמעה ומאפשר “כיוונון” דרך מדיניות החלטה במקום אימון מודל. MultiVer מדגיש כלל פשוט: כש‑Recall הוא המדד הקריטי, מערך Zero‑Shot יכול לנצח מודל מאומן—אבל רק אם בונים תהליך triage שמונע הצפה. לעסקים בישראל, השילוב הנכון הוא סוכני AI + WhatsApp Business API + Zoho CRM + N8N כדי להפוך ממצאים לפעולות מבוקרות ולא לרשימת התרעות שאף אחד לא קורא.

שאלות ותשובות

FAQ

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

Your information will only be used to contact you and deliver our services. For details, see our Privacy Policy and Terms of Service

עוד כתבות שיעניינו אותך

לכל הכתבות
TierMem לזיכרון מדורג לסוכנים ארוכי טווח: פחות טוקנים, כמעט בלי לוותר על דיוק
מחקר
Feb 23, 2026
6 min

TierMem לזיכרון מדורג לסוכנים ארוכי טווח: פחות טוקנים, כמעט בלי לוותר על דיוק

**TierMem הוא מנגנון זיכרון דו-שכבתי לסוכנים ארוכי טווח שמחליט בזמן המענה אם מספיק להסתמך על סיכום מהיר או שצריך להסלים ללוגים גולמיים כדי להביא ראיות מאומתות. לפי המאמר (arXiv:2602.17913v1), ב-LoCoMo השיטה הגיעה לדיוק 0.851 לעומת 0.873 ב-raw-only, תוך חיסכון של 54.1% בטוקנים ו-60.7% בהשהיה.** עבור עסקים בישראל שמפעילים שיחה רציפה ב-WhatsApp Business API ומנהלים לקוחות ב-Zoho CRM, המשמעות היא ניהול סיכונים: סיכומים לבד עלולים להשמיט “תנאי קריטי” (מחיר, הסכמה, רגישות רפואית), ולכן כדאי לבנות דרך N8N שכבת לוגים בלתי ניתנים לשינוי וכללי הסלמה לשאילתות רגישות. כך מצמצמים עלות ותורמים לעקיבות פנימית.

arXivTierMemLoCoMo
Read more
NL2LOGIC לתרגום משפטים ללוגיקה מסדר ראשון: 99% תחביר, +30% משמעות
מחקר
Feb 23, 2026
6 min

NL2LOGIC לתרגום משפטים ללוגיקה מסדר ראשון: 99% תחביר, +30% משמעות

**NL2LOGIC היא מסגרת שמתרגמת טקסט לשפה טבעית ללוגיקה מסדר ראשון (FOL) דרך עץ תחביר מופשט (AST), כך שהפלט עומד בכללי דקדוק וניתן להרצה בסולברים. לפי המאמר, היא מגיעה ל‑99% דיוק תחבירי ומשפרת נכונות סמנטית עד 30% בבנצ’מרקים כמו FOLIO ו‑ProofWriter.** לעסקים בישראל זה חשוב במיוחד בתהליכים שבהם “צריך להכריע” ולא רק “לנסח”: החזרים, חריגי שירות, תנאי חוזה, ניגוד עניינים במשרדי עורכי דין או סיווג פניות בביטוח ונדל"ן. שילוב עם WhatsApp Business API, N8N ו‑Zoho CRM מאפשר לקלוט פנייה, להפעיל כללים פורמליים, להחזיר החלטה מוסברת, ולתעד אותה ב‑CRM לצורכי בקרה וציות (כולל עקרונות חוק הגנת הפרטיות).

arXivNL2LOGICAST
Read more
Lang2Act ל-VRAG: שרשראות כלים לשוניות שמחדדות תפיסה חזותית ב‑VLM
מחקר
Feb 23, 2026
6 min

Lang2Act ל-VRAG: שרשראות כלים לשוניות שמחדדות תפיסה חזותית ב‑VLM

**Lang2Act הוא מנגנון VRAG שבו מודל ראייה-שפה (VLM) מייצר בעצמו “פעולות” כשרשראות לשוניות, ואז משתמש בהן ככלים כדי לשפר תפיסה חזותית והסקה. לפי המאמר arXiv:2602.13235v1, הגישה מצמצמת איבוד מידע שנוצר בזרימות עבודה שמפרידות בין תפיסה להיגיון (למשל אחרי crop), ומשיגה שיפור של יותר מ‑4% בתוצאות הניסויים.** לעסקים בישראל זה רלוונטי במיוחד בתהליכים שמבוססים על תמונות ב-WhatsApp: צילומי מסך של תקלות, מסמכים, ותמונות מוצר. במקום להסתמך על כלי חיתוך/OCR קשיחים שמאבדים הקשר, כדאי לבנות פיילוט שבו כל שלבי התפיסה מתועדים, מחוברים ל-Zoho CRM, ומופעלים דרך N8N — עם מדיניות פרטיות ברורה (למשל שמירת תמונות ל-30 יום).

arXivLang2ActNEUIR
Read more
מענה לשאלות רפואיות תלוי-מצב: CondMedQA מציב רף חדש לדיוק קליני
מחקר
Feb 23, 2026
6 min

מענה לשאלות רפואיות תלוי-מצב: CondMedQA מציב רף חדש לדיוק קליני

מענה לשאלות רפואיות תלוי-מצב הוא מצב שבו אותה שאלה מקבלת תשובה שונה לפי תנאי המטופל—קומורבידיות, אלרגיות או התוויות-נגד. במאמר arXiv:2602.17911v1 מוצגים CondMedQA (בנצ׳מרק חדש שמודד היסק מותנה) ו-Condition-Gated Reasoning (CGR), שמפעיל/גוזם מסלולי היסק בגרף ידע לפי תנאי השאלה כדי לבחור תשובה ישימה יותר. לעסקים בישראל שמפתחים כלי טריאז׳, טלה-רפואה או שירות במוקדי אחיות, המשמעות היא שינוי מדידה: לא “דיוק ממוצע”, אלא דיוק במקרי קצה. פרקטית, אפשר לשלב איסוף תנאים ב-WhatsApp Business API, לשמור שדות ב-Zoho CRM, ולהפעיל ב-N8N “שער תנאים” שמנתב מקרים מסוכנים לגורם אנושי ומייצר לוגים לאודיט.

arXivCondMedQACondition-Gated Reasoning
Read more