Z.ai משיקה GLM-4.6V: מודל ראייה-שפה פתוח עם שיחת פונקציות
מוצר חדש

Z.ai משיקה GLM-4.6V: מודל ראייה-שפה פתוח עם שיחת פונקציות

סדרת דגמים חדשה של Zhipu AI מציעה ביצועים מובילים, אינטגרציה עם כלים ויזואליים ורישוי MIT – אידיאלי לעסקים ישראליים

AI
אוטומציות AI
4 דקות קריאה

תקציר מנהלים

נקודות עיקריות

  • שתי גרסאות: 106B לענן ו-9B מקומי.

  • שיחת פונקציות ויזואלית ישירה ללא אובדן מידע.

  • 128K טוקנים + SoTA ב-20+ בדיקות.

  • רישוי MIT + API זול/חינם.

  • אוטומציה של UI ודוחות מולטימדיה.

בעידן שבו בינה מלאכותית ויזואלית הופכת למרכזית בפיתוח עסקי, חברת Zhipu AI הסינית (Z.ai) משיקה את סדרת GLM-4.6V – דור חדש של מודלי שפה-ראייה (VLM) פתוחים שמבטיחים חשיבה רב-מודלית מתקדמת, אוטומציה של ממשקים קדמיים והפעלה יעילה. הסדרה כוללת שני דגמים: GLM-4.6V הגדול (106 מיליארד פרמטרים) המיועד להסקה בקנה מידה ענן, ו-GLM-4.6V-Flash הקטן (9 מיליארד פרמטרים) לאפליקציות מקומיות בזמן אמת נמוך. החדשנות המרכזית היא שילוב קריאת פונקציות טבעית במודל ויזואלי, המאפשר שימוש ישיר בכלים כמו חיפוש, חיתוך תמונות או זיהוי גרפים מתוך קלט ויזואלי. הדגמים תומכים בהקשר של 128,000 טוקנים – שווה ערך לרומן של 300 עמודים – ומשיגים תוצאות ברמה העולמית (SoTA) ביותר מ-20 בדיקות סטנדרטיות. הם זמינים דרך ממשק API תואם OpenAI, דמו באתר Zhipu, הורדה מ-Hugging Face ואפליקציית שולחן עבודה. ביצועי GLM-4.6V (106B) מובילים בין מודלים פתוחים בגודל דומה בבדיקות כמו MMBench, MathVista (88.2 נקודות), ChartQAPro ו-WebVoyager (81.0). הדגם הקטן, GLM-4.6V-Flash (9B), עולה על מתחרים כמו Qwen3-VL-8B ו-GLM-4.1V-9B. אפילו מול דגמים גדולים יותר כמו Step-3 (321B), GLM-4.6V מצטיין במשימות הקשר ארוך, סיכום וידאו וחשיבה מובנית. הארכיטקטורה מבוססת מקודד ViT (AIMv2-Huge) ומקדם MLP להתאמת תכונות ויזואליות למודל שפה גדול. הדגמים תומכים ברזולוציות שרירותיות, יחסי תמונה רחבים (עד 1:200), וידאו עם כיווצים תלת-ממדיים וקידוד זמן. שיחת הפונקציות דו-כיוונית: העברת תמונות ישירות לכלים וקליטת פלט ויזואלי לתהליך החשיבה, ללא אובדן מידע. בפרקטיקה, GLM-4.6V מאפשר יצירת דוחות מובנים ממסמכים מעורבים, ביקורת ויזואלית על תמונות, חיתוך אוטומטי מגרפים, חיפוש אינטרנט ויזואלי ושכפול ממשקים קדמיים מדויק פיקסלית מרשומות מסך. זה רלוונטי במיוחד לעסקים ישראליים בפינטק, הייטק ופיתוח תוכנה, שם אוטומציה ויזואלית חוסכת זמן ומשאבים. מחירי ה-API תחרותיים: 0.30 דולר לקלט ו-0.90 דולר לפלט למיליון טוקנים בדגם הגדול, חינם ל-Flash. בהשוואה ל-GPT-5.1 או Gemini, זה זול משמעותית. הרישוי MIT מאפשר שימוש מסחרי חופשי, התאמה ושילוב במערכות סגורות, כולל סביבות מבודדות – אידיאלי לציות רגולטורי. האימון כלל שלבים מרובים עם דגימה דינמית (RLCS), תגמולים מותאמים לתחומים כמו STEM וסוכנים גרפיים, וללא אובדן KL להתייצבות. זה ממשיך את הצלחת GLM-4.5, שכללה יצירת מצגות אוטומטיות. למנהלי עסקים: GLM-4.6V פותח דלת לבניית סוכנים רב-מודליים פנימיים. האם תשלבו מודלים פתוחים כאלה בפיתוח המוצר שלכם? הורידו עכשיו מ-Hugging Face ובדקו.

שאלות ותשובות

שאלות נפוצות

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד כתבות שיעניינו אותך

לכל הכתבות