מה היתרון המרכזי של מודל DiffusionGemma לעומת מודלים רגילים?

היתרון המרכזי של מודל DiffusionGemma הוא השימוש בטכנולוגיית דיפוזיית טקסט המאפשרת עיבוד של 256 אסימונים במקביל בכל מעבר, במקום כתיבה איטרטיבית מילה אחר מילה. שיטה זו מאפשרת מהירות הסקה הגבוהה פי 4 על גבי מעבדים גרפיים מקומיים, תוך ניצול מלא של כוח החישוב של החומרה ומניעת זמני המתנה פסיביים.

האם ניתן להריץ את המודל על מחשבים רגילים בעסק?

כן, לאחר תהליך קוונטיזציה (דחיסת משקלים), מודל ה-MoE הזה שומר על דיוק גבוה ומצריך זיכרון וידאו (VRAM) של כ-18 ג'יגה-בייט בלבד. המשמעות היא שניתן להריץ אותו בצורה מקומית על כרטיסי מסך צרכניים חזקים כמו NVIDIA GeForce RTX 4090 או RTX 5090 ללא צורך בתשתיות ענן יקרות.

כיצד המודל מסייע לעסקים לשמור על חוק הגנת הפרטיות הישראלי?

היכולת להריץ את DiffusionGemma באופן מקומי לחלוטין על שרתי הארגון מייתרת את הצורך להעביר מידע רגיש של לקוחות לעננים ציבוריים מחוץ לישראל. הדבר מאפשר למגזרים מפוקחים כמו קליניקות רפואיות, משרדי עורכי דין וסוכנויות ביטוח לעשות שימוש ביישומי AI מתקדמים תוך עמידה מלאה בדרישות חוק הגנת הפרטיות הישראלי.

מוצר חדש

גוגל מציגה את DiffusionGemma: טכנולוגיית דיפוזיית טקסט מהירה פי 4

מודל ה-MoE הניסיוני החדש של גוגל מאפשר לייצר בלוקים שלמים של טקסט במקביל ולשנות את כללי המשחק של ה-AI המקומי

צוות אוטומציות AI

10 ביוני 2026

4 דקות קריאה

מבוסס על כתבה שלDeepMind ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

נקודות עיקריות

מודל DiffusionGemma מציע מהירות עיבוד של מעל 1,000 אסימונים בשנייה על גבי מעבד גרפי NVIDIA H100.
ארכיטקטורת MoE של 26 מיליארד פרמטרים המפעילה רק 3.8 מיליארד פרמטרים במהלך ההסקה בפועל.
עיבוד מקבילי של בלוקים של 256 אסימונים בכל מעבר, המייתר את הצורך ביצירת טקסט איטית מילה אחר מילה.
פתרון אידיאלי לארגונים בישראל המעוניינים להריץ AI מקומי ומאובטח התואם את חוק הגנת הפרטיות.

גוגל מציגה את DiffusionGemma: טכנולוגיית דיפוזיית טקסט מהירה פי 4

מודל DiffusionGemma מציע מהירות עיבוד של מעל 1,000 אסימונים בשנייה על גבי מעבד גרפי NVIDIA...
ארכיטקטורת MoE של 26 מיליארד פרמטרים המפעילה רק 3.8 מיליארד פרמטרים במהלך ההסקה בפועל.
עיבוד מקבילי של בלוקים של 256 אסימונים בכל מעבר, המייתר את הצורך ביצירת טקסט איטית...
פתרון אידיאלי לארגונים בישראל המעוניינים להריץ AI מקומי ומאובטח התואם את חוק הגנת הפרטיות.

פריצת דרך במהירות: כיצד טכנולוגיית דיפוזיית טקסט משנה את חוקי המשחק

גוגל (Google) השיקה רשמית את DiffusionGemma, מודל קוד פתוח ניסיוני המבוסס על טכנולוגיית דיפוזיית טקסט, המציע מהירות יצירת טקסט מהירה עד פי 4 בהשוואה למודלים מסורתיים על גבי מעבדים גרפיים (GPUs). המודל פועל בארכיטקטורת Mixture of Experts (MoE) עם 26 מיליארד פרמטרים, ומאפשר עיבוד מקבילי של בלוקים שלמים של טקסט במקום כתיבה איטרטיבית תו אחר תו.

מה זה טכנולוגיית דיפוזיית טקסט?

טכנולוגיית דיפוזיית טקסט היא גישה חדשה לייצור שפה טבעית, השואבת השראה ממחוללי תמונות מבוססי דיפוזיה (כמו Stable Diffusion או Midjourney). בהקשר עסקי, במקום לכתוב טקסט מילה אחר מילה בצורה רגרסיבית-עצמית (Autoregressive), המודל מתחיל מ"קנבס" של אסימונים (tokens) אקראיים לחלוטין ומבצע סדרת מקצים של זיקוק, שכתוב ותיקון בו-זמנית על כל הבלוק הטקסטואלי. לדוגמה, יצירת פסקת קוד שלמה, עריכת טקסט בתוך שורות (In-line editing) או פתרון בעיות לוגיות מורכבות בזמן אמת. על פי נתוני חברת Google DeepMind, גישה זו מאפשרת לעבד 256 אסימונים במקביל בכל מעבר קדימה (forward pass) של הרשת הנוירונית, מה שמביא לחיסכון בזמן העיבוד.

הנתונים מאחורי DiffusionGemma: מהירות חסרת תקדים ללא צווארי בקבוק בחומרה

על פי הנתונים שפורסמו בבלוג הטכנולוגי הרשמי של גוגל, מודל DiffusionGemma מסוגל להפיק מעל 1,000 אסימונים (tokens) בשנייה על גבי מעבד גרפי ארגוני יחיד מסוג NVIDIA H100, וכ-700 אסימונים בשנייה על כרטיסי מסך צרכניים חזקים כמו NVIDIA GeForce RTX 5090. הביצועים המהירים הללו מושגים הודות להעתקת צוואר הבקבוק החישובי מרוחב הפס של הזיכרון (Memory-bandwidth) אל כוח העיבוד של המעבד (Compute). השינוי הארכיטקטוני הזה מאפשר לנצל את החומרה המקומית במלואה – המודל פועל כמו מכבש דפוס ענק המדפיס עמוד שלם בבת אחת, בניגוד למכונת כתיבה מסורתית הפועלת תו אחר תו וממתינה בכל שלב לחומרה. פריצת דרך זו עשויה לייעל את הפעילות של סוכני AI לעסקים הפועלים באופן מקומי על חומרת הקצה ללא תלות בחיבור אינטרנט חיצוני.

החברה מדווחת כי המודל שוחרר תחת רישיון קוד פתוח מתירני (Apache 2.0) והוא מבוסס על סדרת מודלי Gemma 4 ומחקרים מתקדמים של Gemini Diffusion. הארכיטקטורה של המודל משלבת מודל תערובת מומחים (Mixture of Experts - MoE) בנפח כולל של 26 מיליארד פרמטרים, כאשר בפועל רק 3.8 מיליארד פרמטרים מופעלים בכל שלב של הסקה (inference). מבנה חכם זה מאפשר למודל לרוץ ביעילות מרבית גם על חומרת קצה וכרטיסי מסך צרכניים עם זיכרון וידאו (VRAM) של 18 ג'יגה-בייט ומעלה לאחר תהליך קוונטיזציה (מזעור ודחיסת מודלים). גוגל מדגישה כי בעוד שמודלים אלו אינם מיועדים להחליף את האיכות הגבוהה של מודלי Gemma 4 הרגילים במשימות של כתיבה יצירתית ארוכה, הם מהווים מענה מהיר למשימות הדורשות משוב מיידי ואינטראקטיביות גבוהה.

ההקשר הרחב: מדוע הדיפוזיה כובשת את עולם הבלשנות החישובית?

המעבר ממודלים אוטו-רגרסיביים (Autoregressive) למודלים מבוססי דיפוזיה מייצג שינוי תפיסתי עמוק בעולם הבינה המלאכותית היוצרת. על פי ניתוחים של גורמים מובילים בתעשייה, חברות רבות מתמודדות כיום עם עלויות שרתים גבוהות ועם קושי להשיג חוויית משתמש חלקה בעוזרי AI הפועלים בזמן אמת. טכנולוגיית דיפוזיית טקסט פותרת את בעיית ה'לייטנסי' (זמן השהיה) המקומית באופן אלגנטי, בכך שהיא מאפשרת למעבדים גרפיים ייעודיים לפעול בשיא הקיבולת חישוב שלהם, ללא זמני המתנה פסיביים בין הפקת מילה אחת לבאה אחריה.

ההשלכות לעסקים בישראל ועלייה ברמת אבטחת המידע

עבור עסקים בישראל, ובמיוחד חברות טכנולוגיה, סוכנויות דיגיטל ומפתחי אפליקציות, הטכנולוגיה החדשה פותחת הזדמנויות עסקיות חדשות. מדובר ביתרון בולט במיוחד עבור מגזרים הרגישים לפרטיות מידע ופועלים תחת רגולציה קפדנית, כגון משרדי עורכי דין, קליניקות רפואיות פרטיות, חברות ביטוח וסוכנויות פיננסיות בישראל. לפי חוק הגנת הפרטיות הישראלי, שמירת מידע אישי ורגיש של לקוחות בעננים ציבוריים בינלאומיים כרוכה במגבלות משפטיות מחמירות וברמות סיכון גבוהות של דליפת מידע.

השימוש במודל מקומי, מהיר ומאובטח כמו DiffusionGemma מאפשר לארגונים ישראליים להריץ יישומי בינה מלאכותית מורכבים – כגון ניתוח מסמכים משפטיים, סיכום אוטומטי של שיחות טיפוליות או כתיבת קוד – ישירות על גבי שרתים מקומיים או מחשבי קצה מאובטחים בתוך משרדי הארגון. פעולה זו מתבצעת ללא צורך בהוצאת נתונים מחוץ לגבולות המדינה או לענן של חברות צד שלישי. בנוסף, חברות המפתחות פתרונות של אוטומציה עסקית יוכלו לשלב את המודל במערכות שירות לקוחות מקומיות הדורשות מענה מהיר במיוחד ובזמן אמת, ללא עלויות ריצה שוטפות וגבוהות של ספקי ענן בינלאומיים.

מה לעשות עכשיו: מדריך שלבים ליישום ראשוני בארגון שלכם

אם אתם מעוניינים לבחון את שילוב הטכנולוגיה בארגון שלכם, מומלץ לפעול לפי הצעדים הבאים:

הערכת צורכי חומרה מקומיים: בדקו את מפרט המחשוב בארגון. כדי להריץ את המודל באופן מקומי לאחר קוונטיזציה (צמצום משקלים ל-4-bit או NVFP4), תזדקקו לכרטיס מסך ייעודי של NVIDIA (כמו RTX 4090 או RTX 5090 החדש) עם לפחות 18GB VRAM פנוי.
הורדת משקולות המודל ועבודה עם כלי פיתוח: הורידו את משקולות המודל הרשמיות ישירות מפלטפורמת Hugging Face, שבה גוגל שחררה את המודל תחת רישיון Apache 2.0 המתירני. תוכלו להריץ אותו באמצעות ספריות קוד פתוח פופולריות כמו vLLM (בתמיכת Red Hat), MLX (עבור מעבדי אפל) או Hugging Face Transformers.
ביצוע התאמה אישית (Fine-tuning): במשימות ספציפיות שאינן ליניאריות (כמו פתרון בעיות לוגיות מורכבות, בניית מבני נתונים או פורמטים קשיחים של קוד), השתמשו בכלים מותאמים כמו Unsloth או Hackable Diffusion כדי לאמן את המודל על דאטה-סט ארגוני ייחודי שלכם.
בניית תהליכי עבודה מקומיים: שלבו את המודל במערכות ה-CRM או הכלים הפנימיים שלכם באמצעות כלי אינטגרציה גמישים כמו N8N המאפשרים הרצה מקומית מאובטחת ועבודה עם API מקומי.

מבט קדימה: העתיד של עיבוד שפה מקומי

ההשקה הניסיונית של מודל DiffusionGemma מסמנת את תחילתו של עידן חדש שבו המהירות והאינטנסיביות של בינה מלאכותית מקומית אינן נופלות, ואף עולות, על אלו של שירותי הענן המובילים במקרי קצה מסוימים. עסקים שישכילו לאמץ פתרונות אלו כבר עכשיו ייהנו מיתרון תחרותי עצום במהירות התגובה, בפרטיות ובאבטחת המידע שלהם. שילוב של מודלים מהירים אלו עם פלטפורמות מתקדמות כגון סוכני AI, בוט וואטסאפ עסקי ומערכות CRM חכמות, יאפשר לעסקים ישראליים להציע חוויית לקוח מיידית ומאובטח לחלוטין.

שאלות ותשובות

שאלות נפוצות

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של DeepMind. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־DeepMind

כל הכתבות מ־DeepMind

שילוב בינה מלאכותית פיזית ברובוטים: האקסלרטור של DeepMind

חדשות

אתמול

4 דקות

מ־DeepMind

שילוב בינה מלאכותית פיזית ברובוטים: האקסלרטור של DeepMind

חברת Google DeepMind משיקה את ה-Google DeepMind Accelerator: Robotics, תוכנית האצה ייחודית בת שלושה חודשים המיועדת ל-15 סטארטאפים נבחרים באירופה בתחום הרובוטיקה הפיזית. התוכנית תעניק ליזמים מנטורשיפ צמוד וגישה ישירה למודלי ה-Gemini של גוגל ולשכבות הטכנולוגיה המתקדמות שלה. בין החברות שנבחרו ניתן למצוא סטארטאפים המפתחים פתרונות פורצי דרך בתחומי הבנייה, הרפואה, המיחזור וטכנולוגיות המישוש. המהלך מסמן פריצת דרך משמעותית בשילוב בינה מלאכותית פיזית ברובוטים, ומספק השראה רבה גם לתעשיית הראייה הממוחשבת והאוטומציה המקומית בישראל המבקשת ליישם טכנולוגיות דומות תחת רגולציית הפרטיות המקומית.

Google DeepMind Gemini Touchlab

קרא עוד

מודל Gemma 4 12B: גוגל משיקה בינה מלאכותית מולטי-מודאלית מקומית

מוצר חדש

אתמול

4 דקות

מ־DeepMind

מודל Gemma 4 12B: גוגל משיקה בינה מלאכותית מולטי-מודאלית מקומית

גוגל דיפמיינד (Google DeepMind) השיקה את Gemma 4 12B, מודל בינה מלאכותית פתוח ומולטי-מודאלי המיועד להרצה מקומית על מחשבים ניידים עם זיכרון של 16GB בלבד. המודל החדש מציג ארכיטקטורה חדשנית נטולת מקודדים (Encoder-free), המאפשרת עיבוד ישיר ומהיר של קלט חזותי וקולי בתוך מודל השפה ללא תוספת השהיה או זיכרון. עם ביצועים המתקרבים למודלים הגדולים בהרבה ומעל 150 מיליון הורדות למשפחת המודלים כולה, גוגל מנגישה יכולות עיבוד מתקדמות וסוכני AI אוטונומיים לחומרה מקומית יומיומית, ברישיון קוד פתוח חופשי (Apache 2.0).

Google DeepMind Gemma 4 12B Apache 2.0

קרא עוד

מחקר

אתמול

4 דקות

מ־DeepMind

למידה מונחית בינה מלאכותית: המחקר החדש של Google DeepMind

מחקר מבוקר רחב-היקף (RCT) שפורסם על ידי Google DeepMind בשיתוף עם משרד החינוך של סיירה לאון וארגון Fab AI מציג תוצאות פורצות דרך בשילוב בינה מלאכותית בלמידה. הניסוי, שנערך בקרב 1,763 תלמידים לאורך שמונה שבועות, בחן את מודל "הלמידה המונחית" (Guided Learning) המבוסס על Gemini. התוצאות הראו שיפור הישגים ממוצע של 0.258 סטיות תקן במתמטיקה – נתון המקביל לעד 2.5 שנות לימוד בכיתות שבהן המורים שילבו את הכלי באופן אינטנסיבי. במקום לשמש כמנוע תשובות פשוט, המודל הונחה לפעול בשיטה סוקרטית, ושלח שאלות מכוונות ב-76% מהאינטראקציות, בעוד שפתרונות ישירים סופקו ב-2% בלבד מהמקרים. המחקר מדגיש את הפוטנציאל העצום של סוכני AI מבוססי פדגוגיה בעיצוב מחדש של הדרכות והכשרות גם במגזר העסקי.

Google DeepMind Gemini Fab AI

קרא עוד

הסייע הרפואי של Google DeepMind: מערכות בינה מלאכותית למרפאות פרטיות בישראל

מחקר

30 באפריל 2026

4 דקות

מ־DeepMind

הסייע הרפואי של Google DeepMind: מערכות בינה מלאכותית למרפאות פרטיות בישראל

Google DeepMind חשפה את פרויקט "AI co-clinician", סוכן בינה מלאכותית מתקדם המיועד לעבוד בשיתוף פעולה לצד רופאים במרפאות ובסביבות טלמדיסין. בניגוד למערכות המבוססות על טקסט בלבד, המערכת החדשה פועלת על גבי מודלים מולטימודאליים המאפשרים לה לראות, לשמוע ולתקשר עם מטופלים בזמן אמת. במחקרי סימולציה מקיפים שכללו בדיקה של 140 מדדים קליניים, המערכת הציגה ביצועים ברמה המקבילה לרופאי משפחה ב-68 מהמדדים, ואף הצליחה להדריך מטופלים מרחוק בבדיקות פיזיות כמו שימוש נכון במשאף ואיתור פגיעות כתף. בעוד שהטכנולוגיה נמצאת עדיין בשלבי מחקר עולמי, היא מסמנת את הכיוון הברור אליו צועד ענף הרפואה: צמצום העומסים הקריטיים על הצוותים והכפלת יכולות הטיפול באמצעות סייעים דיגיטליים אמינים.

Google DeepMind World Health Organization MedPaLM

קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות

השקת מודל הבינה המלאכותית Claude Fable 5: ביצועים ועקרונות בטיחות

מוצר חדש

לפני 22 שעות

4 דקות

מ־TechCrunch

השקת מודל הבינה המלאכותית Claude Fable 5: ביצועים ועקרונות בטיחות

חברת Anthropic השיקה רשמית את Claude Fable 5, הגרסה הציבורית הראשונה של מודל העל שלה Mythos. המודל החדש, המצטיין בכתיבת קוד ובמשימות אנליטיות מורכבות, מציע ביצועים חסרי תקדים שהשיגו 90% במבחני הביצועים של חברת Hex. יחד עם זאת, ההשקה מלווה במנגנוני בטיחות הדוקים החוסמים שימוש בתחומי סייבר וביולוגיה רגישים, ומעבירים את הטיפול ל-Opus 4.8. בנוסף, החברה מציגה מדיניות אבטחה חדשה ומחייבת של שמירת נתונים למשך 30 יום לכלל הלקוחות, ותמחור העומד על 10 דולרים למיליון טוקני קלט ו-50 דולרים למיליון טוקני פלט.

Anthropic Claude Claude Fable 5

קרא עוד

מוצר חדש

אתמול

4 דקות

מ־DeepMind

מודל Gemma 4 12B: גוגל משיקה בינה מלאכותית מולטי-מודאלית מקומית

Google DeepMind Gemma 4 12B Apache 2.0

קרא עוד

מחשבי AI עם מעבדי RTX Spark: אנבידיה משנה את שוק המחשוב המקומי

מוצר חדש

3 ביוני 2026

4 דקות

מ־Wired

מחשבי AI עם מעבדי RTX Spark: אנבידיה משנה את שוק המחשוב המקומי

ענקית השבבים Nvidia הציגה בתערוכת Computex 2026 את פלטפורמת RTX Spark – שבבי "סופר-צ'יפ" המשלבים מעבד מרכזי N1 בארכיטקטורת Arm, כרטיס מסך עוצמתי ממשפחת RTX וזיכרון מאוחד של עד 128 גיגה-בייט. הכרזה זו מסמנת את תחילתו של עידן ה-AI PC האמיתי, ומספקת לראשונה חלופת Windows עוצמתית למחשבי ה-MacBook Pro של אפל עבור מפתחים ועסקים המעוניינים להריץ מודלי שפה גדולים (LLMs) באופן מקומי לחלוטין. עם תמיכה מלאה בתשתית התוכנה CUDA, מחשבים אלו צפויים להציע ביצועי AI יוצאי דופן במחיר של כ-4,000 דולר לקונפיגורציות הקצה, ומביאים איתם בשורה של ממש לעסקים ישראליים הנדרשים לעמוד בחוקי הגנת הפרטיות הנוקשים.

Nvidia Microsoft HP

קרא עוד

מערכת Data Formulator 0.7: מיקרוסופט חושפת AI לניתוח נתונים עסקיים

מוצר חדש

28 במאי 2026

4 דקות

מ־Microsoft Research

מערכת Data Formulator 0.7: מיקרוסופט חושפת AI לניתוח נתונים עסקיים

מיקרוסופט הכריזה על שחרור גרסת 0.7 של פלטפורמת הקוד הפתוח Data Formulator. המערכת החדשה רותמת סוכני בינה מלאכותית מודעי-הקשר (Context-aware AI agents) במטרה לפשט תהליכי ניתוח נתונים מורכבים בארגונים. הפלטפורמה כוללת רכיב מתקדם של מחברי נתונים המאפשר הזרמת מידע באופן רציף ממסדי נתונים, קבצים מקומיים ומערכות בינה עסקית, תוך מניעת הצורך בעבודות אינטגרציה סיזיפיות מצד מחלקות ה-IT. בנוסף, סביבת העבודה הייחודית (Data Thread) מאפשרת למשתמשי הקצה לנהל שיח שוטף בשפה טבעית מול סוכני ה-AI, לתחקר נתונים, ליצור ויזואליזציות מתקדמות ולייעל את הליך קבלת ההחלטות העסקיות מבלי להזדקק לידע מוקדם בכתיבת קוד או שאילתות מורכבות.

Microsoft Data Formulator Gartner

קרא עוד