בעידן שבו פרטיות הנתונים הופכת למפתח בתעשיית הבינה המלאכותית, הצפנה הומומורפית מלאה (FHE) מבטיחה חיסיון מוחלט – אך עד כה סבלה מביצועים איטיים שמנעו פריסה מסחרית. כעת, מסגרת Cerium החדשה משנה את חוקי המשחק: היא מנצלת כרטיסי מסך NVIDIA רגילים להסקת מודלים גדולים כמו Llama3-8B ו-BERT-Base באופן מוצפן, במהירות תחרותית לשבבי ASIC מתקדמים. הפתרון הזה הופך את הטכנולוגיה לנגישה לעסקים ישראליים וללא צורך בתשתיות יקרות.
Cerium היא מסגרת רב-GPU מקיפה שמשלבת שפת תכנות ייעודית, מקמפלר מתקדם ומערכת ריצה אוטומטית. היא מייצרת ליבות GPU מותאמות אישית, מנהלת זיכרון בסקאלה של טרה-בייט ומפזרת חישובים על פני כמה כרטיסי מסך. החידושים כוללים מבני IR חדשים, שלבי קומפילציה מתקדמים, ייצוגים מדוללים של פולינומים, פריסות נתונים חסכוניות בזיכרון וטכניקות פאראליזציה שמודעות לתקשורת. כך, Cerium תומכת בהסקה מוצפנת החל מ-CNN קטנים ועד למודלי שפה גדולים.
בביצועים, Cerium מציגה קפיצה משמעותית: במודלים קטנים היא עולה על ספריות GPU מותאמות ידנית ב-2.25 פעמים. היא משתווה לביצועי שבב FHE ASIC המוביל CraterLake, ומבצעת bootstrapping – תהליך קריטי ב-FHE – תוך 7.5 מילישניות בלבד, מהירות ראשונה מסוגה בגPU. להמחשה: הסקת BERT-Base מוצפנת אורכת 8 שניות, ול-Llama3-8B – 134 שניות בלבד, הישג ראשון בעולם.
המשמעות העסקית עצומה: בעוד שבבי ASIC דורשים תהליכי ייצור מתקדמים ויקרים, Cerium הופכת את FHE לפרקטי על תשתיות GPU זמינות. זה מאפשר לחברות ישראליות לפתח יישומי AI מאובטחים בתחומי בריאות, פיננסים ופרטיות נתונים, ללא פשרה על ביצועים. בהשוואה לפתרונות קודמים שמוגבלים למודלים קטנים, Cerium פותחת דלת להסקת LLMs מוצפנים בקנה מידה גדול.
עבור מנהלי טכנולוגיה ומנכ"לים, Cerium מציינת הזדמנות אסטרטגית: שילוב AI פרטי בעסקים ללא סיכוני דליפת נתונים. כדאי לעקוב אחר הפיתוחים הבאים ולשקול אינטגרציה מוקדמת. האם הגיע הזמן לשדרג את תשתית ה-AI שלכם להצפנה מלאה?