בעידן שבו ארגונים זקוקים למודלי AI עמידים בפני טקסט רועש ושפות נדירות, מכון אלן לבינה מלאכותית (Ai2) משיק את Bolmo – משפחת מודלים חדשה ברמת בתים שמבטלת את הצורך בטוקנייזר ומפשטת פריסה בקנה מידה גדול. המודלים Bolmo 7B ו-Bolmo 1B הם הראשונים מסוגם שפתוחים לחלוטין, ומבוססים על עמוד השדרה של Olmo 3 תוך שימוש ביכולותיו הקיימות. Ai2 מדווחת כי הם מתחרים ואף עולים על מודלים דומים בתחומי קידוד, מתמטיקה ושאלות הבנה.
Ai2 פיתחה את Bolmo על ידי 'המרת בתים' של מודל Olmo 3 7B בשני שלבים. בשלב הראשון, קופאו רוב הרשת כדי להכשיר רק חלקים ספציפיים כמו מקודד מקומי, מקודד ומנבא גבולות – תהליך זול שדורש רק 9.8 מיליארד טוקנים. בשלב השני, שוחררה הקפאה והוספו נתונים נוספים, כולל ערבוב נתונים Dolma 3 וקבוצות נתונים פתוחות ברמת תווים. גישה זו מאפשרת טיפול ישיר בבתים UTF-8 גולמיים, ללא מילון מוגדר מראש.
המודלים הוכשרו על נתוני Dolma 3 ששימשו גם את Olmo, לצד נתוני קוד ותווים. Ai2 משחררת נקודות בדיקה, קוד ומאמר מלא כדי לאפשר לקהילה להרחיב את האקוסיסטם. Bolmo 7B הציג ביצועים מעולים במבחנים כמו CUTE ו-EXECUTE, ועקף את Olmo 3 הבסיסי בהבנת תווים, קידוד ומתמטיקה.
מודלי שפה ברמת בתים אינם נפוצים כמו LLM רגילים, אך התחום צומח עם מחקרים כמו BLT של Meta, ByT5 ו-Canines. הם מצטיינים בטיפול בשגיאות כתיב, שפות נדירות וטקסט לא סטנדרטי – דרישות מרכזיות למתן, פריסה בקצוות ויישומים רב-לשוניים. עבור ארגונים ישראליים הפועלים במספר שפות, זהו יתרון משמעותי.
Ai2 מדגישה כי Bolmo משתלב באקוסיסטם קיים ללא אימון מחדש יקר. מבנה היררכי דינמי מאפשר שליטה בדחיסה, מה שהופך אותו למתאים למחסני מודלים הטרוגניים. זהו צעד פרקטי להפיכת גישה אקדמית ליישומית, במיוחד בסביבות מוגבלות.
ארגונים יכולים לשקול לשלב Bolmo כדי לשפר עמידות בלי לוותר על תשתיות קיימות. Ai2 מספקת תוכנית ניתנת לשכפול שמקלה על אימוץ. מה תכנון הפריסה הבא שלכם?