בעידן שבו ארגונים מסתמכים על אוטומציה כדי לבנות תשתיות ענן במהירות, דגמי שפה גדולים (LLM) נכשלים לעיתים קרובות ביצירת קוד תשתית (IaC) מדויק ומתאים לכוונת המשתמש. מחקר חדש שפורסם ב-arXiv בוחן שיטות לשיפור הביצועים של LLM ביצירת IaC עבור Terraform, ומגלה כי הזרקת ידע מובנה על תצורות משפרת משמעותית את הדיוק הטכני – אך לא בהכרח את ההתאמה לכוונה.
החוקרים שיפרו את מדד הביצועים הקיים IaC-Eval באמצעות אמולציית ענן וניתוח שגיאות אוטומטי. בנוסף, הם פיתחו טקסונומיית שגיאות חדשה ספציפית ליצירת IaC בעזרת LLM. שיטות ההזרקה כללו התקדמות משיטת RAG פשוטה (Retrieval-Augmented Generation) ועד גישות Graph RAG מתקדמות, הכוללות העשרה סמנטית של רכיבי גרף ומודלינג של תלות בין משאבים.
בניסויים, ביצועי ה-LLM הבסיסיים היו נמוכים – 27.1% הצלחה כוללת. עם הזרקת ידע מובנה על תצורות, שיעור ההצלחה בוולידציה טכנית עלה ל-75.3%, וההצלחה הכוללת ל-62.6%. לפי הדיווח, השיפורים הללו מדגישים את הפוטנציאל של LLM כ'מקודדים' מיומנים, אך חושפים 'פער נכונות-התאמה' (Correctness-Congruence Gap).
פער זה מצביע על כך שלמרות ש-LLM יכולים לייצר קוד תקין מבחינה טכנית, הם מתקשים עדיין בתכנון ארכיטקטורלי שמתאים לכוונות מורכבות של משתמשים. בהשוואה לשיטות מסורתיות, הגישה החדשה מציעה דרך יעילה יותר לשלב ידע מובנה, מה שרלוונטי במיוחד לארגונים ישראליים המפתחים תשתיות ענן בקנה מידה גדול.
המחקר מדגיש כי כדי להפוך LLM ל'ארכיטקטים' אמיתיים, יש צורך בשיפורים נוספים בהבנת כוונה. מנהלי טכנולוגיה צריכים לשקול שילוב טכניקות Graph RAG בכלי אוטומציה, אך לבדוק היטב התאמה עסקית. מה תהיה ההשפעה על כלי DevOps בישראל?