מחקר
2 דקות
מ־arXiv cs.AI
RPO: כוונון חיזוקי חסכוני ב-90% למודלי שפה גדולים
בעולם המודלים של שפה גדולים, כוונון עדין בחיזוק דורש יצירת מסלול חשיבה מלא מהשאלה הראשונית, מה שגורם לעלות מחשוב עצומה. RPO – כוונון חיזוקי עם אופטימיזציית חשיבה חלקית – מפחית זאת ב-95%. קראו עכשיו על החיסכון העצום באימון מודלים.
קרא עוד