בעולם העסקי שבו נתונים בטבלאות הם המפתח להחלטות מהירות, חוקרים משחררים את JT-DA-8B – מודל שפה גדול (LLM) מיוחד לניתוח טבלאות מורכבות בסצנות אמיתיות. המודל מבוסס על JT-Coder-8B ומשלב אימון מתקדם כדי להתמודד עם משימות רב-שלביות. לפי המחקר שפורסם ב-arXiv, JT-DA-8B מצליח במשימות מגוונות ומבטיח לשפר את היעילות בניתוח נתונים עסקיים.
המודל נבנה כדי להתגבר על מחסור בנתוני אימון איכותיים לניתוח טבלאות. החוקרים אספו מאגר מקיף הכולל 34 משימות מוגדרות היטב, על בסיס 29 מערכי נתונים ציבוריים של שאלות-תשובה על טבלאות ו-3 מיליון טבלאות אמיתיות. הם פיתחו צינור אוטומטי לייצור משימות אנליטיות רב-שלביות הכוללות דפוסי חשיבה מורכבים, מה שמאפשר אימון ממוקד ומציאותי יותר.
בשלב האימון, JT-DA-8B עבר אופטימיזציה באמצעות ניקוי נתונים מבוסס LLM לציון איכות וסינון מותאם לזרימת עבודה. השתמשו בשילוב של אימון מונחה-פקודות (SFT) ולמידת חיזוק (RL) כדי לחדד את הביצועים. בנוסף, הוצע זרימת עבודה ארבע-שלבית: עיבוד טבלאות ראשוני, זיהוי טבלאות, ניתוח משולב בכלים ומהנדסת פרומפטים – מה שמשפר את השקיפות והדיוק.
המודל מציג ביצועים חזקים במגוון משימות ניתוח טבלאות, ומדגים את היעילות של יצירת נתונים ממוקדת טבלאות ואופטימיזציה מבוססת זרימת עבודה. בהשוואה למודלים כלליים, JT-DA-8B מתמחה בסביבות נתונים אמיתיות, מה שרלוונטי במיוחד למנהלי עסקים ישראלים שמתמודדים עם דוחות פיננסיים, נתוני מכירות וטבלאות BI יומיומיות.
עבור מקצועני AI ומנהלים, JT-DA-8B פותח אפשרויות חדשות לאוטומציה של ניתוח נתונים. כדאי לבדוק את הקוד הפתוח ולשלב אותו בכלים קיימים. מה תהיה ההשפעה על כלי BI בישראל?