בעידן הדיגיטלי שבו ארגונים גדולים מנהלים עשרות ואף מאות מסדי נתונים, ניתוב שאילתות בשפה טבעית של משתמשי קצה למסד הנכון הופך לאתגר מרכזי. מחקר חדש שפורסם ב-arXiv (2601.19825v1) בוחן את הבעיה הזו בסביבות ארגוניות רב-מסדיות ומציג פתרון מתקדם שמבטיח דיוק גבוה יותר. לפי החוקרים, הבעיה מחריפה ככל שמאגרי הנתונים גדלים ומחפפים, במיוחד עם שאילתות עמומות. זה דוחף לפיתוח פתרונות מבוססי חשיבה מובנית.
המחקר בונה בנצ'מרקים ריאליסטיים על ידי הרחבת מערכי נתונים קיימים של NL-to-SQL, מה שהופך אותם למתאימים יותר לסביבות ארגוניות אמיתיות. המחקר מדגים כי ניתוב שאילתות שפה טבעית למסדי נתונים ארגוניים הופך קשה יותר ככל שמספר מסדי הנתונים עולה, במיוחד כאשר יש חפיפה בין דומיינים ושאילתות לא חד-משמעיות. לפי הדיווח, זה מצריך גישה מובנית ומבוססת חשיבה חזקה יותר מאשר שיטות מסורתיות.
הפתרון המוצע הוא אסטרטגיית דירוג מחדש מודולרית ומבוססת חשיבה, שמודלת במפורש כיסוי סכמה, קישוריות מבנית והתאמה סמנטית מדויקת. כיסוי הסכמה בודק עד כמה מבנה מסד הנתונים מכסה את תכני השאילתה, קישוריות מבנית בוחנת קשרים בין אלמנטים במסד, והתאמה סמנטית מבטיחה התאמה עמוקה של משמעויות. גישה זו מאפשרת ניתוב מדויק יותר בסביבות מורכבות.
במבחנים, השיטה עקפה באופן עקבי את הבסליינים של שימוש בלבד בעיבוד embedding או בפרומפטינג ישיר של מודלי שפה גדולים (LLM), בכל המדדים. זה מצביע על חשיבות הגישה המבוססת חשיבה בסביבות ארגוניות, שבהן גישה מהירה ומדויקת לשאילתות יכולה לחסוך זמן כסף רב. עבור מנהלי טכנולוגיה ישראלים, שרבים מהם מתמודדים עם מערכות נתונים מורכבות, המחקר הזה רלוונטי במיוחד.
המסקנה העיקרית היא שפתרונות ניתוב שאילתות חייבים לשלב חשיבה מובנית כדי להתמודד עם הצמיחה במסדי נתונים. ארגונים צריכים לשקול אימוץ שיטות כאלה כדי לשפר את יעילות צוותי הנתונים שלהם. האם המערכת שלכם מוכנה לאתגר הרב-מסדי?