אספקת נתונים למודלי בינה מלאכותית: חברת Wirestock מגייסת 23 מיליון דולר
חברת Wirestock השלימה סבב גיוס A בסך 23 מיליון דולר במטרה להרחיב את פלטפורמת אספקת הנתונים המולטי-מודאליים שלה למעבדות פיתוח מודלי שפה. החברה, שהחלה כזירת מסחר לצלמים, ביצעה שינוי כיוון אסטרטגי ומספקת כיום נתוני תמונות, וידאו ותלת-ממד עבור שש מתוך יצרניות מודלי התשתית הגדולות בעולם, תוך יצירת מודל הכנסות חדש ליוצרי תוכן דיגיטלי.
מה זה אספקת נתונים מולטי-מודאליים לבינה מלאכותית?
אספקת נתונים מולטי-מודאליים (Multi-Modal Data) היא תהליך האיסוף, התיוג והרישוי של קבצי מדיה מסוגים שונים - כגון טקסט, תמונות, קטעי וידאו, שמע ומודלים דיגיטליים בתלת-ממד - המשמשים לאימון מערכות בינה מלאכותית מתקדמות. בהקשר עסקי, פלטפורמות אלו מאפשרות לחברות טכנולוגיה לאמן אלגוריתמים המבצעים משימות מורכבות שמצריכות הבנה חזותית וקולית, ללא חשש מהפרות זכויות יוצרים, על ידי שימוש בתוכן מורשה. לדוגמה, יצרנית מודלי AI יכולה לרכוש מאגר ייעודי של מיליוני תמונות מתויגות במדויק כדי לשפר יכולות זיהוי פריטים. לפי חברת Wirestock, הפלטפורמה שלה מאגדת כיום מעל ל-700,000 אמנים ומעצבים המבצעים משימות של איסוף נתונים בתשלום קבוע, כחלופה טכנולוגית למודלים של סוכנויות צילום.
מעבר ממכירת תמונות לספקיות דאטה: הדיווח של Wirestock
לפי הדיווח שפורסם ב-TechCrunch, חברת Wirestock, אשר בעברה התמקדה בסיוע לצלמים להפיץ ולמכור את יצירותיהם בפלטפורמות כמו Shutterstock, השלימה בהצלחה סבב גיוס של 23 מיליון דולר. את סבב ה-Series A הובילה קרן Nava Ventures, בהשתתפות קרנות נוספות כמו SBVP, Formula VC וכן I2BF Ventures. המנכ"ל והמייסד השותף, מיקאיל חצ'טריאן (Mikayel Khachatryan), ציין כי החברה ביצעה שינוי כיוון עסקי מקיף ב-2023. המטרה הייתה להפוך לספקית ישירה של מאגרי תמונות, וידאו ותוכן תלת-ממדי עבור מעבדות בינה מלאכותית, מגמה שצוברת תאוצה במקביל להתרחבות שוק של סוכני AI לעסקים. החברה העלתה את מספר התורמים שלה מ-100,000 צלמים ב-2022 ל-700,000 יוצרים כיום.
על פי הנתונים שפורסמו על ידי החברה, Wirestock מדווחת כיום על קצב הכנסות שנתי (ARR) של 40 מיליון דולר, ומציינת כי שילמה עד כה סכום מצטבר של 15 מיליון דולר ליוצרי התוכן שלה. חצ'טריאן מסר כי החברה מספקת כעת נתונים מולטי-מודאליים לשש מתוך יצרניות מודלי התשתית הגדולות בעולם הטכנולוגיה, למרות שנמנע מלציין את שמותיהן. הדיווח מוסיף כי הדרישות המשתנות של חברות הטכנולוגיה הובילו את Wirestock לאמן מחדש את צוותיה כדי להעמיק משמעותית את רמת התיוג (Annotation) של הנתונים, וכן להקים מערכי מכירות המיועדים לעבודה ישירה מול ענקיות התשתית והענן (Hyperscalers). בסך הכל מעסיקה החברה 60 עובדים.
ההקשר הרחב של תעשיית נתוני האימון
הצמיחה המהירה של חברות כמו Wirestock משקפת שינוי פרדיגמה דרמטי בתעשיית הבינה המלאכותית העולמית. בעוד שבעבר חברות פיתוח רבות נשענו על איסוף נתונים חינמי ואגרסיבי מרחבי הרשת (Web Scraping), הדרישה הגוברת למודלים מדויקים, לצד הלחצים המשפטיים ודרישות הרגולציה בתחום זכויות היוצרים, דוחפים את מעבדות הטכנולוגיה הגדולות לרכוש נתונים מקוריים שתויגו כהלכה. חברות צעירות כגון Surge, Scale AI ו-Mercor הפכו בזמן קצר לעסקים המוערכים במיליארדי דולרים, אך ורק על בסיס הביקוש לאספקת מערכי נתונים (Datasets) מובנים ונקיים המאפשרים למודלי שפה לבצע משימות ספציפיות.
ההשלכות לעסקים בישראל
ההתפתחות בתחום ספקיות הנתונים המולטי-מודאליים מייצרת השלכות מהותיות עבור מספר תעשיות בישראל, בראשן חברות תוכנה, סטארט-אפים טכנולוגיים המפתחים מודלים מקומיים, ומשרדי פרסום. ראשית, העלות והנגישות של אימון מודלי בינה מלאכותית צפויות להשתפר ככל שנתוני אימון מורשים (Licensed Data) הופכים זמינים ותחרותיים. חברות ישראליות יוכלו לרכוש נתונים מובנים כדי לאמן אלגוריתמים המיועדים לצרכים ייעודיים, כגון זיהוי פגמים בפסי ייצור מתקדמים או פענוח תמונות רפואיות.
שנית, עבור חברות הפועלות במגזר העסקי בישראל ונדרשות לעמידה בתקנות מחמירות (דוגמת חוק הגנת הפרטיות הישראלי המחייב טיפול זהיר במאגרי מידע), הידיעה הברורה שהמודלים המסחריים מתבססים על נתונים חוקיים הכוללים שרשרת אמינות ושקיפות, מקטינה משמעותית את רמת החשיפה המשפטית. כאשר העסק מטמיע כלים ארגוניים המבוססים על דאטה חוקי, הוא נמנע מסכנות של תביעות זכויות יוצרים עתידיות ומבטיח פעילות רציפה.
מה לעשות עכשיו
- מיפוי מקיף של נכסי נתונים פנים-ארגוניים: הקצו זמן לבחון האם לעסק שלכם ישנם מאגרים מסודרים של תמונות, מסמכי תיעוד פנימיים וקטעי וידאו שניתן לנצל. נתונים ייחודיים יכולים להוות בסיס לאימון מודל אישי מבוסס קוד פתוח.
- הטמעת כלי אוטומציה יעילים לניהול נתונים: אם החברה אוספת באופן שוטף מידע ויזואלי של פרויקטים, מומלץ לשלב פלטפורמות אוטומציה עסקית כמו N8N. שימוש בכלים אלו יאפשר לכם לסנן חומרים נכנסים, לתייג אותם בצורה קוהרנטית ולשמור אותם בסביבות ניהול ידע מאובטחות.
- עדכון מדיניות השימוש בתוכן בתוך הארגון: ודאו בעת עבודה עם פלטפורמות ליצירת תוכן המבוססות על מנועי בינה מלאכותית כי הארגון משתמש אך ורק בכלים המספקים כיסוי משפטי בנושא שמירת זכויות יוצרים ומבוססים על נתונים שנרכשו כדין.
- בנייה של תהליכי בקרת איכות משולבים: כפי ש-Wirestock בוחנת עבודות נכנסות על ידי שילוב בין גורם אנושי ומודלי AI, מומלץ להטמיע מנגנוני סינון חכמים אלו כחלק ממערכות ה-CRM בעסק, כדי לאמת ולנתח אוטומטית מסמכים שמגיעים מלקוחות קצה.
מבט קדימה
המעבר המואץ של חברות דוגמת Wirestock לאספקת נתוני אימון מורשים מסמן באופן חד משמעי את השלב הבא באבולוציה של הבינה המלאכותית: מיקוד במודלים שלומדים לבצע פעולות, ולא רק לייצר טקסט. ככל שהתחום מתבגר, עסקים יידרשו לנהל את נתוניהם בצורה חכמה ומדויקת יותר. שילוב בין תשתיות נתונים איכותיות ומערכות אוטומציה מתקדמות יאפשר לחברות לשפר ביצועים ולהשיג יתרון תחרותי ממשי.