عبدالرحمن الحبيب
«أتذكر آخر عرض قدمته لأول خوارزمية رؤية حاسوبية قادرة على وصف الصور بلغة بشرية طبيعية، وهو ما قمت به مع تلميذي السابق الرائع أندريه كاباسي. في ذلك الوقت، سألته بتردد: أندريه، هل يمكننا جعل الكمبيوتر يفعل العكس؟ ضحك وقال: هاها، هذا مستحيل!
ومع ذلك، كما ترون، أصبح المستحيل ممكنًا مؤخرًا، وهذا بفضل فئة من الخوارزميات تسمى نماذج الانتشار، والتي تقود الذكاء الاصطناعي التوليدي اليوم، القادر على تحويل الجمل التي يوجهها الإنسان إلى صور ومقاطع فيديو جديدة تمامًا.»
هذا ما كتبته عرابة الذكاء الاصطناعي البروفيسورة فاي فاي لي، المديرة المشاركة لمعهد ستانفورد للذكاء الاصطناعي والرئيس التنفيذي لشركة وورلد لابز، التي توضح أنه «لسنوات عديدة كنت أقول إن التقاط صورة ليس مثل الرؤية والفهم. واليوم، أود أن أضيف أن الرؤية ليست كافية.. الرؤية تتعلق بالعمل والتعلم، فعندما نتصرف في العالم في ثلاثة أبعاد من المكان والزمان، فإننا نتعلم كيف نرى ونتصرف بشكل أفضل.»
تتوقع البروفيسورة فاي أن مستقبل الذكاء الاصطناعي التوليدي سيكون ثورة يصعب تخيلها، تقول: «تخيل مريضًا مصابًا بالشلل الشديد يتحكم في روبوت من خلال موجات الدماغ لأداء المهام اليومية.. ما تراه هو لمحة عن مستقبل دراسة تجريبية حديثة من مختبري.. حيث يقوم ذراع الروبوت، الذي يتم التحكم فيه فقط من خلال إشارات تخطيط كهربية الدماغ التي يتم جمعها بشكل غير جراحي عبر غطاء تخطيط كهربية الدماغ..». وتوضح بأنه «مع المتعاونين في كلية الطب بجامعة ستانفورد والمستشفيات الشريكة لها، نقوم بتجربة أجهزة استشعار ذكية يمكنها اكتشاف ما إذا كان العاملون في مجال الرعاية الصحية يغسلون أيديهم بشكل صحيح قبل دخول الغرفة، أو يتتبعون الأدوات الجراحية، أو ينبهون فرق الرعاية عندما يكون المريض معرضًا لخطر جسدي، مثل السقوط.»
تعيدنا فاي إلى البداية، موضحة أن ثورة الذكاء الاصطناعي التوليدي كانت مدفوعة بنماذج لغوية كبيرة مثل ChatGPT، والتي تحاكي الذكاء اللفظي للبشر، لكنها تؤكد أنه حان الوقت للنظر إلى ما هو أبعد من نماذج اللغة: «أعتقد أن الذكاء القائم على الرؤية - وهو ما أسميه الذكاء المكاني - أكثر أهمية.. والواقع أن اللغة مهمة، ولكن بصفتنا بشراً فإن قدراً كبيراً من قدرتنا على فهم العالم والتفاعل معه يعتمد على ما نراه.»
تذكر فاي أنه في البداية، كان وسم الصور إنجازًا كبيرًا، لكن الخوارزميات تحسنت سريعاً في السرعة والدقة، وبمساعدة نماذج الانتشار، تتمكن خوارزميات الذكاء الاصطناعي التوليدي من تحويل الجمل التي يوجهها الإنسان إلى صور ومقاطع فيديو جديدة تمامًا، فقد كانت خوارزميات الرؤية الحاسوبية المبكرة قادرة على وصف الصور الفوتوغرافية بلغة طبيعية، وهي اليوم قادرة على التحول من النص إلى الصور والفيديو.
فما هو مستقبل الذكاء المكاني كما تسميه فاي؟ تجيب فاي: «إذا أردنا أن يتجاوز الذكاء الاصطناعي قدراته الحالية، فنحن بحاجة إلى أكثر من مجرد الذكاء الاصطناعي القادر على الرؤية والتحدث؛ نحن بحاجة إلى الذكاء الاصطناعي القادر على التصرف.».. يُعلِّم الذكاء المكاني أجهزة الكمبيوتر كيفية الرؤية والتعلم والأداء بشكل أفضل في فضاء ثلاثي الأبعاد.. فالذكاء المكاني، الذي يمكّن الآلات من التفاعل مع البشر والعالم ثلاثي الأبعاد، سيكون له تأثير بعيد المدى على المستقبل.
في واقع الأمر، تقول فاي، نحن نحرز تقدماً مثيراً في مجال الذكاء المكاني، ويتلخص أحدث إنجاز في مجال الذكاء المكاني في تعليم أجهزة الكمبيوتر الرؤية والتعلم والعمل والتعلم على الرؤية والعمل بشكل أفضل.. هذه هي العلامات الأولى لاحتمالات المستقبل، مستقبل حيث يمكن للبشر ترجمة العالم بأكمله إلى شكل رقمي ومحاكاة ثرائه وتفاصيله الدقيقة.
تقول فاي: كما نحرز تقدمًا مثيرًا في الذكاء اللغوي الروبوتي باستخدام المدخلات القائمة على نماذج لغوية واسعة النطاق، كان طلابي وزملائي من أوائل الفرق التي أظهرت أن ذراع الروبوت يمكنها أداء مجموعة واسعة من المهام بناءً على الأوامر اللفظية، مثل فتح درج أو فصل الهاتف المحمول عن الشاحن، أو حتى صنع السندويشات، باستخدام الخبز والخس والطماطم، وحتى وضع منديل للمستخدم.. في حين أنني أتمنى عادةً أن تكون سندويشاتي أكثر إفادة، فهذه بداية جيدة.. إنه وقت مثير حيث نعلم رفاقنا الرقميين كيفية تعلم التفكير والتفاعل في الفضاء ثلاثي الأبعاد الجميل الذي نسميه موطننا، وخلق المزيد من العوالم الجديدة التي يمكننا استكشافها معًا.
تؤكد فأي أن تحقيق ذلك في المستقبل لن يكون سهلاً، إذ سيتطلب منا جميعًا اتخاذ خطوات مدروسة لتطوير التقنيات التي تضع البشر دائمًا في المركز، ولكن إذا نجحنا في ذلك، فلن تكون أجهزة الكمبيوتر والروبوتات ذات الذكاء المكاني أدوات مفيدة فحسب، بل ستكون رفاقًا موثوقًا بهم، مما يعزز إنتاجيتنا وإنسانيتنا، مع احترام كرامتنا الفردية وتعزيز ازدهارنا الجماعي.