في مضمار سباق تُحيطه الأشجار مع كل جانب، تنطلق السيارات بقوة وتتسارع معها نبضات قلب السائقين، تتألف مجموعة السباق من 174 سيارة تكوِّن معًا مزيجًا مختلفًا يروق للجميع، يتسابق السائقون في 17 موقعًا مختلفًا، أهمها وأكثرها إثارةً على الإطلاق “طريق طوكيو السريع” الأسطوري، لكن ليس عليهم ربط أحزمة المقعد، ولا هم مُضطرون إلى تزويد السيارة الحديثة القوية بالوقود، فقط عليهم أن يمتلكوا نظام مقود ودواسة وقود منزلية، أو نظارة واقع افتراضي، أو حتى ذراعًا للتحكم؛ فهم ليسوا في المضمار، ولكنهم جالسون أمام شاشة التلفاز، يلعبون لعبة المحاكاة “جران توريزمو” الشهيرة.
حازت تلك اللعبة إعجاب الملايين؛ فقد حرص المصممون في شركة “بوليفوني ديجيتال” على جعل سباقاتها تبدو حقيقيةً على نحوٍ يُثير الدهشة؛ فكل سيارة داخل اللعبة تم إنشاؤها بتفاصيل دقيقة تجعلها تبدو كالحقيقة، يتنافس في تلك اللعبة مجموعات كبيرة من اللاعبين على الإنترنت، والآن يبدو أن أبرزهم وأكثرهم احترافيةً لن يستطيع الصمود أمام النسخة الجديدة من اللعبة، تلك النسخة التي تختلف عن سابقيها -وعن كل الألعاب- بشكل كامل.
فـ”جران توريزمو” الجديدة مزودة بتقنية ثورية للغاية، تقنية من شأنها هزيمة كل اللاعبين، تقنية التعلم المعزز العميق.
قبل نحو أسبوعين، تصدرت صورة تلك اللعبة غلاف مجلة “نيتشر” العريقة، بعد أن نشر باحثون من شركة “سوني” اليابانية دراسةً جديدةً تخص اللعبة في تلك الدورية.
تقول الدراسة إن النسخة الجديدة من اللعبة يُمكنها التغلُّب على اللاعبين البشريين من مستوى بطل العالم في النسخة الرابعة للعبة، التي صدرت على منصة “بلاي ستيشن”؛ لكونها مزودةً بذكاء اصطناعي ثوري تعلَّم إتقان اللعبة ومحاكاة القيادة بشكل مذهل.
ولأن العديد من تطبيقات الذكاء الاصطناعي تعتمد على اتخاذ قرارات في الوقت الفعلي، يمثل سباق السيارات تحديًا كبيرًا؛ إذ يجب على السائقين القيام بمناورات تكتيكية معقدة في أثناء التحكم في السيارة.
هنا تبرز أهمية ذلك الاختراق، التي جعلت دوريةً علميةً بحجم “نيتشر” تجعله غلافًا لأحد أعدادها.
فقبل نحو عامين، وتحديدًا في أبريل 2020، أسست مجموعة سوني شركة فرعية للذكاء الاصطناعي بهدف تقوية تلك التقنية والعمل بشكل متناغم مع البشر لإفادة المجتمع، يقول المؤلف الأول للدراسة “بيتر ورمان”: إن العمل على تطوير تلك اللعبة بدأ منذ أن افتُتحت الشركة، أي منذ عامين.
فالنسخة الجديدة من اللعبة تتجاوز كونها مجرد لعبة؛ فهي محاكاة لقيادة واقعية تجلب تجارب السباقات من الحلبات الحقيقية إلى شاشة التلفاز، لذا “كان تفوق البشر فيها أمرًا محسومًا”، على حد قول “ورمان” في تصريحاته لـ”للعلم”.
لكن بفضل تقنيات التعلم المعزز العميق، لم تعد الغلبة للبشر في تلك النسخة.
فما هي تلك التقنيات؟ وكيف تعمل؟
التعلم المعزز العميق (Deep RL) هو حقل فرعي من التعلم الآلي، يجمع بين التعلم المعزز (RL) والتعلم العميق، التعلم المعزز هو عملية التعلم عن طريق التجربة والخطأ، لا يستند ذلك النوع من التعلم إلى البيانات، بمعنى أن الشخص أو الآلة التي تتعلم في تلك الحالة “تُجرب” الخيارات جميعًا حتى تصل إلى الخيار الأفضل.
أما التعلُّم العميق فهو مجموعة من الخوارزميات تتيح للآلة أن تتعلم بنفسها بشكل يُشبه الطريقة التي تتعلم بها خلايانا العصبية.
في التقنية الجديدة، دمج الباحثون نوعي التعلم لتصميم نسخة “جران توريزمو صوفي” التي “لا تُهزم”.
ويُمكن استخدام التعلُّم المعزز العميق لمجموعة متنوعة من التطبيقات، تتضمن على سبيل المثال لا الحصر الروبوتات وألعاب الفيديو والتعليم والنقل والتمويل والرعاية الصحية.
لكن، ما الذي يجعل اللعبة الجديدة اختراقًا فريدًا للذكاء الاصطناعي؟
النقطة الأولى المهمة هي أن السباق يتطلب من السائقين التحكم في الأنظمة المادية، يحاول المتسابق بشكل أساسي قيادة السيارات على حافة السيطرة أو أبعد من ذلك، كما يجب عليه معرفة متى يستخدم المكابح، وما هو أفضل خط للوصول، ومتى يَزيد السرعة ويتحكم في السيارة، متى ينعطف وكيف، في السباق أنت لست وحدك على المسار الصحيح، إذ يؤثر السائقون الآخرون على ديناميكيات السيارة.
ثم هناك جميع الجوانب التكتيكية المبنية على سُبل التحكم الديناميكية للغاية، يجب على المتسابقين إيجاد خطوط لتمرير خصومهم مع مراعاة رد فعل الخصم على محاولات التجاوز، هذا يحول السباق إلى سباق معقد ذهابًا وإيابًا بين الخصوم، بما في ذلك سلوكيات الدفاع والتظاهر، بالإضافة إلى دفع الحدود على خطوط السباق والفرملة ونقاط التسارع.
ويحتاج سائقو السباقات إلى الالتزام بقواعد محددة تحكم إلى أي مدى يمكن للسائقين الانزلاق عن المسار ومَن يُلقى اللوم عليه عند حدوث تصادم، ينظر الحكام في مواقف السباق الحرجة ويحددون العقوبات الزمنية المحتملة للسائقين، القواعد غير محددة بدقة ومفتوحة للتفسير، هذا يجعل من الصعب تشفيرها ويصعِّب تحسينها مباشرة، هناك أيضًا مفهوم اللعب النظيف في السباقات، يجب أن يكون السباق ممتعًا وجذابًا، لا ينبغي استخدام الاصطدامات كأداة للفوز بالسباقات، في الوقت نفسه، يحتاج المتسابقون إلى القيادة بقوة لتحقيق الفوز، إيجاد التوازن الصحيح هو تحدٍّ حقيقي.
كل هذه الأشياء مجتمعة تميز النسخة الجديدة من اللعبة التي تتقن “فيزياء السباقات” وتتعرف على إستراتيجيات اللاعب الخصم، ولا تتجاوز “آداب السباق”.
خبرة السنوات في ساعات!
اللاعب الاصطناعي الجديد المدعوم بالتعلم الآلي، والقادر على تعلُّم اللعبة، تمكَّن من إتقان السباق بعد بضع ساعات فقط من تعلُّم كيفية تطبيق كلٍّ من السرعة والكبح للبقاء في المسار الصحيح، كان اللاعب الجديد أسرع من 95٪ من اللاعبين البشريين في الاختبارات.
وبعد أن درب اللاعب الاصطناعي نفسه لمدة تسعة أيام أخرى، تراكمت فيها “خبراته” لأكثر من 45 ألف ساعة قيادة، حقق “أداءً خارقًا”، وتفوق على اللاعبين البشريين، ومن ضمنهم “تاكوما مايوزوما” بطل العالم في سباقات “جران توريزمو”.
تلك ليست المرة الأولى التي نرى فيها الذكاء الاصطناعي يتعلم كيف يتفوق على اللاعبين البشريين في الألعاب، على مر السنوات، تراكمت الانتصارات، لكن في الألعاب الإستراتيجية كالشطرنج.
“لكن الأمر يختلف في سباقات السيارات” على حد قول “ورمان”، الذي يشير إلى أن “التعلم المعزز العميق” يُبشر بالتحكم في المركبات والسيارات في العالم الحقيقي بصورة “أفضل من السائقين البشريين المحترفين”.
يقول الباحث في مجال الذكاء الاصطناعي والروبوتات بمعهد جورجيا التقني “يان بيج يان”، لم يشارك في الدراسة: إن الدراسة “تعطينا لمحة صغيرة عن مستقبلنا”، ذلك المستقبل الذي سيتوافر فيه “لاعبون جدد”، ليس داخل الشاشات ولكن “في عالمنا المحيط”.
فانتصار اللاعب الآلي في سباق سيارات مُعقد “ليس نهاية المطاف”؛ إذ إن تقنيات التعلم المعزز العميق تعني أن كل مهن المستقبل دون استثناء “سيدخلها لاعبون جدد، لاعبون يُراكمون -في ساعات معدودة- الخبرات التي يحتاج البشر إلى سنوات طويلة لتكوينها، لاعبون استثنائيون سيتفوقون على جنسنا في نهاية المطاف، لاعبون من دوائر سيليكون وإلكترونات يقودها ذلك الابتكار الفريد، التعلم المُعزز العميق”.
المصدر: scientificamerican