الذكاء الاصطناعي الأول الذي يتقن الألعاب دون تعلم MuZero من DeepMind

في عام 2016 تمكن الذكاء الاصطناعي من شركة ديب مايند (DeepMind) التابعة لشركة ألفابت (Alphabet) المالكة لشركة جوجل، من تعلم لعبة Go والتغلب باستمرار على أفضل اللاعبين، وبعد عام واحد تمكنت الشركة الفرعية من تحسين عملها وإنشاء ألفا جو زيرو (AlphaGo Zero).

وحيث أنه قد تمكن سلفه من أن يتعلم كيفية لعب لعبة Go عن طريق مراقبة مباريات الهواة والمحترفين في اللعبة، فإن AlphaGo Zero تمكن من إتقان اللعبة القديمة ببساطة عن طريق اللعب ضد نفسه، لاحقاً قامت DeepMind بصنع AlphaZero والذي استطاع أن يلعب كل من Go، ولعبة الشطرنج، ولعبة الشوغي (Shogi) باستخدام خوارزمية واحدة فقط.

الذكاء الاصطناعي الأول الذي  يتقن الألعاب دون تعلم MuZero من DeepMind

الرابط الذي يجمع بين أنظمة الذكاء الاصطناعي المذكورة هو أنها كانت تعلم (أو تم تعليمها) قواعد الألعاب التي يتحتم عليها اتقانها عند التمرين، أحدث إصدارات الذكاء الاصطناعي من DeepMind المعروف بمو زيرو (MuZero) لم يكن بحاجة لأخباره بقواعد لعبة Go أو الشطرنج أو الشوغي وكذلك مجموعة من ألعاب أتاري حتى يتمكن من إتقانها، بدلاً من ذلك تمكن من تعلم جميع هذه الألعاب من تلقاء نفسه وقد أصبح متمكناً منها بنفس مستوى أو حتى قد يكون بمستوى أفضل من خوارزميات الذكاء الاصطناعي التي سبقته من DeepMind.

نظرية النظر إلى الأمام في MuZero

كان إنشاء خوارزمية يمكنها التكيف مع موقف لا تعرف فيه جميع القواعد التي تحكم المحاكاة، ومع ذلك استطاعت العثور على طريقة للتخطيط للنجاح، تحديًا حاول باحثو الذكاء الاصطناعي حله لفترة من الوقت، وقد حاولت DeepMind معالجة المشكلة باستعمال مقاربة تسمى البحث بالنظر إلى الأمام.

باستخدام هذه النظرية تقوم الخوارزمية بالنظر في الاحتمالات للحالات المستقبلية لكي تخطط مسارها للخطوة التالية، أفضل طريقة لمعرفة طريقة عملها هو التفكير في الطريقة التي نلعب بها ألعاب استراتيجية، مثل الشطرنج، ولعبة ستاركرافت 2 (StarCraft 2)، حيث أننا سنقوم بالأخذ بنظر الاعتبار ردة فعل المنافس المتوقعة ونحاول التخطيط تبعاً لذلك.

بنفس الطريقة وإلى حد كبير يستخدم الذكاء الاصطناعي نظرية “النظر الى الأمام” حتى يخطط بضع خطوات مسبقاً، ولكن حتى مع لعبة مباشرة نسبياً مثل لعبة الشطرنج، فإنه من المستحيل التفكير في جميع الخطوات المستقبلية المحتملة، لذلك فإنه بدلاً من ذلك يقوم الذكاء الاصطناعي بإيلاء الأهمية للخطوات التي من المرجح أنها ستفوز بالمباراة أكثر من غيرها.

MuZero أول ذكاء اصطناعي يتقن الألعاب دون الحاجة لتعلم قواعدها من DeepMind

نظرية النمذجة في MuZero

تكمن المشكلة في في هذا النهج أن معظم مواقف العالم الحقيقي (وحتى بعض الألعاب) لا تحتوي على مجموعة بسيطة من القواعد التي تحكم الكيفية التي تعمل بها، لذلك حاول بعض الباحثين الالتفاف على المشكلة باستخدام مقاربة تحاول نمذجة كيفية تأثير لعبة أو بيئة سيناريو معينة على النتيجة ثم استخدام تلك المعرفة لوضع خطة. إلا أن عيب هذا النظام هو أن بعض المجالات معقدة إلى درجة لا يكاد من الممكن نمذجة كل جانب منها. وقد تبين أن هذا الحال هو نفسه في معظم ألعاب أتاري (على سبيل المثال).

اقرأ أيضا: ما هو الذكاء الاصطناعي

خوارزمية عمل MuZero

بطريقة ما، يجمع MuZero بين أفضل ما في النظريتين ( النظر الى الأمام والنمذجة)، لذلك فبدلاً من نمذجة كل شيء فإنه سيحاول النظر في العوامل المهمة فقط من أجل إتخاذ القرار. فكما يشير DeepMind، هذا شيء نفعله نحن البشر. مثالاً على ذلك عندما ينظر الناس من النافذة ويرون سحباً داكنةً تتشكل في السماء، فإنهم وبشكلٍ عامٍ لا ينشغلون بالتفكير في أشياء مثل جبهة التكثف والضغط للسحب، وإنما يفكرون بدلاً من ذلك في كيفية ارتداء الملابس التي تبقيهم جافين إذا خرجوا، يعمل MuZero بنفس الطريقة تقريباً.

يأخذ MuZero عندما يتعين عليه إتخاذ قرار في نظر الاعتبار ثلاثة عوامل، الأول هو نتائج قراراته السابقة، والثاني هو موقفه الحالي الذي يجد نفسه فيه، وكذلك أفضل مسار للخطوات للمضي فيها بعد ذلك، هذه المقاربة التي تبدو بسيطة تجعل MuZero الخوارزمية الأكثر فعالية تم إنشاؤها من DeepMind حتى الآن.

وجدت DeepMind في اختباراتها أن MuZero كان جيداً كجودة AlphaZero في لعبة الشطرنج و Go ولعبة الشوغي، وفي نفس الوقت أفضل من الخوارزميات التي سبقته بما ذلك أيجنت57 (Agent57) في ألعاب أتاري، وجدت كذلك أنه كلما تم إعطاء MuZero مزيداً من الوقت من أجل النظر في مسار خطواته، كلما زادت الأفضلية في أدائه. كما قامت DeepMind بإجراء اختبار حيث قامت فيه بتحديد عدد عمليات المحاكاة التي سيقوم بها MuZero مسبقاً من أجل اتمام القيام بخطوة في لعبة باكمان (Ms. Pac-Man). وقد وجدت بأن MuZero كان لا يزال قادراً على تحقيق نتائج جيدة.

أقرأ أيضا: الروبوتات والذكاء الاصطناعي لعام 2021

مستقبل الذكاء الاصطناعي MuZero

إن تحقيق نقاط عالية في ألعاب أتاري يعتبر أمراً حسناً وجيداً، ولكن ماذا عن التطبيقات العملية لأحدث أبحاث DeepMind، باختصار يمكن أن تكون هذه الأبحاث رائدة، وبالرغم من أن MuZero هو أقرب خوارزمية تمكن الباحثون من تطويرها والتي يمكن إستخدامها للأغراض العامة، إلا أنه من المبكر الحديث عن ذلك، وحسب قول الشركة فإن قدرات MuZero يمكن أن تساعد يوماً ما في معالجة المشكلات المعقدة في مجالات مثل الروبوتات حيث لا توجد قواعد مباشرة.

المصدر

Similar Posts

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *