لقد شهد عالم الذكاء الاصطناعي قبل أيام قليلة ضجة كبيرة مع إطلاق DeepSeek-R1، وهو نموذج استدلال مفتوح المصدر يطابق أداء أفضل النماذج الأساسية مع الادعاء بأنه تم بناؤه باستخدام ميزانية تدريب منخفضة بشكل ملحوظ وتقنيات ما بعد التدريب الجديدة. لم يتحدى إطلاق DeepSeek-R1 الحكمة التقليدية المحيطة بقوانين التوسع في النماذج الأساسية فحسب – والتي تفضل تقليديًا ميزانيات التدريب الضخمة – بل فعل ذلك في أكثر مجالات البحث نشاطًا في هذا المجال: الاستدلال.
إن طبيعة الإصدار المفتوحة (على النقيض من المصدر المفتوح) جعلت النموذج متاحًا بسهولة لمجتمع الذكاء الاصطناعي، مما أدى إلى زيادة في الاستنساخ في غضون ساعات. وعلاوة على ذلك، ترك DeepSeek-R1 بصماته على سباق الذكاء الاصطناعي الجاري بين الصين والولايات المتحدة، مما عزز ما أصبح واضحًا بشكل متزايد: النماذج الصينية ذات جودة عالية بشكل استثنائي وقادرة تمامًا على دفع الابتكار بأفكار أصلية.
على عكس أغلب التطورات في مجال الذكاء الاصطناعي التوليدي، والتي يبدو أنها تعمل على توسيع الفجوة بين Web2 وWeb3 في مجال النماذج الأساسية، فإن إطلاق DeepSeek-R1 يحمل تداعيات حقيقية ويقدم فرصًا مثيرة للاهتمام للذكاء الاصطناعي Web3. لتقييم هذه الفرص، يتعين علينا أولاً إلقاء نظرة فاحصة على الابتكارات والميزات الرئيسية لـ DeepSeek-R1.
داخل DeepSeek-R1
كان DeepSeek-R1 نتيجة لإدخال ابتكارات تدريجية في إطار تدريب أولي راسخ للنماذج الأساسية. وبصورة عامة، يتبع DeepSeek-R1 نفس منهجية التدريب التي تتبعها معظم النماذج الأساسية البارزة. ويتألف هذا النهج من ثلاث خطوات رئيسية:
- التدريب المسبق: يتم تدريب النموذج مسبقًا في البداية للتنبؤ بالكلمة التالية باستخدام كميات هائلة من البيانات غير المصنفة.
- الضبط الدقيق الخاضع للإشراف (SFT): تعمل هذه الخطوة على تحسين النموذج في منطقتين أساسيتين: اتباع التعليمات والإجابة على الأسئلة.
- التوافق مع التفضيلات البشرية: يتم إجراء مرحلة الضبط الدقيق النهائية لمواءمة استجابات النموذج مع التفضيلات البشرية.
تلتزم معظم نماذج الأساس الرئيسية – بما في ذلك تلك التي طورتها OpenAI وGoogle وAnthropic – بنفس العملية العامة. على مستوى عالٍ، لا يبدو إجراء تدريب DeepSeek-R1 مختلفًا بشكل كبير. ولكن بدلاً من تدريب نموذج أساسي مسبقًا من الصفر، استفاد R1 من النموذج الأساسي لسلفه، DeepSeek-v3-base، والذي يتميز بـ 617 مليار معلمة مثيرة للإعجاب.
في الأساس، يعد DeepSeek-R1 نتيجة لتطبيق SFT على DeepSeek-v3-base باستخدام مجموعة بيانات منطقية واسعة النطاق. يكمن الابتكار الحقيقي في بناء مجموعات البيانات المنطقية هذه، والتي يصعب بناؤها بشكل ملحوظ.
الخطوة الأولى: DeepSeek-R1-Zero
من أهم جوانب DeepSeek-R1 أن العملية لم تنتج نموذجًا واحدًا فقط بل نموذجين. ولعل أهم ابتكار في DeepSeek-R1 كان إنشاء نموذج وسيط يسمى R1-Zero، وهو متخصص في مهام الاستدلال. وقد تم تدريب هذا النموذج بالكامل تقريبًا باستخدام التعلم التعزيزي، مع الاعتماد بشكل ضئيل على البيانات المصنفة.
التعلم المعزز هو تقنية يتم فيها مكافأة النموذج على توليد الإجابات الصحيحة، مما يمكنه من تعميم المعرفة بمرور الوقت.
إن R1-Zero مثير للإعجاب للغاية، حيث كان قادرًا على مطابقة GPT-o1 في مهام الاستدلال. ومع ذلك، عانى النموذج من مهام أكثر عمومية مثل الإجابة على الأسئلة وقابلية القراءة. ومع ذلك، لم يكن الغرض من R1-Zero أبدًا إنشاء نموذج عام، بل إثبات أنه من الممكن تحقيق قدرات استدلال متطورة باستخدام التعلم التعزيزي وحده – حتى لو لم يكن أداء النموذج جيدًا في مجالات أخرى.
الخطوة الثانية: DeepSeek-R1
تم تصميم DeepSeek-R1 ليكون نموذجًا عامًا يتميز بالتفوق في الاستدلال، مما يعني أنه كان من الضروري أن يتفوق على R1-Zero. لتحقيق هذه الغاية، بدأت DeepSeek مرة أخرى بنموذجها v3، ولكن هذه المرة، قامت بضبطه بدقة على مجموعة بيانات استدلال صغيرة.
كما ذكرنا سابقًا، من الصعب إنتاج مجموعات بيانات الاستدلال. وهنا لعبت R1-Zero دورًا حاسمًا. استُخدم النموذج الوسيط لإنشاء مجموعة بيانات استدلال اصطناعية، والتي استُخدمت بعد ذلك لضبط DeepSeek v3. أسفرت هذه العملية عن نموذج استدلال وسيط آخر، والذي خضع لاحقًا لمرحلة تعزيز التعلم المكثفة باستخدام مجموعة بيانات مكونة من 600000 عينة، تم إنشاؤها أيضًا بواسطة R1-Zero. وكانت النتيجة النهائية لهذه العملية هي DeepSeek-R1.
على الرغم من أنني أغفلت العديد من التفاصيل الفنية لعملية التدريب المسبق لـ R1، فإليك أهم الاستنتاجات:
- لقد أثبت R1-Zero أنه من الممكن تطوير قدرات استدلالية متطورة باستخدام التعلم التعزيزي الأساسي. ورغم أن R1-Zero لم يكن نموذجًا عامًا قويًا، إلا أنه نجح في توليد بيانات الاستدلال اللازمة لـ R1.
- لقد قامت R1 بتوسيع خط أنابيب التدريب المسبق التقليدي المستخدم بواسطة معظم نماذج الأساس من خلال دمج R1-Zero في العملية. بالإضافة إلى ذلك، فقد استفادت من كمية كبيرة من بيانات التفكير الاصطناعي التي تم إنشاؤها بواسطة R1-Zero.
ونتيجة لذلك، ظهر DeepSeek-R1 كنموذج يطابق قدرات التفكير الخاصة بـ GPT-o1 أثناء بنائه باستخدام عملية تدريب أولية أبسط وأرخص بكثير على الأرجح.
يتفق الجميع على أن R1 يمثل علامة فارقة مهمة في تاريخ الذكاء الاصطناعي التوليدي، وهو ما من المرجح أن يعيد تشكيل الطريقة التي يتم بها تطوير النماذج الأساسية. عندما يتعلق الأمر بـ Web3، سيكون من المثير للاهتمام استكشاف كيف يؤثر R1 على المشهد المتطور للذكاء الاصطناعي Web3.
DeepSeek-R1 وWeb3-AI
حتى الآن، واجهت تقنية Web3 صعوبة في إنشاء حالات استخدام مقنعة تضيف قيمة واضحة إلى إنشاء نماذج الأساس والاستفادة منها. وإلى حد ما، يبدو أن سير العمل التقليدي لتدريب نماذج الأساس مسبقًا هو نقيض لهندسة Web3. ومع ذلك، على الرغم من كونها في مراحلها المبكرة، فقد سلط إصدار DeepSeek-R1 الضوء على العديد من الفرص التي يمكن أن تتوافق بشكل طبيعي مع هندسة Web3-AI.
1) شبكات الضبط الدقيق للتعلم المعزز
لقد أثبتت R1-Zero أنه من الممكن تطوير نماذج الاستدلال باستخدام التعلم التعزيزي الصرف. ومن وجهة نظر حسابية، فإن التعلم التعزيزي قابل للتوازي بدرجة كبيرة، مما يجعله مناسبًا تمامًا للشبكات اللامركزية. تخيل شبكة Web3 حيث يتم تعويض العقد عن ضبط نموذج دقيق في مهام التعلم التعزيزي، حيث تطبق كل منها استراتيجيات مختلفة. هذا النهج أكثر جدوى بكثير من نماذج التدريب المسبق الأخرى التي تتطلب طوبولوجيات وحدة معالجة الرسوميات المعقدة والبنية الأساسية المركزية.
2) إنشاء مجموعة بيانات الاستدلال الاصطناعي
كانت إحدى المساهمات الرئيسية لـ DeepSeek-R1 هي إظهار أهمية مجموعات البيانات المنطقية المولدة صناعيًا للمهام المعرفية. هذه العملية مناسبة أيضًا للشبكة اللامركزية، حيث تنفذ العقد مهام إنشاء مجموعات البيانات وتحصل على تعويضات عند استخدام هذه المجموعات من البيانات للتدريب المسبق أو ضبط نماذج الأساس. نظرًا لأن هذه البيانات يتم إنشاؤها صناعيًا، يمكن أتمتة الشبكة بالكامل دون تدخل بشري، مما يجعلها مناسبة تمامًا لهندسة Web3.
3) الاستدلال اللامركزي لنماذج الاستدلال المقطرة الصغيرة
إن DeepSeek-R1 هو نموذج ضخم يحتوي على 671 مليار معلمة. ومع ذلك، بعد إصداره مباشرة تقريبًا، ظهرت موجة من نماذج الاستدلال المقطرة، تتراوح من 1.5 إلى 70 مليار معلمة. هذه النماذج الأصغر حجمًا أكثر عملية بشكل ملحوظ للاستدلال في الشبكات اللامركزية. على سبيل المثال، يمكن تضمين نموذج R1 المقطرة الذي يحتوي على 1.5 مليار إلى 2 مليار معلمة في بروتوكول DeFi أو نشره داخل عقد شبكة DePIN. وببساطة أكبر، من المرجح أن نشهد ظهور نقاط نهاية استدلال منطقي فعالة من حيث التكلفة مدعومة بشبكات الحوسبة اللامركزية. الاستدلال هو أحد المجالات التي تضيق فيها فجوة الأداء بين النماذج الصغيرة والكبيرة، مما يخلق فرصة فريدة لـ Web3 للاستفادة بكفاءة من هذه النماذج المقطرة في إعدادات الاستدلال اللامركزية.
4) استدلال مصدر البيانات
إن إحدى السمات المميزة لنماذج الاستدلال هي قدرتها على توليد آثار استدلالية لمهمة معينة. يجعل DeepSeek-R1 هذه الآثار متاحة كجزء من مخرجات الاستدلال الخاصة به، مما يعزز أهمية المنشأ والقدرة على التتبع لمهام الاستدلال. تعمل شبكة الإنترنت اليوم بشكل أساسي على المخرجات، مع القليل من الرؤية للخطوات الوسيطة التي تؤدي إلى تلك النتائج. يقدم Web3 فرصة لتتبع كل خطوة استدلال والتحقق منها، مما قد يؤدي إلى إنشاء "إنترنت جديد للاستدلال" حيث تصبح الشفافية والقدرة على التحقق هي القاعدة.
تتمتع Web3-AI بفرصة في عصر الاستدلال بعد R1
كان إطلاق DeepSeek-R1 بمثابة نقطة تحول في تطور الذكاء الاصطناعي التوليدي. فمن خلال الجمع بين الابتكارات الذكية ونماذج التدريب المسبق الراسخة، تحدت DeepSeek-R1 سير عمل الذكاء الاصطناعي التقليدي وفتحت عصرًا جديدًا في الذكاء الاصطناعي الذي يركز على التفكير. وعلى عكس العديد من النماذج الأساسية السابقة، تقدم DeepSeek-R1 عناصر تجعل الذكاء الاصطناعي التوليدي أقرب إلى Web3.
إن الجوانب الرئيسية لـ R1 – مجموعات البيانات المنطقية الاصطناعية، والتدريب القابل للتوازي بشكل أكبر، والحاجة المتزايدة إلى إمكانية التتبع – تتوافق بشكل طبيعي مع مبادئ Web3. وفي حين ناضلت Web3-AI من أجل اكتساب قوة جذب ذات مغزى، فإن عصر المنطق الجديد بعد R1 قد يقدم أفضل فرصة حتى الآن لـ Web3 للعب دور أكثر أهمية في مستقبل الذكاء الاصطناعي.