قدمت شركة OpenAI نظامًا جديدًا يسمى EVMbench، مصممًا لقياس مدى قدرة وكلاء الذكاء الاصطناعي على إيجاد وإصلاح الثغرات الأمنية في العقود الذكية للعملات المشفرة.
ملخص
- قدمت OpenAI إطار عمل EVMbench، وهو إطار عمل جديد مصمم لقياس مدى قدرة وكلاء الذكاء الاصطناعي على اكتشاف وإصلاح واستغلال نقاط الضعف في العقود الذكية.
- تم تطوير هذا المعيار بالتعاون مع شركة Paradigm، وهو مبني على بيانات تدقيق حقيقية ويركز على سيناريوهات أمنية عملية وعالية المخاطر.
- تُظهر النتائج الأولية تقدماً قوياً في مهام الاستغلال، في حين أن الكشف عن الثغرات وإصلاحها لا يزال يمثل تحدياً.
أعلنت الشركة في 18 فبراير أنها طورت منصة EVMbench بالتعاون مع شركة Paradigm. وتركز هذه المنصة على العقود المصممة لآلة إيثيريوم الافتراضية، وتهدف إلى اختبار أداء أنظمة الذكاء الاصطناعي في بيئات مالية حقيقية.
قالت شركة OpenAI إن العقود الذكية تؤمّن حاليًا أكثر من 100 مليار دولار من الأصول المشفرة مفتوحة المصدر، مما يجعل اختبار الأمان ذا أهمية متزايدة مع ازدياد قدرة أدوات الذكاء الاصطناعي.
اختبار كيفية تعامل الذكاء الاصطناعي مع المخاطر الأمنية الحقيقية
يقوم نظام EVMbench بتقييم وكلاء الذكاء الاصطناعي عبر ثلاث مهام رئيسية: اكتشاف الثغرات الأمنية، وإصلاح الأخطاء البرمجية، وتنفيذ هجمات محاكاة. تم بناء النظام باستخدام 120 مشكلة عالية الخطورة مستقاة من 40 عملية تدقيق أمني سابقة، العديد منها من مسابقات التدقيق العامة.
استُقيت سيناريوهات إضافية من مراجعات سلسلة كتل Tempo، وهي شبكة مُخصصة للمدفوعات ومُصممة لاستخدام العملات المستقرة. أُضيفت هذه الحالات لتوضيح كيفية استخدام العقود الذكية في التطبيقات المالية.
لإنشاء بيئة الاختبار، قامت OpenAI بتعديل نصوص الاستغلال الموجودة وإنشاء نصوص جديدة عند الحاجة. تُجرى جميع اختبارات الاستغلال في أنظمة معزولة بدلاً من الشبكات الحية، ولا تشمل إلا الثغرات الأمنية التي تم الكشف عنها سابقاً.
في وضع الكشف، يقوم العملاء بمراجعة شفرة العقد ومحاولة تحديد الثغرات الأمنية المعروفة. في وضع التصحيح، يجب عليهم إصلاح هذه الثغرات دون تعطيل البرنامج. في وضع الاستغلال، يحاول العملاء سحب الأموال من العقود المعرضة للخطر في بيئة خاضعة للرقابة.
النتائج الأولية وتأثيرها على الصناعة
أعلنت شركة OpenAI أنه تم تطوير إطار اختبار مخصص لضمان إمكانية إعادة إنتاج النتائج والتحقق منها.
اختبرت الشركة عدة نماذج متقدمة باستخدام EVMbench. في وضع الاستغلال، حقق GPT-5.3-Codex نسبة 72.2%، مقارنةً بنسبة 31.9% لـ GPT-5 الذي صدر قبل ستة أشهر. وكانت نسبتا الكشف والتصحيح أقل، مما يدل على أن العديد من الثغرات الأمنية لا تزال صعبة على أنظمة الذكاء الاصطناعي.
لاحظ الباحثون أن أداء البرامج الآلية كان في أفضل حالاته عندما كانت الأهداف واضحة، مثل استنزاف الأموال. بينما انخفض الأداء عندما تطلبت المهام تحليلاً أعمق، مثل مراجعة قواعد البيانات البرمجية الكبيرة أو إصلاح الأخطاء الدقيقة.
أقرت OpenAI بأن EVMbench لا يعكس ظروف العالم الحقيقي بشكل كامل. تخضع العديد من مشاريع العملات الرقمية الكبرى لمراجعات أكثر شمولاً من تلك المشمولة في مجموعة البيانات. كما أن بعض الهجمات القائمة على التوقيت والهجمات متعددة السلاسل تقع خارج نطاق النظام.
أعلنت الشركة أن المعيار يهدف إلى دعم الاستخدام الدفاعي للذكاء الاصطناعي في مجال الأمن السيبراني. ومع ازدياد قوة أدوات الذكاء الاصطناعي، يُمكن استخدامها من قِبل المهاجمين والمدققين على حدٍ سواء. ويُنظر إلى قياس قدراتها كوسيلة للحد من المخاطر وتشجيع استخدامها بشكل مسؤول.
بالتزامن مع هذا الإصدار، أعلنت OpenAI عن توسيع برامجها الأمنية واستثمار 10 ملايين دولار في أرصدة واجهات برمجة التطبيقات (API) لدعم البرمجيات مفتوحة المصدر وحماية البنية التحتية. وقد أُتيحت جميع أدوات ومجموعات بيانات EVMbench للجمهور لدعم المزيد من الأبحاث.