هل "من فضلك" و"شكرًا لك" مجرد أخلاق جيدة، أم أنها تغير طريقة تعلم ChatGPT وتصرفه وتكلف الذكاء الاصطناعي لشركة OpenAI ملايين الدولارات يوميًا؟
إن قول "من فضلك" قد يكلف الملايين
إنه أمر تعلمناه في صغرنا. قل "من فضلك". قل "شكرًا". اللباقة لا تكلف شيئًا. لكن مع الذكاء الاصطناعي ، قد لا تصمد هذه الحكمة القديمة. قد يكون لللباقة مع روبوت الدردشة ثمن.
في حوار قصير على X، كشف سام ألتمان، الرئيس التنفيذي لشركة OpenAI ، عن تفاصيل مثيرة للاهتمام حول آلية عمل أنظمة الذكاء الاصطناعي. وعندما سُئل عن تكلفة إضافة المستخدمين كلمات مثل "من فضلك" و"شكرًا لك" إلى ChatGPT، أجاب ألتمان: "عشرات الملايين من الدولارات أُنفقت بشكل جيد. لا أحد يعلم".
تُعالَج كل كلمة نكتبها في ChatGPT عبر مراكز بيانات ضخمة، حيث تُقسَّم إلى رموز، وتُمرَّر عبر عمليات حسابية معقدة، ثم تُحوَّل إلى رد. حتى المجاملات البسيطة تُعامل بنفس الطريقة، فهي تتطلب قوة حاسوبية.
هذا يعني استهلاكًا للكهرباء، وأنظمة تبريد، ووقتًا أطول لكل طلب. عند جمع هذه المبالغ الإضافية القليلة عبر ملايين المحادثات، تُشكّل هذه التكاليف الفعلية للطاقة والبنية التحتية.
وفقًا لمسح أجرته شركة Future، الشركة الأم لـ TechRadar، في ديسمبر 2024، فإن 51% من مستخدمي الذكاء الاصطناعي في الولايات المتحدة و45% في المملكة المتحدة يستخدمون مساعدي الذكاء الاصطناعي أو برامج الدردشة الآلية بانتظام.
من بينهم، كان الأمريكيون أكثر ميلاً للتحلي بالأدب. في الولايات المتحدة، قال 67% من المستخدمين إنهم يتحدثون إلى الذكاء الاصطناعي بلباقة. ومن بينهم، قال 82% إن ذلك يعود إلى شعورهم بأنه التصرف الصحيح، بغض النظر عمّا إذا كان المتلقي بشريًا أم لا.
أما الـ ١٨٪ الآخرون فلديهم دوافع مختلفة. قالوا إنهم يلتزمون باللياقة تحسبًا لأي انتفاضة للذكاء الاصطناعي – وهو احتمال ضئيل، لكنهم لا يريدون المخاطرة بالوقوف في الجانب الخطأ منه.
ثم هناك نسبة الـ 33% المتبقية من المستخدمين الأمريكيين الذين لا يكترثون باللياقة. هدفهم هو الحصول على إجابات سريعة. إما أنهم يرون أن اللباقة غير ضرورية أو يعتقدون أنها تُبطئهم. الكفاءة، لا الإتيكيت، هي التي تُشكل طريقة تفاعلهم.
استعلامات الذكاء الاصطناعي وحمل البنية التحتية المخفية
كل استجابة من ChatGPT مدعومة بأنظمة حاسوبية تستهلك الكهرباء والماء. ما يبدو تبادلاً بسيطاً يخفي وراءه عمليةً كثيفة الموارد، لا سيما مع تزايد عدد المستخدمين.
ويقدر تقرير صادر عن شركة جولدمان ساكس أن كل استعلام ChatGPT-4 يستخدم حوالي 2.9 واط في الساعة من الكهرباء، أي ما يقرب من عشرة أضعاف ما يستهلكه بحث واحد على Google.
حسّنت الطُرز الأحدث، مثل GPT-4o، كفاءتها، حيث انخفضت إلى حوالي 0.3 واط/ساعة لكل استعلام، وفقًا لشركة Epoch AI. ومع ذلك، فعندما تُجرى مليارات الاستعلامات يوميًا، تتراكم حتى الفروقات الصغيرة بسرعة.
تعكس تكاليف تشغيل OpenAI هذا الحجم. وتشير التقارير إلى أن الشركة تنفق حوالي 700 ألف دولار يوميًا لتشغيل ChatGPT، وذلك استنادًا إلى تقديرات داخلية من مصادر متعددة في القطاع.
السبب الرئيسي وراء هذه التكلفة هو قاعدة مستخدميه الضخمة. بين ديسمبر 2024 وأوائل 2025، قفز عدد المستخدمين الأسبوعيين من 300 مليون إلى أكثر من 400 مليون، مدفوعًا جزئيًا بميزات فيروسية مثل التلميحات الفنية على غرار استوديو جيبلي . ومع ازدياد الاستخدام، يزداد الطلب على شبكات الكهرباء والبنية التحتية المادية.
وتتوقع وكالة الطاقة الدولية أن تقود مراكز البيانات أكثر من 20% من نمو الطلب على الكهرباء في الاقتصادات المتقدمة بحلول عام 2030، مع تحديد الذكاء الاصطناعي باعتباره المحرك الرئيسي لهذا الارتفاع.
الماء عنصرٌ آخر في المعادلة، وغالبًا ما يُغفل عنه. فقد وجدت دراسةٌ أجرتها صحيفة واشنطن بوست أن كتابة بريد إلكتروني من مئة كلمة، مُولّد بواسطة الذكاء الاصطناعي، يستهلك حوالي 0.14 كيلوواط/ساعة من الكهرباء، وهو ما يكفي لإضاءة 14 مصباح LED لمدة ساعة.
إن توليد نفس الاستجابة قد يستهلك ما بين 40 إلى 50 ملليلترًا من الماء، ومعظمها لتبريد الخوادم التي تعالج البيانات.
على نطاق واسع، يثير هذا المستوى من الاستهلاك مخاوف أوسع نطاقًا. ففي ولاية فرجينيا، الولاية ذات أعلى كثافة لمراكز البيانات في الولايات المتحدة، ارتفع استهلاك المياه بنحو الثلثين بين عامي 2019 و2023. ووفقًا لتحقيق أجرته صحيفة فاينانشال تايمز، بلغ إجمالي الاستهلاك 1.85 مليار جالون على الأقل في عام 2023 وحده.
مع استمرار انتشار مراكز البيانات حول العالم، وخاصةً في المناطق ذات الكهرباء والأراضي الأقل تكلفة، من المتوقع أن يزداد الضغط على إمدادات المياه والطاقة المحلية. وقد لا تكون بعض هذه المناطق مهيأة للتعامل مع هذا التأثير طويل الأمد.
ما الذي يعلمه صوتك للذكاء الاصطناعي
في أنظمة الذكاء الاصطناعي المدربة على كميات كبيرة من الحوار البشري، يمكن لنبرة مطالبة المستخدم أن تؤثر بشكل كبير على نبرة الاستجابة.
استخدام لغة مهذبة أو جمل كاملة غالبًا ما يُنتج إجابات أكثر إفادة، وأكثر مراعاة للسياق، وأكثر احترامًا. هذه النتيجة ليست صدفة.
خلف الكواليس، تُدرَّب نماذج مثل ChatGPT على مجموعات بيانات ضخمة من الكتابة البشرية. وخلال عملية الضبط الدقيق، تمر هذه النماذج بعملية تُعرف باسم التعلم التعزيزي من التغذية الراجعة البشرية.
في هذه المرحلة، يقوم أشخاص حقيقيون بتقييم آلاف الاستجابات النموذجية استنادًا إلى معايير مثل مدى المساعدة والنبرة والترابط.
عندما يؤدي توجيه جيد التنظيم أو مهذب إلى تقييم أعلى، يبدأ النموذج بتفضيل هذا الأسلوب. مع مرور الوقت، يُنشئ هذا تفضيلًا متأصلًا للوضوح وأنماط اللغة المحترمة.
تُعزز الأمثلة الواقعية هذه الفكرة. في تجربة غير رسمية على ريديت، قارن أحد المستخدمين إجابات الذكاء الاصطناعي على نفس السؤال، مُصاغةً بكلمات مثل "من فضلك" و"شكرًا" أو بدونها. غالبًا ما كانت النسخة المهذبة تُثير ردودًا أطول وأكثر شمولًا وأكثر صلة.
ووجد تحليل منفصل نُشر على موقع Hackernoon أن المطالبات غير المهذبة تميل إلى توليد المزيد من عدم الدقة في الحقائق والمحتوى المتحيز، في حين حققت المطالبات المهذبة إلى حد ما أفضل توازن بين الدقة والتفاصيل.
ينطبق هذا النمط على مختلف اللغات أيضًا. ففي اختبار متعدد اللغات شمل الإنجليزية والصينية واليابانية، لاحظ الباحثون أن العبارات الوقحة أضعفت أداء النموذج بشكل عام.
لم يُفضِ التحلي باللباقة المفرطة دائمًا إلى إجابات أفضل، لكن المجاملة المعتدلة حسّنت الجودة بشكل عام. كما أشارت النتائج إلى الفروق الثقافية، مُبيّنةً أن ما يُعتَبَر مستوى "مناسبًا" من اللباقة قد يختلف باختلاف اللغة والسياق.
مع ذلك، فإن اللباقة ليست دائمًا حلاً سحريًا. فقد اختبرت مراجعة حديثة لهندسة الاستجابة السريعة ٢٦ استراتيجية لتحسين مخرجات الذكاء الاصطناعي. من بينها إضافة كلمات مثل "من فضلك".
أظهرت النتائج أنه على الرغم من أن هذه العبارات قد تكون مفيدة أحيانًا، إلا أنها لم تُحسّن بشكل ثابت من صحة الإجابات في اختبار GPT-4. في بعض الحالات، أدت إضافة كلمات إضافية إلى تشويش الإجابات، مما جعلها أقل وضوحًا أو دقة.
وقد أجريت دراسة أكثر تفصيلا في مارس/آذار 2025، حيث فحصت اللياقة في ثمانية مستويات مختلفة، تتراوح من الطلبات الرسمية للغاية إلى الوقاحة الصريحة.
قام الباحثون بقياس النتائج باستخدام معايير مثل BERTScore وROUGE-L لمهام التلخيص. وظلت الدقة والأهمية متسقتين إلى حد ما بغض النظر عن أسلوب البحث.
مع ذلك، تفاوتت أطوال الإجابات. فقد أعطى كلٌّ من GPT-3.5 وGPT-4 إجابات أقصر عندما كانت الأسئلة حادة جدًا. أما LLaMA-2 فقد تصرف بشكل مختلف، حيث أنتج إجابات أقصر في مستوى متوسط من اللباقة، وأطول في مستوى أقصى.
يبدو أيضًا أن اللباقة تؤثر على كيفية تعامل نماذج الذكاء الاصطناعي مع التحيز. في اختبارات كشف الصور النمطية، زادت كلٌّ من التلميحات المُفرطة في اللباقة والعدائية من احتمالية الاستجابات المُتحيزة أو الرافضة. وكان أداء اللباقة المتوسطة هو الأفضل، حيث قلّل من التحيز والرقابة غير الضرورية.
من بين النماذج التي تم اختبارها، كان GPT-4 هو الأقل احتمالاً للرفض بشكل مباشر، ولكن جميعها أظهرت نمطًا مشابهًا – يبدو أن هناك نقطة مثالية حيث تساعد النغمة النموذج على الاستجابة بدقة دون المساس بالتوازن.
في النهاية، ما نقوله، وكيف نقوله، يُشكّل ما نتلقّاه. سواءً كنا نسعى إلى إجابات أفضل، أو تقليل التحيّز، أو ببساطة إلى تفاعل أكثر عمقًا، فإنّ اختيارنا للكلمات له وزنه.
ورغم أن اللباقة قد لا تعزز الأداء دائماً، فإنها غالباً ما تقربنا من نوع المحادثة التي نريدها من الآلات التي نتحدث إليها بشكل متزايد.