تطلق Cloudflare ، مزود خدمات السحابة المدرج في البورصة ، أداة جديدة ومجانية لمنع الروبوتات من جمع البيانات من المواقع التي يتم استضافتها على منصاتها لتدريب النماذج الذكية.
بعض بائعي الذكاء الإصطناعي ، بما في ذلك Google و OpenAI و Apple ، يسمحون لأصحاب المواقع بحظر الروبوتات التي يستخدمونها لجمع البيانات وتدريب النماذج عن طريق تعديل ملف robots.txt الخاص بموقعهم ، وهو الملف النصي الذي يخبر الروبوتات بالصفحات التي يمكنها الوصول إليها على موقع على الويب. ولكن كما يشير Cloudflare في منشورها الذي يعلن عن أداة مكافحة الروبوتات الخاصة بها ، لا تحترم جميع برامج الحصاد الذكية هذا.
"لا يرغب العملاء في زيارة الروبوتات الذكية لمواقعهم ، وخاصة تلك التي تقوم بذلك بشكل غير مشروع" ، تكتب الشركة في مدونتها الرسمية. "نحن نخشى أن تستمر بعض الشركات المتخصصة في الذكاء الاصطناعي في التعدي على القواعد للوصول إلى المحتوى بشكل مستمر لتجنب اكتشاف الروبوت".
لذا ، في محاولة لمعالجة المشكلة ، قامت Cloudflare بتحليل حركة الروبوتات الذكية والمتصفحين لضبط نماذج الكشف التلقائي عن الروبوتات. تأخذ النماذج في اعتبارها ، بين عوامل أخرى ، ما إذا كانت الروبوتات الذكية قد تحاول تفادي الكشف من خلال تقليد مظهر وسلوك شخص يستخدم متصفح الويب.
"عندما يحاول الأطراف السيئة حشد المواقع بشكل متكرر ، عادة ما يستخدمون أدوات وأطر جاهزة يمكننا تحديد بصمتها" ، تكتب Cloudflare. "بناءً على هذه الإشارات ، تكون نماذجنا قادرة على إشارة حركة الروبوتات الذكية التفافًا بشكل غير صادق كروبوتات."
قدمت Cloudflare نموذجًا للمضيفين للإبلاغ عن الروبوتات الذكية المشكوك فيها والمستعرقة وتقول إنها ستستمر في وضع روبوتات الذكاء الاصطناعي على القائمة السوداء يدويا مع مرور الوقت.
أصبح مشكلة الروبوتات الذكية واضحة تمامًا مع انفجار الذكاء الإصطناعي الكافة للطلب على بيانات تدريب النماذج.
العديد من المواقع ، التي تشك في أن بائعي الذكاء الاصطناعي يقومون بتدريب النماذج على محتواها دون إعلامها أو تعويضها ، اختارت حظر الروبوتات الذكية والمتصفحين. وفقًا لدراسة واحدة ، قام حوالي 26٪ من أفضل 1000 موقع على الويب بحظر روبوت OpenAI ، ووجدت دراسة أخرى أن أكثر من 600 ناشر أخبار قد حظروا الروبوت.
لكن الحظر ليس حماية مؤكدة. كما ألمحنا سابقًا ، يبدو أن بعض البائعين يتجاهلون قواعد استبعاد الروبوتات القياسية للحصول على ميزة تنافسية في سباق الذكاء الاصطناعي. اتهمت محرك البحث الذكي Perplexity مؤخرًا بانتحال الزائرين الشرعيين لجمع المحتوى من المواقع ، ويقال إن OpenAI و Anthropic في بعض الأحيان يتجاهلان قواعد robots.txt.
في خطاب إلى الناشرين في الشهر الماضي ، قالت شركة TollBit لترخيص المحتوى إنها ترى أن "العديد من وكلاء الذكاء الاصطناعي" يتجاهلون معيار robots.txt.
يمكن أن تساعد أدوات مثل Cloudflare - ولكن فقط إذا ثبتت دقتها في اكتشاف الروبوتات الذكية الخفية. ولن تحل المشكلة الأكثر عنادًا للناشرين الذين يخاطرون بالتضحية بحركة الإحالة من أدوات الذكاء الاصطناعي مثل نظريات Google AI ، التي تستبعد المواقع من الاشتمال إذا قاموا بحظر متصفحي الذكاء الاصطناعي المحددين.