#1
Multi-LCB: تقييم الـ LLMs على اثنا عشر لغة برمجة
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
فريق Ivanova وزملاؤها لاحظوا إشي مهم: benchmark الشهير LiveCodeBench (LCB) بيقيّم نماذج اللغة على توليد الكود — بس بـ Python بس! وهيك بيطلع سؤال كبير: هل الـ LLMs فعلاً بتعرف تبرمج بلغات تانية، ولا احنا بس محظوظين مع Python؟ عشان هيك الباحثون طوّروا Multi-LCB، وهو نسخة موسّعة من LCB بتشمل اثنا عشر لغة برمجة، بتحوّل مسائل Python الأصلية لمهام مكافئة بلغات تانية مع الحفاظ على نفس آليات التحكم بالـ contamination. جرّبوا عليه 24 نموذج، واكتشفوا دليل واضح على Python overfitting ومشاكل contamination خاصة ببعض اللغات، وفجوات كبيرة بالأداء multilingual — إشي يخلّيك تعيد التفكير بكتير من النتائج السابقة!
لماذا تهم؟: لو بدك تعرف إذا الـ LLM اللي بتستخدمه فعلاً بيفهم البرمجة أو بس حافظ Python — هاد الـ benchmark هو أداتك، ونتائجه بتكشف فجوات حقيقية محتاجين نعالجها.