#1
Multi-LCB: توسيع LiveCodeBench لـ 12 لغات برمجة
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
البحث بيقدّم Multi-LCB، وهي توسيع لـ benchmark LiveCodeBench الشهير الي بتقيّم نماذج اللغة الكبيرة على مهام توليد أكواد. المشكلة إن LiveCodeBench الأصلي فقط بيقيّم بـ Python، بس احنا بنشتغل بـ 12 لغات برمجة مختلفة في الحياة الفعلية. الفريق أخذ مهام Python من LCB وحوّلوها للغات تانية (زي C++, Java, JavaScript وتانيين)، بدون ما يفقدوا الميزات الي تخليه دقيق زي الحماية من contamination والتقييم الموثوق. المهم إن Multi-LCB بيتابع التحديثات الجديدة لـ LCB تلقائيًا. الباحثون قيّموا 24 نموذج لغة ولاقوا إشي مهم: النماذج بتتفوّق بشكل ضخم بـ Python وبتتعثّر مع لغات تانية، وفيه contamination خاص بكل لغة، وتفاوتات كبيرة في الأداء عبر اللغات.
لماذا تهم؟: لأن معظم النماذج الكبيرة بتتدرّب على Python أكتر من غيره، بس الشركات والفرق بتشتغل بلغات متنوّعة. المقياس الجديد بيكشف النقاط الضعيفة الحقيقية ويساعد الباحثين يطوّروا نماذج أقوى عبر جميع اللغات.