📡 أحدث عدد

شو في AI؟ · 2026-06-20

يومي 📅 2026-06-20

مرحبا
جولة اليوم فيها نماذج ذكاء اصطناعي خفيفة بأداء قريب من النماذج الكبيرة، روبوتات بتتعلّم من اللعب وبتراعي قوانين الفيزياء، ومشاريع عربية بتتصدّى لخطاب الكراهية والمعلومات المضلّلة. الخيط المشترك: نتائج أذكى بموارد أقل.

Moebius: نموذج ملء الصور الخفيف (0.2B) بأداء نموذج عملاق (10B)

Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

فريق من الباحثين (Kangsheng Duan وزملاؤه) طلعوا نموذج جديد اسمه Moebius لملء الصور (inpainting) — يعني لما في جزء ناقص في الصورة، النموذج يعيد رسمه بجودة عالية. الجديد هنا إنهم اخترعوا طريقة ذكية اسمها Local-λ Mix Interaction بتلخّص معلومات الصورة بطريقة محترمة جداً، فبقدروا يقللوا حجم النموذج من 11.9 مليار معامل لـ 0.22 مليار بس — بمعنى استخدموا أقل من 2% من البارامترز! وعشان ما يخسروا جودة الصور، استخدموا استراتيجية تدريب ذكية اسمها adaptive multi-granularity distillation بتركز على الـ latent space. النتيجة؟ النموذج بيرسم صور بجودة نفس مستوى FLUX.1-Fill-Dev (النموذج الضخم الشهير) بس أسرع بـ 15 مرة!

لماذا تهم؟: هالشغلة مهمة كتير لأنه الآن ممكن نشتغل على أجهزة عادية ورخيصة وما نحتاج GPUs غالية جداً، وفي نفس الوقت بنحصل على جودة احترافية — يعني تطبيقات الـ inpainting بتصير واقعية وسهلة الاستخدام للناس.

image inpainting model compression diffusion efficiency knowledge distillation hf اقرأ المزيد ↗

💬 أضِف تعليقك

Multi-LCB: توسيع معايير تقييم البرمجة لـ 12 لغة برمجية

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Maria Ivanova وفريقها طلعوا لنا Multi-LCB، وهي نسخة محسّنة من معيار LiveCodeBench المشهور لتقييم نماذج اللغة الكبيرة (LLMs) على مهام توليد الأكواد. بدل ما نقيّم النماذج على Python بس، خذوا مسائل البرمجة التنافسية من LCB الأصلي وحوّلوها لـ 12 لغة برمجية مختلفة — بدقّة عالية وبنفس إجراءات التقييم والحماية من تسرّب البيانات. النتيجة اللي طلعت هي إن النماذج بتعاني من "تفريط بالتخصّص في Python" (Python overfitting) وفي فجوات كبيرة في الأداء بين اللغات، مما يعني إن قدرات البرمجة متعددة اللغات عند LLMs أضعف كتير مما حد يتوقع.

لماذا تهم؟: التقييم بلغات برمجية متعددة بدنا نعرفه عشان بالعالم الحقيقي، المشاريع مش بس Python — فهم الفجوات دي بساعد الباحثين والشركات يحسّنوا نماذجهم للاستخدام العملي الفعلي.

code generation multi-language benchmarking LLM evaluation programming languages contamination-aware hf اقرأ المزيد ↗

💬 أضِف تعليقك

DragMesh-2: تحريك الأجسام المفصليّة بأيدٍ ذكيّة تحترم الفيزياء

DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

Zhang وزملاؤه قدّموا DragMesh-2، إطار عمل بيمكّن الروبوت من التعامل مع الأجسام اللي فيها أجزاء متحركة (زي الدّرج أو الباب) باستخدام أصابع متعددة، وليس بقبضة عادية. المشكلة الأساسية: الجزء المراد تحريكه مش يمكن تتحكم فيه مباشرة، بس لازم يتحرك من خلال التماس الفيزيائي المستمر بين اليد والمقبض. عشان كده اقترحوا PICA، آلية تدريب بتحقن إشارات فيزيائية في سياسة التحكم بدون الحاجة لمستشعرات لمس أو قياس قوة، وبهيك طريقة تصير السياسة أقوى وتتعامل مع تغيّرات الأحمال والاحتكاك المختلفة. الورقة اختبرت على سبع أجسام مختلفة من GAPartNet وأثبتت تفوق الطريقة الجديدة.

لماذا تهم؟: هالبحث بفتح طريق جديد لروبوتات البيت والأيدي الإنسانية الروبوتية عشان تتعامل مع أجسام حقيقية معقدة زي الأدراج والأبواب، وبدون الاعتماد على معدّات حساسة غالية التمن.

dexterous manipulation articulated objects contact dynamics humanoid hands robot learning hf اقرأ المزيد ↗

💬 أضِف تعليقك

وراء لوحات التصنيف الثابتة: الصلاحية التنبؤية لتقييم وكلاء نماذج اللغة

Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

دفتر الدرجات (patel) وزملاؤه في فريق بحث متعدّد الجنسيات قالوا: احنا عندنا مشكلة كتير كبيرة — البنشمارك اللي بنستخدمها للوكلاء (الأجهزة الذكية اللي بتشتغل بنفسها)، كل واحد فيهن بيقيّم جوانب محدودة بس من الواقع. جابوا أكبر دراسة معمّقة لوكيل صناعي واحد، وحتت فيها ١٤ نسخة مختلفة تشتغل بآليات مختلفة وبترجع معلومات بطرق مختلفة. والمشكلة اللي اكتشفوها؟ لما تركّزي على متوسط الدرجة وتعملي تصنيف عام، هيك التصنيف بينسى لما تقدّمي النموذج على بيانات جديدة أو حالات ما اتدرّب عليها — الترتيب بينقلب! بدهم نستخدم قياس "الصلاحية التنبؤية" (إيش مدى ما الترتيب في الامتحان الأول بينتبأ بالترتيب في الامتحان الثاني)، وقدّموا ١٢ طريقة قياس جديدة كشانة تفاصيل الواقع اللي الطرق القديمة بتتجاهلها.

لماذا تهم؟: إذا بدكِ تقيّمي وكيل بتطبّقيه في الشارع والبنشمارك بتوعك بتخدعك وتقولك إنه بشتغل تمام وبعدين بينفشل، هيك الورقة بتساعدك تختاري الأدوات اللي فعلاً بتتنبأ بالأداء الحقيقي.

agent evaluation benchmarking predictive validity LLM agents out-of-distribution hf اقرأ المزيد ↗

💬 أضِف تعليقك

CATCH-ME: أول dataset متعدّد اللغات للردّ على خطاب الكراهية والمعلومات المضللة

CATCH-ME if you RAG: a dataset of Contextually Annotated multi-Turn Counterspeech against Hate and Misinformation Exchanges

Helena Bonaldi وزملاؤه من الفريق طرحوا مشكلة كتير مهمّة: خطاب الكراهية والمعلومات المضللة كتير بيظهروا مع بعضهم في الحياة الحقيقية، بس الأبحاث كانت بتتعامل معهم كل واحد لحاله. اللي ظهر جديد هنا إنهم بنوا CATCH-ME — أول dataset ضخم ومُعدّ من قبل خبراء بتضمّ حوارات متعدّدة الأدوار وخمس لغات بتشتغل على هالتقاطع بالذات. البحث بِظبط راح يشتغل مع نماذج RAG لأن كل حوار مرتبط مع مصادر خارجية موثوقة (مقالات fact-checking وتقارير منظّمات حقوقية)، وفيه annotate إشي بدقّة على مستوى المستند والفقرة.

لماذا تهم؟: هالدراسة مهمّة عشان بتفتح إمكانية تدريب نماذج لغة أقدر تردّ على خطاب الكراهية والتضليل بطريقة مقنعة وموثوقة — مش بردود عامّة وفارغة — وبأكثر من لغة كمان.

counterspeech hate-speech misinformation multilingual RAG dataset fact-grounding arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

S-Agent: استخدام الأدوات المكانية لتعزيز التفكير المكاني

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

يالون داي وفريقه طوّروا S-Agent، وهي طريقة جديدة بتخليّ نماذج الرؤية واللغة تفهم وتحلّل المشاهد المكانية بشكل ديناميكي بدل ما تتعامل مع صور معزولة. الفكرة إنهم بيصيغوا المنطق المكاني كتراكم أدلة عبر الوقت والمشهد (مش صورة واحدة بالمنعزل)، وبيستخدموا هرمية من الأدوات المكانية: أولاً بتحدّد الأجسام في الصورة ثنائية الأبعاد، بعدين بترفعها لأدلة ثلاثية الأبعاد، وأخيراً بتجمّع كل هالمعلومات في معرفة عالية المستوى زي العد والقياس والاتجاهات. في نظام ذاكرة ذكي بيحافظ على حالة المشهد والسياق وبيربط كل الأدلة على مدى الفيديو أو الصور المتعددة. التجارب بتظهر إن S-Agent بيحسّن أداء النماذج المفتوحة والمغلقة بدون ما تحتاج تدريب، وفيه نسخة مضغوطة (S-Agent-8B) تطلعت من تدريب على بيانات generated بتتنافس مع النماذج الكبيرة.

لماذا تهم؟: لأن الذكاء المكاني الحقيقي محتاج يفهم مشهد متطور عبر الزمن، والبحث هاي بتحل مشكلة قديمة: نماذج الرؤية كانت تتعامل مع كل صورة بانعزال، بس S-Agent بتربط كل شي مع بعضه وتستخرج معرفة حقيقية عن المساحة والأجسام.

spatial reasoning vision-language models tool-use agents multi-view understanding video reasoning hf اقرأ المزيد ↗

💬 أضِف تعليقك

MolmoMotion: توقّع مسارات النقاط في الفضاء الثلاثي بتعليمات لغوية

MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

فريق من الباحثين (بقيادة Jianing Zhang وزملاء من جهات متعددة) طلعوا حل شامل لمشكلة كتير مهمة: كيف نتنبّأ بحركة الأشياء في الفضاء الثلاثي؟ الفكرة إنهم اشتغلوا على نقاط فعلية في الفضاء ثلاثي الأبعاد (مش صور بس)، وأضافوا تعليمات لغوية عشان النموذج يفهم قصد الحركة. البحث فيه ثلاث مساهمات رئيسية: مجموعة بيانات ضخمة (MolmoMotion-1M) من مليون فيديو فيهم وصف الحركة والنقاط المتتبعة، معيار تقييم إنساني (PointMotionBench) يغطي 111 نوع جسم و 61 نمط حركة، والنموذج نفسه (MolmoMotion) اللي بيتنبّأ بالمسارات إما بطريقة autoregressive أو بـ flow-matching. النتايج بتوضّح إن النموذج بيقرّ أنماط حركة متنوّعة ويطبّق كويس على روبوتات وتطبيقات تصنيع فيديوهات.

لماذا تهم؟: لأن فهم كيفية حركة الأشياء في الفضاء الفعلي (مش بس الصور) بتفتح الباب لأنظمة روبوتية أذكى وفيديوهات أكثر واقعية — يعني تطبيقات عملية فوراً بدل نظري بس.

3D motion forecasting language conditioning trajectory prediction video understanding robot learning hf اقرأ المزيد ↗

💬 أضِف تعليقك

DF3DV-1K: مجموعة بيانات ضخمة لتوليد مناظر جديدة بدون عناصر مشتتة

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

تشو القصة: فريق من الباحثين بقيادة Cheng-You Lu طلعوا مجموعة بيانات ضخمة اسمها DF3DV-1K فيها 1,048 مشهد حقيقي — كل مشهد معاه صورتين: نسخة نظيفة وواحدة فيها عناصر مشتتة زي الناس أو الأشياء اللي بتحجب المشهد الأساسي. في الكل 89,924 صورة ملتقطة بكاميرات عادية، تغطي 128 نوع تشتت و161 موضوع مختلف. الفريق اختبروا تسعة طرق حديثة لتوليد views بدون تشتت، وكمان جربوا 3D Gaussian Splatting، وشافوا إنهم قدروا يحسّنوا النتايج بشكل ملحوظ باستخدام diffusion-based enhancer. النتيجة: محسّنات واضحة في جودة الصور (PSNR أعلى بـ 0.96 dB).

لماذا تهم؟: هالبحث مهم لأنه بيحل مشكلة حقيقية في الرؤية الحاسوبية: معظم الدراسات تركز على المشاهد النظيفة بدون عناصر بتشتت، بس في الواقع الكاميرات بتصور أشياء كتير وعشوائية. المجموعة البيانات هاي بتعطيك أرضية صلبة لتطوير طرق أكثر قوة وواقعية.

novel view synthesis radiance fields 3D reconstruction distractor removal benchmarking hf اقرأ المزيد ↗

💬 أضِف تعليقك

ContextRL: تعليم الوكلاء اللغويين يركّزوا على التفاصيل اللي تهم

Context-Aware RL for Agentic and Multimodal LLMs

Peiyang Xu وزملاؤه اكتشفوا إشي كتير مهم: نماذج اللغة الكبيرة بتفشل لما الإجابة الصحيحة بتتطلب تركيز على تفصيل صغير لكن حاسم في سياق طويل أو معقّد — زي سطر واحد في كود أو ريقة صغيرة في صورة. فقالوا: بدنا نعلّمها انسوا الحاجات التانية وركّزوا على اللي بدو فعلاً. طريقتهم اسمها ContextRL بتستخدم تعزيز التعلّم بطريقة ذكيّة: بدل ما تقول للموديل «الإجابة الصحيحة هي X»، بتقول له «إليك سؤال وإجابة، وإليك سياقين شبه نفس الشي بس واحد بيدعم الإجابة والتاني لا — اختر الصح». بهالطريقة الموديل بيتعلّم يدور على الدليل الفعلي. جرّبوها على مهام البرمجة والصور، واكتشفوا تحسّن واضح: +2.2% على مهام طويلة و+1.8% على أسئلة الصور.

لماذا تهم؟: لأنّ وكلاء اللغة المتقدمة بتحتاج تركيز حقيقي على التفاصيل لما تشتغل على أكواد معقدة أو صور، والطريقة الجديدة هذي بتساعدها تتعلّم الأولويات الصحيحة بدون ما تحتاج ملايين الأمثلة الإضافية.

reinforcement learning multimodal reasoning context grounding agentic LLMs contrastive learning hf اقرأ المزيد ↗

💬 أضِف تعليقك

#10

FreeStyle: التحكّم الحرّ بتوليد الصور بمرجعيتين (أسلوب ومحتوى) من تعدين LoRA المجتمعي

FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

جينج هونج لان وفريقه اشتغلوا على مشكلة كتير معقّدة: كيف بنوّلد صورة تأخذ الأسلوب من صورة والمحتوى من صورة ثانية، بدون ما يختلط الأشياء؟ المشكلة الأساسية إنه ما في بيانات كتيرة لتدريب النماذج على هالشغل. حلهم ذكيّ: استخدموا LoRA المجتمعية (هي زي القطع الصغيرة المتخصّصة اللي الناس بتعملها) عشان يبنوا قاعدة بيانات ضخمة من ثلاثيات الأسلوب والمحتوى. بعدين اشتغلوا على تقنيتين ذكيتين بالتدريب: واحدة بتمنع تسرّب معالجات الأسلوب للمحتوى، وثانية بتتحكّم بالمواضع في النموذج عشان ما يصير خلط. النتيجة؟ نموذج بيوازن بظبط بين الأسلوب والمحتوى بدون تسرّبات.

لماذا تهم؟: هالورقة بتحل مشكلة عملية فعلاً: لو بدك صورة تحافظ على محتوى الصورة الأصلية بس بأسلوب مختلف (ولا العكس)، FreeStyle بيديك طريقة فعّالة وموثوقة — وده أساسي في التطبيقات الإبداعية والتصميم.

image-generation style-transfer LoRA content-preservation dual-reference hf اقرأ المزيد ↗

💬 أضِف تعليقك

#11

تعليم الروبوت من خلال اللعب الموجّه: فريق وكلاء الروبوتات (RATs)

Playful Agentic Robot Learning

جونيي تشانج وفريقه قاموا بدراسة فكرة كتير حلوة: بدل ما نخليّ الروبوت يتعلّم المهارات بس عندما نعطيه أوامر واضحة، ليش ما نخليّه يتعلّم من خلال اللعب والاستكشاف الحرّ قبل ما تيجي المهام الفعلية؟ طوّروا نظام اسمه RATs — فريق وكلاء روبوتات — اللي بيخليّ الروبوت يقترح مهام استكشافية، يكتب أكواد، يحاول، يفشل، يتعلّم من الفشل، وفي النهاية يحفظ كل المهارات اللي نجحت في مكتبة دائمة. البحث ظهر على arXiv وانتشر على Hugging Face Daily Papers وحصل على 39 upvote، والنتايج بتقول إن اللعب الموجّه بيحسّن الأداء على مهام جديدة بـ 20 نقطة مئوية أكتر من الأنظمة اللي ما بتلعب.

لماذا تهم؟: هالبحث بيغيّر الطريقة اللي احنا فيها نفكّر بتدريب الروبوتات — بدل ما نركّز على تحطيم المشاكل على الطول، احنا بنسمح للروبوت يتعلّم بطريقة طبيعية أكتر من خلال الاستكشاف، وهذا بيحسّن الأداء والمرونة بشكل كبير.

robot learning embodied AI code-as-policy skill acquisition reinforcement learning hf اقرأ المزيد ↗

💬 أضِف تعليقك

#12

AutoPass: وكلاء LLM موجّهة بالأدلة لتحسين أداء الـ Compiler

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

فريق من الباحثين (Li وزملاؤه) طلعوا طريقة ذكية لتحسين سرعة البرامج المترجَمة باستخدام نماذج اللغة الكبيرة. الفكرة انهم ما بيعاملوا الـ compiler وكأنه صندوق أسود زي ما يفعل التقليديين، بل بفتحوه للـ LLM عشان تقدر تشوف إيش اللي بيصير بداخله — تقرأ الأكواد الوسيطة والحالات الداخلية للـ compiler وتقرر أنهي optimizations بتشتغل أحسن. النظام (AutoPass) بقرأ نتايج الأداء الفعلية وبتعديل القرارات بناءً على البيانات، وكل هيك من غير ما يحتاج تدريب مسبق أو microarchitecture-specific tuning، فممكن تستخدميه على أي platform.

لماذا تهم؟: لأن تحسين أداء البرامج شيء معقّد ومكلّف، والـ LLMs الحديثة قدرات عقلية قوية بس كانوا ما يعرفوا يتعاملوا مع الأصوات الضوضائية في قياسات الأداء — المقالة دي بتحل هالمشكلة عملياً وتوديك لـ speedups ملموسة على أجهزة حقيقية.

compiler-optimization LLM-agents performance-tuning LLVM inference-only arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#13

شُفْ الصورة قبل ما تفكّر: فصل الإدراك عن التفكير في تدريب الذات (ViGOS)

Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

سهان وأصحابه اكتشفوا مشكلة بتحصل في نماذج اللغة متعدّدة الوسائط (MLLMs) عند استخدام تقنية self-distillation اللي بتدرّب النموذج على مخرجاته الخاصة — المشكلة إنّ النموذج بيبدأ يعتمد على النص بدل الصور، يعني بياخذ طريق سهلة وينسى يشوف الصورة بالفعل! فبقدموا ViGOS: إطار شغل جديد بيخلّي النموذج أولاً يكتب وصف بصري دقيق للصورة، وبعدين يفكّر نحو الإجابة النهائية. بهذا الترتيب، معلّم واحد يراقب الوصف البصري (من الصورة بِصير)، ومعلّم تاني يراقب التفكير والجواب النهائي — بهيك طريقة النموذج ما بياخذ الاختصار. النتائج حلوة عبر أنواع مختلفة من الاختبارات: رؤية عامة، تفكير متقدّم، رياضيات بصرية، وغيره.

لماذا تهم؟: هالشغل مهم عشان النماذج البصرية اللي بنستخدمها بيومنا هذا بتعتمد على النصوص أكتر من الصور، وهيك بتعطينا نتايج مضللة. ViGOS بتحل هالمشكلة وتخليهم حقاً يفهموا الصور قبل ما يجاوبوا.

multimodal self-distillation vision-language shortcut-learning post-training hf اقرأ المزيد ↗

💬 أضِف تعليقك

#14

عرض متعدّد للـ Decompilation: طريقة أذكى لتصنيف الملوثات باستخدام نماذج اللغة

Multi-View Decompilation for LLM-Based Malware Classification

Bercan Turkmen و Vyas Raina اشتغلوا على مشكلة كتير عملية: المحللين الأمنيين بدهم يفهموا الأكواد الثنائية (binaries) بعد فكّها من خلال أدوات decompilation زي Ghidra و RetDec. التفكير القديم كان: خدّ رأي واحد من أداة واحدة والـ LLM بصنّفها. بس احنا اكتشفنا إشي حلو: كل أداة decompilation بتشتغل بطريقة مختلفة وبتوضح أشياء مختلفة من نفس البايناري! فجمعنا نماذج أكواد بخيرة وملوثات من أنواع تهديدات مختلفة، وفكّكنا كل واحد مع Ghidra و RetDec معًا. النتيجة: لما نطلع الـ LLM يشوف الرأيين مع بعضهم بدل رأي واحد، الدقة بتطلع أحسن بكتير، خاصة في اكتشاف الملوثات الفعلية.

لماذا تهم؟: هيك البحث بيقول لك: بدل ما تتكل على أداة واحدة بتوهمك أنها بتعطيك الصورة الكاملة، شوف الكود من زاويات مختلفة وخليّ الـ LLM يقرر. ده حاجة بتفرق كتير في الأمان الواقعي والحماية من الملوثات.

malware detection LLM decompilation multi-view Ghidra RetDec binary analysis arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#15

المعايرة بدون الفهم: تشخيص حدود ضبط نماذج اللغة الكبيرة للكشف عن الثغرات في البرمجيات النظامية

Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software

أراستو زيبايراد وماركو فييرا جابوا فكرة إشي كتير مهم: هل نماذج اللغة الكبيرة لما بتتعرّف على ثغرات أمان فعليًا بتفهم الموضوع ولا بتلعب لعبة تطابق أنماط من بيانات ملوّثة؟ قرروا يجاوبوا السؤال بشكل صارم جدًا: طلّعوا إطار عمل اسمه CWE-Trace بناءً على 834 عينة يدويًا من نوى Linux تغطي 74 نوع ثغرة مختلفة. الحيلة إنهم فرقوا بين البيانات القديمة (قبل 2025) والحديثة (بعد التاريخ الذي عرف الموديل فيه)، وابتكروا مقاييس تشخيصية إسمها Directional Failure Index و Hierarchical Distance and Direction. النتيجة الكبيرة؟ الموديلات ما فعلًا بتفهم الأمان — بتصلح قيمتها الإحصائية بس، مش الطريقة اللي بتفكر فيها.

لماذا تهم؟: هيك بنقدر نعرف إذا الموديلات الحديثة فعلًا آمنة للاستخدام في اكتشاف الثغرات الحقيقية أم إنها بتخدع نفسها والناس — وهاي معلومة حرجة قبل ما نعتمد على AI في قطاعات بتاعة الأمن.

vulnerability detection LLMs fine-tuning adversarial robustness systems security arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#16

UltraQuant: ضغط ذاكرة المفاتيح والقيم لـ 4-bit في وكلاء السياق الثقيل

UltraQuant: 4-bit KV Caching for Context-Heavy Agents

أحمد وفريقه اشتغلوا على مشكلة حقيقية بتواجه الوكلاء الذكية اللي بتشتغل على سياقات طويلة جداً: الذاكرة المؤقتة للمفاتيح والقيم (KV cache) بتاخد حيّز كبير جداً وبتبطّئ الرد، خاصة لما يكون في جلسات متعددة الأدوار. UltraQuant بتضغط هالذاكرة لـ 4-bit بدل ما تكون FP8 أو أعلى، باستخدام تقنيات rotation وquantization حلوة. الفريق ركّز على الواقع العملي: شو بالضبط بيصير لما تكون معنا أجهزة AMD مع workloads طويلة، وكيف بنحافظ على جودة الأخراج وفي نفس الوقت بنسرّع الحسابات. النتيجة كتير فيها: بسّرعوا الرد الأول 3.47x في الجولات الأخيرة و1.63x زيادة في الإنتاجية الكلية.

لماذا تهم؟: وكلاء اللغة بتاخد وقت طويل جداً لترد في الجلسات الطويلة، والضغط هاد يعني يمكنك تخدم أكتر مستخدمين في نفس الجهاز بدون ما تضحّي بالجودة — يعني خوادم أرخص وأسرع.

KV-cache compression quantization inference optimization context-heavy agents AMD GPU serving arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#17

NRT-Bench: اختبار أمان وكلاء اللغة الكبيرة تحت الهجمات المتكيّفة متعدّدة الأدوار

LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

Lee وزملاؤه طلعوا لنا بنشمة NRT-Bench، وهي منصة اختبار بتحاكي غرفة تحكّم محطة نووية، وفيها فريق خمس أدوار كل واحد مدعوم بـ LLM. الفكرة إنهم بدّهم يشوفوا كيف بيتصرّف هالوكلاء لما تيجي هجمات عدائية متكيّفة متعدّدة الأدوار، بحيث الضرر موضوعي فعليّ (فقدان وظيفة أمان حرجة) مش مجرّد نص اللـ LLM يحكم عليه. النتايج كانت صادمة شوية: بين 8.7% و 12.1% من جلسات الهجوم بتوديها تفقدان المصنع وظيفة أمان، وكل موديل عنده ثغرات مختلفة عن التاني — يعني الضعف مش متكرر، كل واحد فيهم «ينكسر» بطريقته الخاصة.

لماذا تهم؟: إحنا بنبدأ نحط وكلاء LLM في أنظمة حقيقية خطيرة، والبحث هذا بيقول لنا: محتاجين نختبرهم بشكل جدّي وموضوعي قبل ما نسلّمهم المسؤولية، لأن الثقة العمياء بالأرقام الكلية فيهم ممكن تخليّنا نطلع بنتيجة مأساوية.

LLM agents adversarial robustness red-teaming safety-critical systems jailbreak detection arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#18

بلا بيانات، بلا مقاييس، بلا مشكلة؟ تعليم النماذج اللغوية الكبيرة توليد الأكواد للغات النادرة

No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

جيانيوريو وفريقه اشتغلوا على مشكلة كتير عملية: إيش بنعمل لما عندنا لغة برمجة جديدة أو ملكية (proprietary) ما حد من LLMs شاف منها شي؟ بدل ما يركزوا على البايثون والجافا اللي فيهم بيانات كتير، هم بنوا ثلاث benchmarks جدد لـ no-resource languages وجربوا عدة طرق بتعلّم النموذج عن اللغة الجديدة — من prompt engineering لحد fine-tuning و pre-training على البيانات القليلة المتاحة. الفكرة الحلوة: بدل ما تعيدي تدريب كامل على التعليمات (instruction tuning) وتخسري الحسابات، أنتِ تأخذي موديل base، تعطيه معلومات عن اللغة الجديدة، وبعدين تنقلي قدرة متابعة التعليمات من موديل مدرّب بتقنية weight diff transfer — هيك توفّري وقت وحسابات ما يقل عن الكتير.

لماذا تهم؟: هالبحث بيشتغل على مشكلة واقعية: الشركات ما عندها غطاء من الأدوات لما تشتغل على لغات ملكية أو جديدة، وهالحل بتاعهم رخيص وفعّال — يعني يمكن تطبقيه فورًا عند جهات تشتغل على domain-specific languages.

code generation no-resource languages instruction tuning weight diff transfer fine-tuning hf اقرأ المزيد ↗

💬 أضِف تعليقك

#19

FAPO: تحسين البرومبتات بالكامل والتلقائي لسلاسل LLM متعدّدة الخطوات

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

بول كاسيانيك وزملاؤه طلعوا إطار شغل اسمه FAPO بيحلّ مشكلة كتير شائعة: إذا بدك تحسّن سلسلة من خطوات LLM (مثلاً: بحث + تفكير + صياغة)، الطرق العادية بتركّز على تحسين البرومبتات بس، وبتفوت الأخطاء اللي بتصير من التفاعلات بين الخطوات نفسها. FAPO بيشتغل بذكاء: أول شي بيحاول تحسين البرومبتات، وإذا ما إتفادوش، بعدين بيقترح تعديلات على بنية السلسلة نفسها (مثل تغيير الترتيب أو إضافة خطوة). النتيجة؟ على ستّة benchmarks مختلفة، FAPO ضرب الطريقة القديمة (GEPA) في 15 من 18 مقارنة، وفي الحالات الصعبة بجنب متقدمة جداً (مثل مهام الأمان السيبراني) بحسّن الأداء بنسبة 33 في المئة!

لماذا تهم؟: لأنك إذا بتشتغل على مشاريع فعلية بـ LLMs معقدة (أي مجموعة متعددة الخطوات)، مش كافي تعدّل الكلام بتاع البرومبت — لازم تشوف وين الكسر الحقيقي بالسلسلة، والـ FAPO هيك بالضبط بيعملها تلقائياً.

prompt optimization LLM pipelines autonomous optimization multi-step reasoning prompt engineering hf اقرأ المزيد ↗

💬 أضِف تعليقك

#20

الفأرة والعيون بتخبّروا سرّك: توجيه نماذج اللغة الكبيرة من خلال التغذية الراجعة الضمنية

Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users

شوفوا إشي كتير ذكي — Chang وزملاؤه قالوا: بدل ما نستنى الناس يقولوا بالظبط «هذا الجواب حلو أو وحش»، ليش ما نشوف وين بتحط الـ mouse وكيف بتحرّك العين على الشاشة؟ جمعوا dataset جديد اسمه IFLLM فيه أسئلة وردود من عمّال على Mechanical Turk، وسجّلوا تحرّكات الفأرة والنظر من كاميرا الويب. النتيجة كتير حلوة: نموذج المكافأة اللي بيقرأ التغذية الراجعة الضمنية (حركات الفأرة والعين) حسّن الدقّة من 55% لـ 64%، وما بين الناس بتنظر لرد وما بتنسى تقرّ بإيده بسرعة — هيك معلومات بتقول الكتير عن إذا كانت الإجابة فعلاً مفيدة أم لا.

لماذا تهم؟: هالورقة بتفتح الباب على واسعه: احنا ما بنحتاج نستنى من كل واحد يكتب ملاحظة طويلة عشان نفهم هل اللي قلنا ليهم بتمام أم لا — العين والفأرة بتقول الحكي تمام بدون ما الواحد يدري، وهيك بنقدر نحسّن الـ LLMs أسرع وأرخص.

alignment implicit feedback reward model LLM eye tracking mouse trajectory arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

📘 مصطلحات هذا العدد 14

💡 مفاهيم 12

Local-λ Mix Interaction (LλMI)

تقنية بتخلط بين مستويات مختلفة من معالجة البيانات بشكل محلي ومتوازن، مش بطريقة عشوائية. بنسمع عنها في الأبحاث الحديثة لأنها بتحسّن دقة وكفاءة النماذج بطرق ذكية.

adaptive multi-granularity distillation

يعني احنا بنأخذ معلومات من نموذج كبير وذكي وبنحطّها في نموذج أصغر وأسرع، بس بطريقة ذكية بتتكيّف مع مستويات تفاصيل مختلفة - عشان الأجهزة الضعيفة تقدر تستخدم الذكاء الاصطناعي بسهولة.

diffusion backbone

هي العمود الفقري لأنموذج بينشر الصورة (يوسعها من ضوضاء لصورة نظيفة)، وبتشتغل كـ الأساس القوي اللي بنبني عليه باقي النموذج عشان نطلع نتايج أفضل.

latent space

فضاء مخفي داخل النموذج بحط فيه المعلومات المهمة بشكل مضغوط وبسيط، بدل ما يشتغل على البيانات الخام الضخمة. إشي أساسي في نماذج الذكاء الاصطناعي الحديثة عشان بيخليها أسرع وأذكى في معالجة المعلومات.

LLM

نموذج لغة ضخم بتعلم على مليارات الكلمات وبعدين بيقدر يتنبأ ويكتب نصوص زي ChatGPT و Claude. بدنا نعرف عنه عشان دخل كل حاجة بحياتنا من البحث للكتابة للبرمجة.

code generation

يعني البرنامج الذكي اللي بقدر يكتب كود برمجي بحاله بناءً على اللي بتطلبيه منه. بنسمع عنه كتير لأنه بوفّر وقت على المبرمجين ويساعدهم في الأشياء الممّلة والروتينية.

contamination controls

إجراءات احنا بنسويها عشان نتأكّد إن بيانات التدريب ما فيها معلومات ملخبطة أو غلط قد تخرّب النموذج، يعني تنظيف الداتا قبل ما ندرّب فيها.

dexterous manipulation

يعني القدرة على التعامل الدقيق والماهر مع الأشياء، مثل قبضة اليد الروبوتية اللي بتقدر تمسك الأشياء الدقيقة وتتحكم فيها بمهارة عالية.

articulated objects

الأشياء المرنة والمفصلية اللي في أجزاء متحركة متصلة ببعضها، زي الباب والدرج والكرسي - مش جسم صلب واحد بحت.

contact dynamics

يعني دراسة شو اللي بصير لما شي يلمس شي تاني، من قوى واحتكاك وحركة. بنسمع عنه لأنه ضروري عشان نفهم كيفية تفاعل الأشياء في الواقع.

predictive validity

يعني قدرة النموذج إنه يتنبّأ بشكل صحيح على بيانات جديدة ما شفها قبل كده. بنهتم بالمصطلح ده عشان احنا بدنا نتأكد إن النموذج ما بيكون مجرد حفظ، بل بيفهم البيانات فعلاً.

out-of-distribution

يعني البيانات أو الحالات اللي ما شفها النموذج قبل كده أثناء التدريب، فهو ما عنده خبرة معها، لذلك قد يغلط في التنبؤ.

🗂️ بيانات 2

LiveCodeBench

منصة اختبار حقيقية بتقيّم قدرة نماذج الذكاء الاصطناعي على كتابة كود برمجي فعلي وتحل مشاكل حقيقية. بنركز عليها عشان فيها أسئلة جديدة باستمرار ومش مجرد مذكرة قديمة.

GAPartNet

مجموعة ضخمة من البيانات فيها معلومات عن أجزاء الأشياء المختلفة وخصائصهم. بنسمع عنها لأنها بساعد النماذج تتعلم كيفية تفكيك وفهم الأشياء.

كل المصطلحات ←

📚 كل الأعداد