📡 أحدث عدد

شو في AI؟ | 21 يونيو

يومي 📅 2026-06-21
سلام 👋 هلقيت معنا عدد جديد فيه بحوث متنوّعة من AI: توسيع معايير البرمجة لـ 12 لغات، فهم كيف نماذج اللغة بتتعلّم من البيئة حولها، تحسينات في توليد الكلام والفيديو، وتطبيقات طبية عملية. كل واحدة من هالدراسات بتركّز على جانب معيّن: الأداء، الكفاءة، أو الفهم العميق للأنظمة.
#1

Multi-LCB: تقييم الـ LLMs على اثنا عشر لغة برمجة

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
فريق Ivanova وزملاؤها لاحظوا إشي مهم: benchmark الشهير LiveCodeBench (LCB) بيقيّم نماذج اللغة على توليد الكود — بس بـ Python بس! وهيك بيطلع سؤال كبير: هل الـ LLMs فعلاً بتعرف تبرمج بلغات تانية، ولا احنا بس محظوظين مع Python؟ عشان هيك الباحثون طوّروا Multi-LCB، وهو نسخة موسّعة من LCB بتشمل اثنا عشر لغة برمجة، بتحوّل مسائل Python الأصلية لمهام مكافئة بلغات تانية مع الحفاظ على نفس آليات التحكم بالـ contamination. جرّبوا عليه 24 نموذج، واكتشفوا دليل واضح على Python overfitting ومشاكل contamination خاصة ببعض اللغات، وفجوات كبيرة بالأداء multilingual — إشي يخلّيك تعيد التفكير بكتير من النتائج السابقة!
لماذا تهم؟: لو بدك تعرف إذا الـ LLM اللي بتستخدمه فعلاً بيفهم البرمجة أو بس حافظ Python — هاد الـ benchmark هو أداتك، ونتائجه بتكشف فجوات حقيقية محتاجين نعالجها.
code generation multilingual benchmark LLM evaluation programming languages arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#2

كيف يتعلّم الـ LLM يصيغ استعلاماته حسب نوع الـ retriever في أنظمة RAG؟

Understanding the Behaviors of Environment-aware Information Retrieval
فريق Yuan وزملاؤه بيتناولوا إشي ما حدا اهتمّ فيه كتير من قبل: مش كل الـ retrievers بتشتغل نفس الطريقة، وعشان هيك الـ LLM بده يتعلّم كيف يصيغ الاستعلام بشكل مختلف حسب كل retriever. الأبحاث بيُثبتوا إنه التعليم بـ reinforcement learning بيقدر يعلّم الموديل يكيّف أسلوبه — يعني نفس السؤال ممكن تكتبيه وصفياً (descriptive) أو كسؤال مباشر (question-like) وهاد بيفرق كتير في النتيجة حسب الـ retriever المستخدَم. وكمان قدموا تقنية branching-based rollout عشان يستقرّ التدريب على مسارات بها خطوات retrieval متعددة. الورقة ظهرت على arXiv وانتشرت على Hugging Face Daily Papers.
لماذا تهم؟: لو بتبني نظام RAG، هاد البحث بيوضّح إنك لازم تفكّر مش بس بالموديل، بس كمان بكيف يتعامل مع الـ retriever اللي اخترته — وهاد بيغيّر طريقة التصميم بشكل عملي.
RAG retrieval-augmented generation reinforcement learning query formulation LLM hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#3

FlowEdit: ذاكرة ترابطية لتصحيح النطق مدى الحياة في نماذج TTS

FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS
واحدة من أكبر مشاكل أنظمة تحويل النص لكلام (TTS) المبنية على flow-matching إنها بتبقى ثابتة بعد ما تتنشر — يعني لو النموذج غلط بنطق اسم علم أو كلمة غريبة، بيظل غلطان لحد ما تعيد تدريبه من الأول. فريق Singh وزملاؤه جاؤوا بفكرة FlowEdit: بدل ما تلمس أوزان النموذج، بيتعلموا التصحيح كـ perturbation صغير في مستوى الـ text embedding، وبيخزّنوه في Modern Hopfield Network — نوع من الذاكرة الترابطية — تعمل كأرشيف episodic. وقت الاستدلال، النموذج بيسترجع التصحيح المناسب عبر soft attention مع similarity gate، وهيك بيقدر يتعرف على الكلمة حتى لو جاءت بشكل مختلف شوي (fuzzy morphological matching). على benchmark من 312 اسم علم متعدد اللغات عبر 18 عيلة لغوية، FlowEdit قلّل الـ Phoneme Error Rate بنسبة 92.7% مقارنة بالـ zero-shot baseline، وكل تصحيح بيخلص بـ 15 ثانية تقريبًا على GPU واحد.
لماذا تهم؟: هالورقة مهمة لأي حدا شغّال على أنظمة TTS للغات أو أسماء أعلام ما كانت بالتدريب — بتحل مشكلة كتير محبطة بدون ما تحتاج تعيد تدريب النموذج من الصفر.
TTS flow-matching lifelong learning pronunciation Hopfield Network arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#4

Contagion Networks: كيف تنتشر تحيّزات الـ LLM بين الوكلاء؟

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems
لمّا بنستخدم نماذج لغة كبيرة كـ evaluators داخل أنظمة multi-agent، التحيّزات ما بتضل محصورة — بتنتشر بين الوكلاء كأنها عدوى! الباحث Zewen Liu قدّم إطار نظري اسمه Contagion Networks لقياس هالظاهرة بشكل رسمي. في تجربة على 3 وكلاء يشتغلوا على موديل DeepSeek-chat بثلاث ملفّات تقييم مختلفة، قاسوا مصفوفة الانتقال Cross-Agent Contagion Matrix وطلعت قيم gamma بين 0.157 و0.352 — يعني في انتقال فعلي للتحيّز حتى لمّا الوكلاء من نفس الموديل. الإطار حدّد ثلاثة أنظمة للانتقال حسب الـ spectral radius، وبيّن إنّ الوكلاء اللي من نفس الموديل بينتجوا contagion coefficients أضعف بـ 3-5 مرات مقارنة بنتائج أبحاث سابقة بين موديلات مختلفة. والأهم: زيادة حجم لجنة الـ evaluators من k=1 لـ k=3 قلّص الانتقال الفعلي بنسبة 72.4% — إشي عملي ومباشر للتطبيق! وفريق البحث نشر الإطار كـ open-source.
لماذا تهم؟: أي نظام multi-agent بيعتمد على LLMs للتقييم معرّض لانتشار التحيّزات بدون ما نحسّ — هالورقة بتعطيكم أداة لقياس الخطر وحل بسيط للتخفيف منه.
multi-agent LLM evaluation bias propagation contagion networks evaluator bias arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#5

استخراج المعلومات السريرية بـ Agentic RAG: شو اشتغل وشو انكسر وليش؟

Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why
فريق Çinar-Koraş وزملاؤه من University Medicine Essen بنوا نظام اسمه ACIE — اختصار لـ Agentic Clinical Information Extraction — وهو pipeline بيشتغل on-premise على سجلات المرضى الكاملة اللي بتضم مئات الوثائق وآلاف نقاط البيانات. المشكلة الأساسية إنو الـ metadata اللي بتحتاجها أنظمة الـ RAG العادية للبحث والترتيب غير موجودة أو ناقصة، وكمان الـ standard RAG بيفشل في التعامل مع الوقت والعلاقات بين الوثائق المختلفة. النظام بيعتمد على agentic RAG يستنتج على السياق كله ويربط كل إجابة بمقاطعها الأصلية عشان الطاقم الطبي يقدر يراجعها. جرّبوه على دراسة سجل lymphoma بإشراف أطباء نووي راجعوا كل قيمة مستخرجة، ومن أصل 7,326 حكم قبل الأطباء 96.5% من الاستخراجات — وهاد رقم كتير قوي بمجال البيانات الطبية.
لماذا تهم؟: النظام ده بيوضّح كيف تتعامل مع البيانات السريرية الفوضوية بشكل عملي وآمن — والأرقام جاءت من بيئة حقيقية مش lab مُتحكَّم فيه، وهاد إشي نادر في أبحاث الـ AI الطبي.
clinical NLP RAG agentic AI information extraction medical AI hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#6

LooseControlVideo: تحكّم إخراجي بالفيديو عبر صناديق 3D بسيطة

LooseControlVideo: Directorial Video Control using Spatial Blocking
فريق Bhat وزملاؤه قدّموا LooseControlVideo، إطار عمل بيخلّيك تتحكّم بمشاهد الفيديو المولّدة بأسلوب المخرج السينمائي — بدل ما تحتاج تعطي تعليمات دقيقة لكل فريم، بتكتفي بـ صناديق 3D متحرّكة خفيفة (sparse 3D boxes) كبروكسي للأجسام والمسارات. الفكرة إنهم fine-tuned موديل Wan 2.2 على داتاسيت مُعنوَن بترميز جديد اسمه DNOCS يفهم الحجم والاتجاه والتداخل بين الأجسام، وهيك الموديل يقدر يولّد حركة واحتجاب واقعية بناءً على هيكل بسيط أنت حدّدته. والأحلى إنك تقدر تعدّل جزء من المشهد (مثل مسار قفزة أو تفاعل بين شخصين) بدون ما تخرب باقي الصورة. النتائج على benchmarks زي nuScenes وHO-3D وBEHAVE أظهرت تحسّن واضح على النماذج الحالية في دقّة المسار والتناسق الحركي والاحتجاب.
لماذا تهم؟: هالبحث بفرق كتير لكل اللي بيشتغل على توليد فيديوهات متعدّدة الأجسام أو animation — لأنه بيختصر الجهد الكبير في التحكّم اليدوي الدقيق، وبيفتح الباب لأدوات إخراج احترافي بإشارات بسيطة.
video generation 3D control text-to-video spatial layout fine-tuning hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#7

REVES: لمّا النموذج يتعلّم من غلطاته — scaling وقت الاستدلال بالمراجعة والتحقق

REVES: REvision and VErification--Augmented Training for Test-Time Scaling
فريق Liu وزملاؤه جابوا طريقة تدريب جديدة اسمها REVES لتحسين قدرة الـ LLMs على تصحيح أجوبتها وقت الاستدلال (test-time). الفكرة الأساسية إنو النماذج المدرّبة بـ RL التقليدي بتتجاهل الخطوات الوسيطة اللي فيها أخطاء مفيدة — يعني لمّا النموذج كاد يوصل للجواب الصح، هاد الخطأ «near-miss» في الطريق بيضيع ومابينستفاد منه. REVES بتحوّل هاي الخطوات الوسيطة لـ prompts منفصلة للمراجعة والتحقق، وبتدرّب النموذج عليهم مباشرة بإطار iterative من مرحلتين. النتائج كتير واعدة: على LiveCodeBench حققوا +6.5 نقطة فوق الـ RL baseline، و+4.0 فوق multi-turn training العادي، وعلى مسألة circle packing وصلوا لنتائج SOTA باستخدام نموذج 4B بس — أصغر بكتير من الأنظمة المقارنة. البحث ظهر على arXiv وانتشر على Hugging Face Daily Papers.
لماذا تهم؟: هالورقة بتفرق لأنها بتوضّح إشي عملي مهم: النموذج مش لازم يكون ضخم عشان يصحح نفسه كويس — كيف بتستغل الأخطاء الوسيطة بالتدريب أهم من حجم النموذج نفسه.
test-time scaling reinforcement learning LLM reasoning revision verification hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#8

Execution-State Capsules: تسريع نماذج LLM على الأجهزة الطرفية بحفظ حالة التنفيذ الكاملة

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving
الباحث Liang Su شايف إشي ما انحكى كتير — كل أنظمة الـ LLM serving الحالية بتعيد استخدام الحسابات بس عن طريق الـ KV cache، وهاد منيح لما عندك servers ضخمة وطلبات كتيرة. بس إيش بصير لما تكون شغّال على جهاز صغير أو روبوت محتاج رد سريع كتير؟ هون بيجي الحل: "execution-state capsules" — فكرة إنك تحفظ كامل حالة التنفيذ (مش بس الـ KV cache، بل الـ recurrent state والـ convolution state وكل إشي) عند نقطة محددة، وترجعلها في أقل من millisecond. الـ runtime اللي بنوه اسمه FlashRT وبيشتغل على CUDA بدون تعقيدات الـ block-table. النتيجة؟ على RTX 5090، الـ TTFT (وقت أول token) بيتحسّن من 3.9x عند 2k token لـ 27x عند 16k token — وهيك بصير تعيد استخدام نقاط تنفيذ كاملة بدل ما ترجع تحسب من الصفر.
لماذا تهم؟: لو بتشتغل على تطبيقات AI على الجهاز مباشرة — روبوتات، مساعدين صوتيين، agents — هالورقة بتقدّم طريقة عملية تقلّل وقت الاستجابة بشكل كبير بحفظ واسترجاع حالة التنفيذ الكاملة وليس فقط الـ KV cache.
LLM serving on-device AI KV cache inference optimization physical AI arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#9

ViT-Up: رفع دقة الـ features من جوّا الـ ViT مش من برّا

ViT-Up: Faithful Feature Upsampling for Vision Transformers
واحدة من المشاكل الكلاسيكية مع الـ Vision Transformers هي إنها بتشتغل على grids صغيرة من الـ patch tokens — وهاد بيعمل ضيقة كبيرة لما بدنا نعمل مهام dense زي الـ semantic segmentation أو تقدير العمق. الحلول الحالية بتحاول تعوّض هاد الإشي بـ upsampling مدعوم من صور خارجية، بس الباحثون لاحظوا إن هاد الأسلوب بيجيب معه مشاكل: feature leakage وتشويش وضياع في التفاصيل. فريق Wandel وزملاؤه قدّم ViT-Up، إطار عمل للـ upsampling بيبني الـ queries مباشرةً من الـ hidden states الوسيطة داخل الـ ViT نفسه — من غير ما يحتاج أي encoder خارجي — وهاد بيخلّيه يتنبّأ بالـ features على أي إحداثيات متواصلة مع الحفاظ على التوافق مع الـ backbone. النتائج على Cityscapes و SPair-71k ضد نماذج أحدث الحلول تبيّن تحسّن واضح، وتزيد مع ما يكبر الـ backbone.
لماذا تهم؟: يفيد أي حدا شغّال على مهام dense prediction مع الـ ViTs — لأن ViT-Up بيرفع جودة الـ features بدون ما يعتمد على مكوّنات خارجية قد تخرب الـ feature space الأصلي.
Vision Transformer feature upsampling dense prediction semantic segmentation depth estimation hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#10

RL4IL: تعلّم تقليد الروبوتات بدون خسارة لما بتغيب الحساسات

Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities
الروبوتات في الواقع بتعتمد على حساسات متعددة — كاميرات وتعليمات لغوية — بس شو بصير لو حساس واحد طار أو اتعطّل؟ هون بيجي RL4IL، الطريقة الجديدة اللي قدّمها Ismkhan وزملاؤه. الفكرة الأساسية: بدل ما تعيد تدريب النموذج من أوّله، النظام بيستخدم RL policy مدرّبة بـ Proximal Policy Optimization عشان تختار أنسب examples من مكتبة التدريب، وبعدين soft cross-attention fusion بيدمج إشاراتهم وبيطلّع القرار. لما بتغيب modaliy معيّنة وقت التشغيل، policy منفصلة بتلاقي demonstrations مشابهة وبتعمر الـ embedding المفقود — وكل هاد بدون أي إعادة تدريب. على ثلاث suites من LIBERO benchmark، النظام تفوّق على أحسن الطرق الحالية في scenarios انقطاع الحساسات.
لماذا تهم؟: هالبحث بيحلّ مشكلة حقيقية في الروبوتات: مش كل الحساسات بتشتغل دايمًا، وRL4IL بيخلّي النظام قادر يكمل شغله بدون ما تعيد تدريبه من أوّله — إشي بيوفّر وقت وجهد كتير في التطبيقات الواقعية.
imitation learning missing modalities reinforcement learning retrieval-based robotics hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#11

StylisticBias: كيف تحكم نماذج الرؤية اللغوية على الناس من مجرد مظهرهم؟

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
فريق Kolli وزملاؤهم جاؤوا بسؤال مهم جداً: إيش بالضبط في صورة الشخص بيخلّي الـ MLLMs تحكم عليه بطريقة معيّنة؟ عشان يجاوبوا عليه بدقة، بنوا benchmark اسمه StylisticBias — توليدوا 500 وجه واقعي وعملوا على كل وجه نحو 50 نسخة بتغيّر فيها إشي واحد بس كل مرة (زي الملابس، الوزن، العمر)، وطلعوا بـ 25 ألف صورة تقريباً. الفكرة الذكية هون إنهم خلّوا هوية الشخص ثابتة وغيّروا سمة واحدة بس، هيك ممكن يقيسوا أثر كل سمة لحالها. اختبروا ستة MLLMs على 25 سيناريو اجتماعي، ولاقوا إن العمر وشكل الجسم هم الأكثر تأثيراً على مستوى الهوية، بينما أسلوب الموضة يعمل أكبر تحوّل على مستوى السمة — والأهم إن 15 سمة بس بتفسّر 80% من كل الانحياز الموجود.
لماذا تهم؟: لازم نفهم من وين بالضبط بيجي التحيّز في الـ MLLMs عشان نقدر نصلحه — وهالبenchmark بيعطيكم أداة دقيقة تقدروا تكشفوا فيها إيش من المظهر بيأثّر على أحكام الموديل، بدل ما تقارنوا أشخاص مختلفين وما تعرفوا السبب الحقيقي.
MLLMs social bias visual cues benchmark fairness arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#12

Probe-and-Refine: كيف نحسّن ملفات التوجيه لـ coding agents بشكل ذكي؟

Probe-and-Refine Tuning of Repository Guidance for Coding Agents
فريق Shepard وزملاؤه جايين بفكرة بسيطة بس مهمة: الـ coding agents المبنية على LLMs بدها «معرفة تشغيلية» عن الـ repository — يعني إيش الملفات فيها إيش، وكيف تشغّل الاختبارات، وإيش الأخطاء اللي صارت قبل. هاي المعلومات عادةً بتتحط في ملفات اسمها AGENTS.md، بس الدراسات اختلفت على إذا بتساعد أو بتضرّ. الورقة بتقول: المشكلة مش بالفكرة، المشكلة بكيف بتنتج الـ guidance. حلّهم هو إجراء اسمه probe-and-refine tuning: بيستخدم bug-fix probes اصطناعية عشان يشخّص مشاكل ملف التوجيه ويصلحها عبر single-shot LLM calls — من غير ما يحتاج agent loop أو أدوات أثناء الـ tuning. اختبروه على benchmark SWE-bench Verified مع موديل Qwen3.5-35B-A3B، وطلع معدل حلّ 33.0% مقابل 28.3% للـ baseline الثابت و25.5% بدون أي توجيه.
لماذا تهم؟: إذا بتشتغلي مع coding agents على repositories حقيقية، هاي الورقة بتفهّمك ليش ملفات التوجيه ممكن تفرق كتير — وكيف تصنعها صح بدل ما تضرّ أكثر مما تفيد.
coding agents repository guidance LLM SWE-bench probe-and-refine arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#13

قديش DiffusionGemma شفّاف؟ رحلة في تفسير نماذج الانتشار

How Transparent is DiffusionGemma?
فريق Engels وزملاؤه من Google DeepMind بيسألوا سؤالاً كتير مهم: هل نماذج اللغة اللي بتشتغل بآلية الـ diffusion بدل الـ autoregressive — زي DiffusionGemma — بتصير أقل قابلية للتفسير؟ قسّموا موضوع الشفافية لقسمين: شفافية المتغيّرات (يعني هل احنا فاهمين شو بيصير في الحالات الوسيطة؟) وشفافية الخوارزمية (هل نقدر نعيد بناء طريقة تفكير النموذج؟). اللي لقوه مفاجأة: بعد ما خلّوا المعلومات تعدي من خلال token bottleneck قابل للتفسير، الـ opaque serial depth نزل من 28.6 ضعف لـ 1.1 ضعف مقارنة بـ Gemma 4 — وبدون أي خسارة بالأداء! وكمان اكتشفوا ظواهر جديدة خاصة بالـ diffusion زي الـ non-chronological reasoning والـ token smearing، وبيقولوا إن DiffusionGemma بتعادل Gemma 4 من ناحية الـ monitorability. البحث نُشر كـ preprint على arXiv.
لماذا تهم؟: مع انتشار نماذج الـ diffusion للغة، لازم نفهم هل احنا لسا قادرين نراقبها ونفهم قراراتها — وهالورقة بتثبت إنه إشي ممكن أكتر مما كنا نتوقع!
diffusion LLM interpretability mechanistic interpretability DiffusionGemma transparency arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#14

تدريب نماذج VLM للأشعة الطبية بدون تعليقات مكانية يدوية

Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology
فريق Salcan وزملاؤه من جامعة فرايبورغ قدّموا بحثًا بيحاول يحل مشكلة كتير ناس واجهتها في الـ AI الطبي: كيف تدرّب نموذج VLM يفهم الصور الطبية ويحدّد مواقع الأشياء فيها، بدون ما تحتاج متخصصين يعلّموا كل صورة يدويًا؟ الحل كان بناء dataset اسمه RefRad2D، فيه 1.2 مليون صورة CT وMR مع نصوص سريرية بالإنجليزي والألماني، اتولّدت بيانات الـ grounding فيه أوتوماتيكيًا باستخدام LLMs وتقنيات segmentation. النموذج المبني عليه اسمه RadGrounder وبيقدر يولّد تقارير طبية، يجاوب على أسئلة VQA، ويحدّد مواقع التشريح والحالات المرضية عبر bounding boxes أو segmentation — والأحلى إنه إضافة الـ grounding supervision ما أثّر سلبًا على جودة اللغة ولا على أداء الـ VQA.
لماذا تهم؟: هالبحث بيفرق كتير لأنه بيثبت إننا نقدر نبني نماذج أشعة ذكية وقابلة للتحقق المكاني بدون تعليق يدوي مكلف — وهيك بنفتح الباب لنماذج طبية أكثر موثوقية وشفافية.
radiology vision-language spatial grounding VQA medical imaging arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#15

DataMagic: من جدول البيانات لفيديو تحليلي تفاعلي بالكامل

DataMagic: Transforming Tabular Data into Data Insight Video
فريق Xie وزملاؤه قدّموا DataMagic، نظام end-to-end بيحوّل بيانات الجداول الخام وأسئلة اللغة الطبيعية لفيديوهات تحليلية متكاملة — فيها رسوم متحركة، وصوت، وسرد زمني مترابط. الإشي المميز هون إنهم ابتكروا مواصفة تعريفية اسمها DVSpec تربط كل عنصر بصري وكل حركة بحقل بيانات حقيقي عشان تضمن دقة البيانات ومصدرها. وعشان يتعاملوا مع التعقيد الكبير في تصميم الفيديو، استخدموا معمارية multi-agent اسمها Generate-then-Orchestrate تولّد المشاهد بالتوازي وبعدين تنسّق السرد بشكل كلي. النظام كمان بيدعم ثلاث أوضاع تفاعل وسؤال وجواب مبني على provenance، فبدل ما الفيديو يكون عرض من اتجاه واحد بصير واجهة تحليلية تقدر تستكشفها. تقييموه على 109 عيّنة من بيانات حقيقية وطلع فعّال. البحث preprint على arXiv.
لماذا تهم؟: أي حدا بده يحوّل بيانات لمحتوى مرئي احترافي من غير ما يكون خبير في التصميم أو إنتاج الفيديو — هاد النظام بيفتحلوا الباب بخطوة واحدة.
data visualization multi-agent video generation tabular data natural language arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#16

Fine-tuning ولّا RAG ولّا كلياتهم؟ مقارنة عملية لتوليد استشهادات قانونية صحيحة

Train, Retrieve, or Both? A Four-Arm Head-to-Head for Correct Statutory Citation on the Ontario Residential Tenancies Act
فريق Asaria وزملاؤه بحثوا في سؤال عملي كتير مهم: لما شخص بيسأل عن قانون الإيجار في أونتاريو (RTA)، كيف نخلّي الـ LLM يعطيه المادة القانونية الصحيحة بالضبط؟ جرّبوا أربع طرق على نموذج Qwen2.5-7B-Instruct: zero-shot عادي، و LoRA fine-tuning بس، و RAG بس، وأخيرًا SFT+RAG مع بعض. النتيجة الأهم إنه الـ retrieval مش اختياري — بدونه النموذج بيخترع مواد قانونية مش موجودة، لكن لما تجمع الـ fine-tuning مع الـ RAG وصلوا لـ exact-match 0.481 مع صفر هلوسة. الملفت إنه retrieval model صغير وبسيط (bge-small) كان كافيًا تمامًا وما احتاجوا نماذج كبيرة أو بيانات أكثر، بس الهدف 0.70 exact-match لسّا بعيد.
لماذا تهم؟: القانون ما بيسامح بالأخطاء — هالورقة بتوضّح لطلابنا إنه في المجالات الحساسة، RAG مش كمالة بل ضرورة، وإنه الجمع بين الـ fine-tuning والـ retrieval بيعطي أفضل نتيجة حتى بموارد محدودة.
RAG fine-tuning legal NLP hallucination statutory citation arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#17

فيديو البشر بعيون الروبوت: بيانات رخيصة تتفوّق على بيانات الروبوت الحقيقي

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
فريق الباحثين من Ma وزملاؤه جابوا سؤال كان محيّر كتير في مجال الروبوتات: هل ممكن نحلّ أزمة البيانات في الـ embodied AI بفيديوهات البشر بدل بيانات الروبوت المكلّفة؟ البحث بيقارن بصورة منهجية بين بيانات egocentric human video (يعني فيديوهات مسجّلة من منظور شخصي للإنسان وهو بيتحرك ويشتغل) وبيانات teleoperated real-robot trajectories كمصادر لـ pretraining نماذج الروبوتات. النتيجة كانت مفاجئة: لما شغّلوا pipeline مضبوط لفلترة ووسم الفيديوهات، النماذج اللي اتدرّبت على بيانات البشر حقّقت validation loss أقل بـ 24% على توقّع حركات الروبوت، وأداء أعلى بـ 52.5% على مهام مألوفة وبـ 90% على مهام غير مألوفة. الفكرة: pretrain على فيديو بشري متنوّع عشان النموذج يتعلّم تمثيلات غنية للعالم، وبعدين fine-tune بكميّة صغيرة من بيانات الروبوت الحقيقي.
لماذا تهم؟: إذا ممكن نستغني عن جمع بيانات الروبوت المكلّف جداً ونحلّه بفيديوهات بشرية رخيصة ومتاحة، هيك بنقدر نطوّر embodied AI بشكل أسرع وبتكاليف أقل بكتير — وهاد بيغيّر قواعد اللعبة.
embodied AI egocentric video pretraining robot learning data scaling hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#18

JanusMesh: توليد أوهام بصرية ثلاثية الأبعاد بدون تدريب وفي دقائق

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
تخيّلي شكل ثلاثي الأبعاد لو نظرت إليه من الأمام شُفت أسد، ومن الجنب شُفت طائر — هاي هي الـ 3D visual illusion! فريق Zhang وزملاؤه قدّموا JanusMesh، إطار عمل سريع وما بيحتاج أي تدريب مسبق (zero-shot) لتوليد هيك أشكال انطلاقاً من نص فقط. الفكرة مقسومة على مرحلتين: الأولى هي cross-space dual-branch denoising بتوازن بين فضاءين في نفس الوقت — voxel space لمحاذاة الاتجاهات باستخدام CLIP، وSDF blending لدمج الأشكال بدون تشققات مرئية. المرحلة الثانية بتضيف texture بالاعتماد على 2D diffusion priors من زوايا مختلفة. النتيجة؟ وهم بصري ثلاثي الأبعاد واقعي وبمعنيين مختلفين، وكله بـ 3-5 دقائق بدل الساعات اللي بتاخذها الطرق القديمة. البحث preprint على arXiv وانتشر على Hugging Face Daily Papers.
لماذا تهم؟: الطرق القديمة إما بطيئة كتير أو بتعطي نتائج مشوّهة — JanusMesh بيحلّ المشكلتين مع بعض، وهيك بيفتح باب لتطبيقات إبداعية في الفن الرقمي والألعاب والـ AR بدون ما تحتاج موارد حوسبة ضخمة.
3D generation visual illusion diffusion models zero-shot text-to-3D hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#19

كيف بتأثّر الكلمات على الصوت؟ تفسير cross-attention في أنظمة Text-to-Speech

How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech
أنظمة الـ text-to-speech الحديثة بتقدر تتحكّم بأسلوب الصوت عبر وصف نصّي طبيعي — بس كيف كل كلمة بالوصف بتأثّر على الموجة الصوتية الناتجة؟ هاد السؤال ما كانش مفهوم. الباحثون من فريق Mathur وزملاؤه قدّموا طريقة جديدة بتعتمد على cross-attention attribution، بتكيّف إطار DAAM — اللي كان مخصّص للصور — وبتطبّقه لأوّل مرة على نماذج speech diffusion. شغلوا التحليل على نظام CapSpeech-TTS، واستخرجوا heatmaps لكل token عبر 25 طبقة و24 خطوة ODE على 3,600 تركيبة من الأوصاف والنصوص. النتائج كشفت إشياء كتير حلوة: التوكنز اللي بتوصف الأسلوب بتشتغل كـ global conditioning وما بتتغيّر كتير مع الوقت، وارتباطها قوي مع F0 والطاقة، وأهميتها بتوصل لذروتها في الطبقات العميقة وأوائل خطوات التوليد. البحث نُشر كـ preprint على arXiv.
لماذا تهم؟: فهم كيف الكلمات بتتحوّل لخصائص صوتية — هاد مهم كتير لتحسين التحكّم في أنظمة الـ TTS وتشخيص لما النظام ما بظبط.
text-to-speech cross-attention diffusion models interpretability style control arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#20

FreeStyle: توليد الصور بمرجعَين — الأسلوب والمحتوى معًا بحرية تامة

FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
فريق Lan وزملاؤه جاءوا بفكرة حلوة: بدل ما نحتاج datasets ضخمة مرتّبة يدويًا، ليش مش نستخدم الـ LoRAs اللي المجتمع ينزّلها على الإنترنت؟ FreeStyle بتعتمد على هاي الـ community LoRAs كأنها «مراسي» للأسلوب والمحتوى، وتبني منها triplets واسعة النطاق للتدريب. المشكلة الأصعب كانت الـ semantic leakage — يعني لمّا النموذج بيتسرّب منه معنى الصورة المرجعية للأسلوب وبيخلّط الإشيين — وحلّوها بمرحلتين: قيد على مستوى الـ attention في المرحلة الأولى، وتعديل على الـ RoPE بوعي بالترددات في المرحلة الأصعب. كمان قدّموا benchmark جديد بمقياسَين: Content Alignment Score (CAS) مقاوم للأسلوب، وVLM-based Rejection Score لقياس مدى تسرّب المعنى. البحث ظهر كـ preprint على arXiv ضمن cs.CV.
لماذا تهم؟: لو بتشتغلوا على توليد الصور أو تخصيص الأسلوب، هاي الورقة بتعلّمكم كيف تبنوا نظام قوي من مصادر مجتمعية مفتوحة بدون ما تغرقوا في جمع بيانات يدوي — وهيك فكرة كتير مفيدة عمليًا.
style transfer image generation LoRA dual-reference content leakage arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
📘 مصطلحات هذا العدد 14
💡 مفاهيم 10
contamination-aware evaluation
طريقة لاختبار نماذج الذكاء الاصطناعي بحيث نتأكد إنه ما في بيانات تدريبية تسربت للاختبار، عشان النتايج تكون موثوقة وما نخدع نفسنا إننا عملنا حاجة أحسن ما هي.
overfitting
هاد إشي بيصير لما النموذج يحفظ بيانات التدريب بشكل مبالغ فيه وبيفشل مع بيانات جديدة، يعني زي طالب حفظ الأسئلة بس مش فاهم المادة، بنسمع عنه كتير عشان هو من أكبر مشاكل تدريب النماذج.
benchmark
يعني مجموعة معايير واختبارات بننسخدمها عشان نشيك كيف أداء النموذج تاعنا، شو مستواه الفعلي. بنسمع عنها كتير عشان هي إشي أساسي لمعرفة إذا النموذج بتاعك تمام أم لا.
RAG
اختصار Retrieval-Augmented Generation، يعني احنا بنجيب معلومات من قواعد بيانات خارجية ونخليها تساعد النموذج إنه يجاوب على أسئلتك بشكل أدق. بنسمع عنه عشان بيحسّن إجابات الذكاء الاصطناعي ويقلل الأخطاء.
reinforcement learning
تعليم الذكاء الاصطناعي من خلال نظام الحوافز والعقوبات، زي لما تعلمي طفل بالمكافأة والعقاب عشان يتعلم السلوك الصحيح. بنستخدمه عشان الآلة تتعلم تاخذ قرارات ذكية بنفسها من غير ما نحطّ كل إجابة جاهزة.
retriever
هذا المصطلح بيعني آلية بتروح تجيب المعلومات الصح من قاعدة بيانات كبيرة، زي ما تروحي توديري في المكتبة وتجيبي الكتاب اللي فيه المعلومة اللي بدك إياها. بنسمع عنه كتير في الذكاء الاصطناعي عشان بيساعد النماذج تجاوب أكتر دقة بناءً على معلومات موجودة.
branching-based rollout
هاد أسلوب بالتدريب بنخلّي النموذج يجرّب مسارات حل متعددة من نفس النقطة زي أغصان الشجرة، عشان نشوف أي مسار وصّل لنتيجة أحسن ونعلّمه منه.
zero-shot
يعني إنك بتطلبي من النموذج يعمل حاجة ما دراب عليها ولا شُفت أمثلة عليها، الذكاء الاصطناعي بيحاول يفهم المطلوب من أول مرة بناءً على معرفته العامة. بنسمع عنه كتير عشان بيوفر وقت ما بدنا نعلّم النموذج على حالات جديدة.
Contagion Networks
شبكات بتدرس كيف الحاجات بتنتشر من شخص لشخص (أمراض، أفكار، معلومات)، عشان نفهم إزاي الأشياء بتتوسع بسرعة.
multi-agent systems
هي أنظمة فيها أكتر من عامل ذكي (agent) بيشتغلوا مع بعض عشان يوصلوا لهدف معين - كل واحد منهم بياخذ قرارات ويتفاعل مع الآخرين. بنسمع عنها كتير لأنها بتخليك تحل مشاكل معقدة بطريقة أذكى من الحل الواحد.
🤖 موديلز 2
Flow-Matching TTS
نموذج لتحويل النصوص لصوت، بيستخدم تقنية Flow-Matching عشان يعطينا صوت طبيعي وسلس بدون تقطع.
Modern Hopfield Network
شبكة عصبية قديمة بتقنيات جديدة، بتخزّن وبتسترجع معلومات مثل الذاكرة، إشي مشابه لكيفاش احنا بنتذكر الحاجات.
📏 مقاييس 1
Phoneme Error Rate
هاد مقياس بنحسب فيه كم صوت لغوي (phoneme) النموذج نطقه أو فهمه غلط مقارنة بالصح، بنستخدمه عشان نقيّس دقة أنظمة التعرف على الكلام أو توليده.
🗂️ بيانات 1
LiveCodeBench (LCB)
هاد مجموعة بيانات بتُستخدم عشان نختبر قدرة نماذج الذكاء الاصطناعي على كتابة كود برمجي، بنسمع عنها كتير لأنها بتقيّس فعلياً إذا النموذج بيفهم البرمجة ولا بس بيحفظ إجابات.
كل المصطلحات ←
📚 كل الأعداد