📡 نشرة عربية للذكاء الاصطناعي

شو في AI؟

بنبحث، بنقرأ، بنلخّص، وبنفكّك المصطلحات الصعبة عشان نلحق الجديد بعالم الـ AI أوّل بأوّل، وبأقل وقت

— سلام ثابت دغمش باحثة دكتوراه · ذكاء اصطناعي ومعالجة اللغة الطبيعية (NLP)

بدي أعرف شو في أول بأول 📩 اقرأ أحدث عدد ↓

📡 أحدث عدد

شو في AI؟ | 21 يونيو

يومي 📅 2026-06-21

سلام 👋 هلقيت معنا عدد جديد فيه بحوث متنوّعة من AI: توسيع معايير البرمجة لـ 12 لغات، فهم كيف نماذج اللغة بتتعلّم من البيئة حولها، تحسينات في توليد الكلام والفيديو، وتطبيقات طبية عملية. كل واحدة من هالدراسات بتركّز على جانب معيّن: الأداء، الكفاءة، أو الفهم العميق للأنظمة.

Multi-LCB: توسيع LiveCodeBench لـ 12 لغات برمجة

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

البحث بيقدّم Multi-LCB، وهي توسيع لـ benchmark LiveCodeBench الشهير الي بتقيّم نماذج اللغة الكبيرة على مهام توليد أكواد. المشكلة إن LiveCodeBench الأصلي فقط بيقيّم بـ Python، بس احنا بنشتغل بـ 12 لغات برمجة مختلفة في الحياة الفعلية. الفريق أخذ مهام Python من LCB وحوّلوها للغات تانية (زي C++, Java, JavaScript وتانيين)، بدون ما يفقدوا الميزات الي تخليه دقيق زي الحماية من contamination والتقييم الموثوق. المهم إن Multi-LCB بيتابع التحديثات الجديدة لـ LCB تلقائيًا. الباحثون قيّموا 24 نموذج لغة ولاقوا إشي مهم: النماذج بتتفوّق بشكل ضخم بـ Python وبتتعثّر مع لغات تانية، وفيه contamination خاص بكل لغة، وتفاوتات كبيرة في الأداء عبر اللغات.

لماذا تهم؟: لأن معظم النماذج الكبيرة بتتدرّب على Python أكتر من غيره، بس الشركات والفرق بتشتغل بلغات متنوّعة. المقياس الجديد بيكشف النقاط الضعيفة الحقيقية ويساعد الباحثين يطوّروا نماذج أقوى عبر جميع اللغات.

code generation LLM evaluation multi-language benchmark programming arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

فهم سلوك أنظمة البحث الواعية بالبيئة: كيف تتعلّم نماذج اللغة التكيّف مع كل retriever

Understanding the Behaviors of Environment-aware Information Retrieval

الباحثين طلعوا دراسة منهجية جديدة حول أنظمة RAG، وشافوا إشي مهم كتير: كل retriever بدو "لغة" مختلفة عشان يشتغل بأفضل جودة! يعني نفس الطلب (query) اللي يكون مثالي مع retriever معين قد يكون فاشل مع retriever تاني. الفريق استخدم reinforcement learning عشان يعلّم نموذج اللغة إنو يعدّل طريقة صياغة الأسئلة حسب خصائص كل retriever — بعضها بيفضّل أسئلة وصفية مفصّلة، وبعضها بيفضّل أسئلة قصيرة مباشرة. كمان اكتشفوا إن الإرشادات البشرية المخصصة لكل retriever وزيادة حجم النموذج بيحسّنوا الأداء، وقدّموا تقنية جديدة اسمها branching-based rollout عشان تخليّ التدريب أكتر استقراراً.

لماذا تهم؟: هالورقة مهمة لأنها بتقولك إن فكرة بناء نظام واحد يشتغل مع كل الـ retrievers مش عملية — لازم تفكّر "retriever-aware" من الأول، وهسّع عندك أول دليل عملي كيفية تعمل هاي الحاجة.

RAG retrieval-augmented generation reinforcement learning query adaptation LLM hf اقرأ المزيد ↗

💬 أضِف تعليقك

FlowEdit: ذاكرة نطق حيّة لـ Flow-Matching TTS

FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS

الباحثون اقترحوا FlowEdit، طريقة ذكية لتصحيح أخطاء النطق في أنظمة text-to-speech اللي تعتمد على flow-matching بدون ما نعيد تدريب النموذج من الأول. المفهوم بسيط: لما يجيبك حد يقول «آي، هاي الكلمة غلط»، النظام بيخزّن التصحيح في ذاكرة خاصة (Modern Hopfield Network) بدل ما يغيّر أوزان النموذج الأصلي. عند التكلّم لاحقًا، النظام بيشتغل شوية soft attention عشان يلقّي التصحيحات المناسبة، حتى لو الكلمة مش بالضبط نفس اللي في الذاكرة. النتايج كتير حلوة: على ٣١٢ اسم علم متعدد اللغات، التصحيح قلّل الأخطاء بـ ٩٢.٧٪ مقارنة بالأداء الأولي، وبدون ما يؤثر على جودة الكلام العام.

لماذا تهم؟: هيك نظام ضروري للتطبيقات الحقيقية لأن الأسماء والكلمات الحديثة بتطلع كل يوم، وتدريب النموذج من جديد غالي وبطيء — FlowEdit بيحل المشكلة بتصحيحات سريعة وخفيفة بدون ما نلمس النموذج الأساسي.

text-to-speech flow-matching pronunciation lifelong-learning episodic-memory arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

شبكات العدوى (Contagion Networks): كيف انحيازات المقيّمين بتنتشر بين وكلاء الـ LLM

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

فريق Zewen Liu اكتشف إشي خطير: لما نستخدم نماذج لغة كبيرة عشان تقيّم شغل وكلاء ذكيين متعددين، انحيازات المقيّم بتنتشر زي العدوى بين الوكلاء وتأثر على قرارهم — حتى لو كلهم بنفس النموذج الأساسي! الباحثين طوّروا إطار عمل اسمه Contagion Networks بيقيس بدقّة كيف بتنتشر الانحيازات دي، وبدراسة عملية مع 3 وكلاء (DeepSeek-chat) والـ 3 أنماط تقييم مختلفة، اكتشفوا إن الانحياز بينتشر بقوّة ثابتة بين الوكلاء. البشرى الحلوة؟ لو زدنا عدد المقيّمين من واحد ل 3 بِقلّل انتشار الانحياز بـ 72.4%، يعني في حلّ عملي بيقدر نحمي أنظمتنا من المشكلة دي.

لماذا تهم؟: لأن الـ AI agents بتصير كتير في الإنتاج وفي الأبحاث، و لو كل agent بتتأثر بانحيازات المقيّم بدون ما نحط بالنا، ممكن تنتشر الأخطاء والتحيّزات بسرعة كبيرة جدًا — فهم الظاهرة دي وحل الـ mitigation strategy بتخليك تبني أنظمة أموس وأعدل.

multi-agent systems LLM evaluation bias propagation evaluator bias contagion framework arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

استخراج المعلومات الطبية بذكاء: كيف يشتغل agentic RAG في العيادات الحقيقية

Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

الباحثون طوّروا نظام اسمه ACIE بيستخدم agentic RAG عشان يستخرج معلومات من ملفات المرضى — وهاي ملفات كتير معقّدة فيها مئات الوثائق وآلاف نقاط البيانات المهمة. المشكلة إن الأنظمة العادية بتفشل لما تتعامل مع معلومات متعلّقة بالوقت أو معلومات بتربط بين وثائق مختلفة، بس ACIE بتفكّر فوق كل السياق بتاع المريض وبتثبت كل إجابة بمصدرها. اختبروا النظام في مستشفى جامعي وطلبوا من أطباء متخصصين يتحققوا من الاستخراجات، وطلعوا إن الأطباء وافقوا على 96.5% من الاستخراجات — يعني النظام فعّال كتير وآمن بيستخدموه في العيادات الفعلية.

لماذا تهم؟: بدنا أنظمة ذكية تقدر تتعامل مع الملفات الطبية المعقّدة وتثبت كل إجابة بمصدرها، عشان الأطباء محتاجين يثقوا بالنتائج. هاي الورقة بتوضّح إشي واقعي: كيف نأخذ agentic RAG ونخليه يشتغل فعلاً مع بيانات المرضى.

RAG agentic clinical-NLP information-extraction healthcare-AI hf اقرأ المزيد ↗

💬 أضِف تعليقك

LooseControlVideo: التحكّم الإخراجي بالفيديو عبر التجميع المكاني

LooseControlVideo: Directorial Video Control using Spatial Blocking

الباحثين قدّموا إطار عمل جديد بيسمح لك تتحكّمي بتوليد الفيديو من النصوص بطريقة أسهل بكتير. بدل ما تضطري تعطي إرشادات دقيقة وقاسية لكل frame، LooseControlVideo بتستخدم صناديق 3D بسيطة وموجّهة (زي الhigh-level blocking في الإخراج السينمائي)، والنموذج بحاله بيعمّي تفاصيل معقّدة زي الانزلاقات والحركات والتفاعلات بين الأجسام. الفريق دقّق نموذج Wan 2.2 على بيانات فيديو مشروحة بطريقة جديدة اسمها DNOCS بتشفّر الحجم والاتجاه والانسداد ثلاثي الأبعاد. والحلو كتير: بتقدري تعدّلي تفاصيل محدودة (مثلاً مسار قفزة أو تفاعل) من غير ما تفسّدي بقية المشهد. التقييمات على benchmarks مختلفة بتوضّح تحسّن هائل — من 1.2x لـ 3x أحسن في دقّة المسارات، و2x في تجانس الحركة الجامدة، و1.5x لـ 2x في دقّة الانسداد مقابل النماذج السابقة.

لماذا تهم؟: هالشغل بيفتح الباب لأي حد (مش بس الفنانين المحترفين) يتحكّم بفيديوهات معقّدة متعددة الأجسام بطريقة سهلة وحدسية، وهيك بيوّفّر الوقت والتعب بشكل كبير بقطاع الإنتاج والإبداع.

video generation 3D control spatial layout text-to-video motion synthesis hf اقرأ المزيد ↗

💬 أضِف تعليقك

REVES: تدريب محسّن بالمراجعة والتحقّق لتوسيع الأداء عند وقت الاستدلال

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

الباحثون قدموا طريقة جديدة لتحسين قدرة نماذج اللغة الكبيرة (LLMs) على الاستدلال المعقّد. المشكلة: الطرق التقليدية بتركّز على حالة واحدة (single-shot)، بس الاستدلال الفعلي بياخذ عدّة خطوات متتالية — بمعنى فيه عدم توافق كبير بينهم. قررو يستخدموا reinforcement learning متعدّد الخطوات، بس الفكرة الذكية: بدل ما يدرّبو على كل شي، استخرجوا الأخطاء "القريبة من الصح" من المسارات الناجحة وحوّلوها لـ prompts منفصلة للمراجعة والتحقّق. هيك الموديل بيركّز على تعديل الإجابات وتحديد الأخطاء بكفاءة عالية وتكاليف حسابية أقل. اختبروا على مشاكل برمجية وهندسية وألغاز، والنتايج كانت حلوة: +6.5 نقاط أفضل من RL التقليدي، وحقّقو نتايج متقدمة مع موديل أصغر بكتير.

لماذا تهم؟: هالطريقة بتحسّن كفاءة تدريب نماذج اللغة على مشاكل معقّدة بشكل كبير — تقلّل الحساب وتحسّن الدقّة في نفس الوقت، اللي مهم جدًا عشان الموارد غالية وأحنا بدنا نبني أنظمة ذكية عملية.

LLM test-time scaling reinforcement learning reasoning iterative refinement hf اقرأ المزيد ↗

💬 أضِف تعليقك

Execution-State Capsules: حفظ واستعادة الحالة للخدمة الذكية منخفضة الكمون

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

البحث بتاع Liang Su بيتكلم عن إشي جديد كتير في طريقة تخديم نماذج اللغة الكبيرة على الأجهزة (on-device). المشكلة إنّ الأنظمة الموجودة بتركز على الـ high-throughput (إنتاجية عالية)، بس احنا في حالات كتير بدنا سرعة استجابة سريعة جداً مع حجم صغير من الطلبات — مثل الوكلاء التفاعليين والروبوتات والأنظمة الصوتية. الباحث اقترح **execution-state capsules** — آلية بتحفظ الحالة الكاملة للبرنامج في نقطة معينة (مش بس الـ KV cache زي السابق)، وبتقدر تستعيدها بسرعة فائقة (أقل من ميلي ثانية). مع نماذج graphics جديدة على GPUs عالية الأداء، النتايج كانت مذهلة: تسريع من 3.9x لـ 27x حسب حجم البيانات.

لماذا تهم؟: لو أنتِ بتشتغلي على روبوتات أو وكلاء ذكيين بحاجة لاستجابة فورية، أو حتى تطبيقات صوتية على الهاتف، هالورقة بتقدم حل مختلف تماماً عن طرق الخدمة التقليدية — بتخليك تحفظ وتستعيد الحالة الكاملة للبرنامج بسرعة، مش بتضطر تعيدي كل الحسابات من الصفر.

LLM serving low-latency execution-state checkpoint-restore on-device inference arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

ViT-Up: تحسين دقيق لرفع دقة الميزات في Vision Transformers

ViT-Up: Faithful Feature Upsampling for Vision Transformers

الباحثون قدموا ViT-Up، طريقة جديدة لحل مشكلة كبيرة في Vision Transformers: إن ViTs بتشتغل على شبكات patch صغيرة عشان الـ self-attention بتاعها مكلفة حسابياً، وهيك بتفشل في المهام اللي بتحتاج تنبؤ كثيف زي semantic segmentation وdeep estimation. بدل ما نستخدم صورة خارجية لتوجيه رفع الدقة (وهيك بتصير مشاكل في تسريب الميزات والتشويش)، ViT-Up بتبني الحل من جوا — بتستخدم الـ hidden states الوسيطة من ViT نفسها وتوقّع ميزات في أي نقطة في الصورة، كل إشي محاذي مع ميزات الـ backbone. النتايج بتقول إن ViT-Up بتفوّق على الطرق القديمة: على Cityscapes بتحسّن +2.07 mIoU مع DINOv3-S وفي SPair-71k بتحسّن +4.17 PCK@0.10، والأرقام تصير أكبر مع الـ backbone الأكبر.

لماذا تهم؟: لأنها بتحل زحمة حقيقية في الشغل بـ Vision Transformers: بدّك دقة عالية وبدّك كفاءة حسابية، والـ ViT-Up بتطلع طريقة ذكية تجمع بينهم من غير ما تخسري في الاثنين.

Vision Transformers feature upsampling dense prediction self-attention semantic segmentation hf اقرأ المزيد ↗

💬 أضِف تعليقك

#10

التعلّم من التقليد مع RL والدمج الناعم: حلّ قوي للروبوتات حين تغيب المستشعرات

Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities

احنا بنتكلم عن مشكلة حقيقية جداً بالروبوتات — المستشعرات بتعطل أو تنقطع وقت الشغل، والنموذج بيضيع. فريق Ismkhan وزملاؤه طلعوا RL4IL، طريقة ذكية بتاخد reinforcement learning بتستخدم Proximal Policy Optimisation عشان تلاقي أفضل أمثلة تدريبية (expert demonstrations) من مكتبة بيانات موجودة. بعدين soft fusion head بيجمع الأوامر من هالأمثلة. الإشي الحلو: لما تختفي مستشعر أثناء الاستخدام، النموذج عنده سياسة RL خاصة لكل مستشعر بتلاقي مثال بديل بيساعد في إعادة بناء البيانات الناقصة عن طريق cross-attention — وكل هادا بدون ما يحتاج retraining. جربوا على LIBERO benchmark، والنتائج كانت أفضل من الطرق القديمة.

لماذا تهم؟: عشان الروبوتات الحقيقية مش بيئة معقّمة — المستشعرات تعطل، والضوء مش مشروح دايماً، والنموذج لازم يتعامل مع الفوضى بدون ما ننزّل نعيد تدريب كل ساعة.

imitation learning reinforcement learning multimodal fusion robustness sensor failure hf اقرأ المزيد ↗

💬 أضِف تعليقك

#11

StylisticBias: كيف بتشتغل بعض الإشارات البصرية البسيطة على تحيّزات المودلز متعدّدة الوسائط

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

الباحثين طوّروا benchmark اسمه StylisticBias بهدف قياس التحيّزات الاجتماعية في MLLMs بطريقة دقيقة وقابلة للتحكّم فيها. الفكرة كانت بسيطة بس ذكية: خذوا 500 وجه فوتوريالستي (مصنوعة بالـ AI) وغيّروا عليهم واحد تفاصيل في المرة — الموضة، السن، شكل الجسم، الخ — وتركوا كل الحاجات التانية ثابتة. هيك قدروا يقيسوا بدقّة إشو الإشارة البصرية اللي بتأثّر على حكم المودل. النتيجة: حوالي 15 خاصية بس (من مئات) هيّ اللي بتسبّب 80% من التحيّزات — يعني التحيّز مركّز في حفنة من التفاصيل. العمر والوزن والموضة بتلعب أدوار كبيرة، خصوصًا في أحكام اجتماعية اقتصادية ومتعلّقة بالأسلوب. البحث اتنشر على arXiv بتصنيفات الـ NLP والرؤية الحاسوبية.

لماذا تهم؟: عشان أكثر من مليون محل وشركة واستخدام صار بيعتمد على MLLMs بقرارات اجتماعية جدّي (تعيين، إقراض، توظيف…)، لازم نفهم بالضبط شنو التفاصيل البصرية اللي بتحرّك التحيّز — والـ benchmark الجديد هذا بيديك أداة سهلة وقابلة للتكرار لتقييم وتحسين المودلز.

bias evaluation MLLMs benchmark visual cues social bias arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#12

probe-and-refine tuning: ضبط إرشادات المستودع للوكلاء البرمجية

Probe-and-Refine Tuning of Repository Guidance for Coding Agents

الباحثان Shepard و Albrecht قدّما طريقة جديدة لتحسين أداء وكلاء الترميز المبنية على نماذج لغة كبيرة (LLMs)، والمشكلة إنه الوكلاء هذه بتحتاج معرفة عملياتية عن المستودع بره الكود نفسه — مثل إيش الملفات بتحتوي إيش أنظمة وكيف بتشتغل الاختبارات. الفريق بدّهم حل لـ قضية إنه في دراسات متناقضة حول إذا الإرشادات بتساعد أم تؤذي الأداء. هنا بيقدموا **probe-and-refine tuning**: طريقة بتستخدم اختبارات صناعية تصلح ملفات الإرشادات بشكل تكراري بسهولة بدون حاجة لعمل مستمر من الوكيل. على SWE-bench Verified، الطريقة وصلت لـ 33.0% معدل حل مقابل 28.3% للبيانات الثابتة و 25.5% بدون إرشادات — والتحسن بيجي من إنه الوكيل يقدر يوصل الملفات الصحيحة أكتر، مش من إنه يعمل تعديلات أحسن.

لماذا تهم؟: لأن الوكلاء اللي بتكتب وبتصلّح أكواد مهمة كتير بالواقع، وهالدراسة بتقول لك: الإرشادات ما بتقدّر توصل النتيجة إلا لو اخترت طريقة ذكية عشان تضبطيها — وهالطريقة الجديدة بتعطيك الحل.

LLM agents code generation repository guidance prompt optimization SWE-bench arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#13

شو مدى الشفافية في DiffusionGemma؟ دراسة في الفهم والتفسيرية

How Transparent is DiffusionGemma?

فريق Engels وزملاؤه بدرسوا إشي مهم وجديد: كيف بنفهم التفكير والحسابات اللي بتصير جوّة نماذج اللغة اللي بتشتغل بطريقة diffusion؟ DiffusionGemma بتعمل حسابات كتير في مساحة latent space مش شفافة، فالسؤال كان: هل هيك بتصير أقل transparency؟ الباحثين فكّكوا الشفافية لجزأين — variable transparency (إذا بنقدر نفهم الحالات الوسطانية للنموذج)، و algorithmic transparency (إذا بنقدر نحكي كيف وصل للإجابة النهائية). في البداية، DiffusionGemma بدت poor في الجزء الأول، لكن لما خريطة بدرسوا معلومات بين خطوات التنقية عبر token bottleneck، لقوا انهم بقدروا يخفّفوا المشكلة كتير. الباحثين كمان كتشفوا ظواهر جديدة في diffusion models زي non-chronological reasoning وtoken smearing، وآخر شي لقوا أن DiffusionGemma قريبة من Gemma 4 في الناحية العملية للمراقبة والاستخدام.

لماذا تهم؟: لأن فهم كيف بتفكّر النماذج اللي بتشتغل بطريقة جديدة مثل diffusion هو أساسي عشان نثق بيها ونشوف أخطاؤها — خاصة لما نبدأ نستخدمها في تطبيقات حساسة.

interpretability diffusion models transparency LLM reasoning mechanistic interpretability arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#14

تدريب نماذج الرؤية واللغة المرتبطة بالمكان بكفاءة لتحليل الصور الطبية

Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology

الباحثين قدموا RefRad2D، وهو dataset ضخم وثنائي اللغة (ألماني وإنجليزي) فيه 1.2 مليون زوج صور CT و MR مع نصوص طبية، مستخرج من البيانات الحقيقية للعيادات. الحاجة الأساسية هنا إنهم طلعوا طريقة بتحكي صور طبية بدون ما نحتاج نحن نحط علامات مكانية يدويًا — استخدموا LLMs والتجزئة الآلية عشان تجهّز البيانات. النموذج اللي طلعوه «RadGrounder» بيشتغل ثلاث شغلات في نفس الوقت: يكتب تقارير من الصور، يجاوب على أسئلة بصرية، ويحدّد مكان الأشياء بـ bounding boxes أو تجزئة. لما اختبروه على datasets معروفة (Slake و VQA-RAD)، النموذج قدّم نتايج منافسة مع models متخصصة تانية، وما فقد أي جودة في كتابة النصوص حتى لما أضافوا خصائص المكان.

لماذا تهم؟: هالورقة بتفتح باب لتطبيقات طبية عملية — بدل ما نقعد نسجّل بالإيد وين بالضبط المشكلة بالصورة، النموذج بيقول لك النص والموقع بدقة في نفس الوقت، وهذا كتير مهم لأن الأطباء بدهم يتأكدوا إن النموذج فهم الصورة صح.

vision-language models radiology spatial grounding medical imaging VQA arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#15

DataMagic: تحويل البيانات الجدولية إلى فيديوهات إحصائية ذكية

DataMagic: Transforming Tabular Data into Data Insight Video

الباحثون طلعوا نظام كتير شامل اسمه DataMagic بيحول البيانات الخام والأسئلة بالعربي/الإنجليزي مباشرة لفيديوهات بتحكي قصة البيانات — يعني رسوم بيانية متحركة زي السينما مع سرد صوتي وكل حاجة تتحرك في الوقت المناسب. المشكلة إنّ الطرق القديمة إما ما فيها narrative (زي dashboards الـ BI)، أو بتطلب منك تحضّر الرسومات قبل ما تبدأ، أو نماذج الفيديو الحالية ما تضمن إنّ البيانات بتظل صحيحة وموثوقة. DataMagic حلّ هالمشاكل بـ DVSpec (لغة تصريح خاصة) بتربط العناصر البصرية والحركات مباشرة بحقول البيانات، واستخدمت معمارية multi-agent ذكية (Generate-then-Orchestrate) بتولّد مشاهد متوازية وبعدين تحسّنها علشان تكون القصة متماسكة. الجميل إنّ الفيديوهات مش بس للمشاهدة — ممكن تفاعلي وفيها Q&A محترف، وقيّموا النظام على 109 عينة حقيقية والنتايج طلعت فعّالة كتير.

لماذا تهم؟: هالشغل بدّه يوفّر وقت وجهد كبير لأي شخص بدّه يحكي قصّة بيانات — ما بدّه يكون expert في تحرير الفيديو أو narrative design، بس بيكتب السؤال عن البيانات ويخلّيها الآلة تشتغل.

data storytelling video generation tabular data interactive visualization multi-agent systems arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#16

تدريب؟ استرجاع؟ ولاّ التنين؟ مقارنة شاملة لاستشهاد قانوني صحيح في قانون الإيجار بأونتاريو

Train, Retrieve, or Both? A Four-Arm Head-to-Head for Correct Statutory Citation on the Ontario Residential Tenancies Act

الباحثين اشتغلوا على مشكلة عملية كتير بتهم الناس اللي بدهم يعرفوا إشي عن القانون: كيف نقدر نوجّه حد لإجابة قانونية صحيحة مع الاستشهاد الدقيق؟ أخذوا قانون الإيجار السكني بأونتاريو وقارنوا بين أربع طرق: نموذج عام بدون تدريب، تدريب LoRA SFT فقط، استخدام retrieval فقط، وهجين بيجمع التنين. النتيجة كانت حلوة: الهجين SFT+RAG طلع الأحسن (0.481 دقّة)، واستعملوا embedder صغير (bge-small) ما بحاجة نماذج متخصصة غالية، والأهم إنهم وضّعوا الهلوسة تمامًا. بس الهدف الطموح (0.70) لسّه لم نصير فيه.

لماذا تهم؟: هالشغل مهم عشان يثبت إنك ما بتحتاج دايمًا موديلز غالية ومتخصصة علشان تحسّن الاستشهاد القانوني — تجميع ذكي بين تدريب بسيط وretrieval صغير كفاية، وهذا بيفتح الباب لتطبيقات عملية للمساعدة القانونية برخص.

statutory citation legal AI retrieval-augmented generation fine-tuning RAG hallucination reduction arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#17

HumanScale: فيديوهات الرؤية الذاتية للبشر أحسن من بيانات الروبوتات الحقيقية للتدريب الأساسي

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

الباحثون اكتشفوا إشي كتير مهم: بدل ما نعتمد على بيانات روبوتات حقيقية (اللي بتكون غالية وصعبة التجميع)، فيديوهات الرؤية الذاتية للبشر — اللي هي فيديوهات من وجهة نظر الإنسان — بتقدر تعطي نتايج أحسن! الفريق اختبر هالفكرة بشكل منهجي: لما يستخدموا نفس الكمية من البيانات، النماذج اللي اتدرّبت على فيديوهات البشر طلعت أداء أفضل بـ 24% في التنبؤ بحركات الروبوت، و52.5% أفضل في المهام اللي الروبوت شافها قبل كذا، و90% أفضل في المهام الجديدة اللي ما شافها! الحيلة كانت في عمل pipeline ذكي لتصفية وتصنيف الفيديوهات البشرية بعناية.

لماذا تهم؟: هالدراسة بتفتح الباب واسع قدام النماذج الأساسية للروبوتات — بدل ما نتكلف ملايين جمع بيانات روبوتية، ممكن نستخدم فيديوهات بشرية رخيصة وأكتر تنوعًا، وهاي بتطلع نتايج أفضل حتى! هاي خطوة عملية كتير للتطبيقات الحقيقية.

embodied AI pretraining egocentric vision robot learning data efficiency hf اقرأ المزيد ↗

💬 أضِف تعليقك

#18

JanusMesh: توليد الأوهام البصرية ثلاثية الأبعاد بسرعة وبدون تدريب

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

الباحثين قدّموا طريقة جديدة وسريعة لإنشاء نماذج ثلاثية الأبعاد (mesh) بهندسة واحدة بس بتتحول لمعاني مختلفة تماماً حسب زاوية النظر — إشي بيُسمّى visual illusion. الطريقة الجديدة بتقسّم الشغل لمرحلتين: الأول عملية denoising بتشتغل عبر spaces مختلفة، بتستخدم CLIP عشان تحاذي الاتجاهات وتمزج الهندسة بطريقة ناعمة باستخدام SDF. الثاني، وحدة synthesis للألوان والتفاصيل بتعتمد على رؤية معينة. النتيجة: أوهام بصرية واقعية بمعنيين مختلفين بتتولّد في ٣-٥ دقائق بس، وبدون ما تحتاج للتدريب أصلاً.

لماذا تهم؟: المشكلة الكبيرة اللي كانت موجودة في الطرق القديمة إنها بطيئة كتير (تحتاج ساعات) والألوان بتطلع مشبّعة وشبه غير طبيعية، أو إنها سهلة بس بتخرّب الهندسة الكيميائية وتظهر خطوط واضحة بين أجزاء الصورة. JanusMesh حلّت كل هالمشاكل: بسرعة، بنتائج واقعية، وبدون ما تحتاج للتدريب المسبق.

3D generation visual illusion diffusion CLIP zero-shot mesh synthesis hf اقرأ المزيد ↗

💬 أضِف تعليقك

#19

إزّاي التعليمات بتشكّل الكلام؟ Cross-Attention Attribution للـ Text-to-Speech

How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech

الباحثين اقترحو طريقة جديدة عشان نفهم كيف الكلمات والتعليمات الطبيعية بتؤثّر على الصوت في أنظمة TTS. استخدمو cross-attention attribution — تقنية بتطبّقوها على speech diffusion models لأول مرّة — وحلّلو حوالي 3,600 مزج بين تعليمات الأسلوب والنصوص. اكتشفو إنّ كلمات الأسلوب بتكون أقلّ تذبذب زمني من كلمات المحتوى، وإنّ تأثير الأسلوب بيكون أقوى في الطبقات العميقة والخطوات الأولى من عملية التوليد. أهم نتيجة: في الطبقة 17 تحديدًا، الشبكة بتصير انتقائية لأقصى درجة بتركيزها على الأسلوب.

لماذا تهم؟: هالدراسة بتساعدك تفهم إيش بتصير جوّا الـ TTS models بالظبط — كيف الأسلوب والمحتوى بيتقسّمو الشغل — وبتفتح الباب عشان نحسّن التحكّم بالصوت والقدرة على تشخيص أخطاء النموذج.

text-to-speech interpretability diffusion models cross-attention style control arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#20

FreeStyle: التحكّم الحرّ في توليد الصور بمرجعيتين (أسلوب وموضوع) من خلال تعدين LoRAs المجتمع

FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

الباحثون طلعوا طريقة جديدة اسمها FreeStyle لتوليد صور بتحافظ على بنية وسيمانتيك صورة واحدة (content) وتاخد أسلوب من صورة تانية (style) — وهي مسألة صعبة كتير لأن النموذج لازم يوازن بين ثلاث حاجات: إنه ما ينقل معنى من صورة الأسلوب للصورة الجديدة (content leakage)، ويحافظ على الموضوع الأصلي، وينفذ أوامر المستخدم. المشكلة الأساسية إنه ما في بيانات كتيرة مع فصل نظيف بين الأسلوب والموضوع. الباحثين استخدموا LoRAs (نماذج صغيرة مدرّبة من المجتمع) كـ «مراجع مركبة» للأسلوب والموضوع، وبنوا pipeline قوي لتوليد وتصفية بيانات ثلاثية على نطاق كبير. عشان يتجنّبوا نقل المعنى من صورة الأسلوب، استخدموا curriculum بمرحلتين: الأولى بتثري attention وتعطّل تسرب الأسلوب، والثانية بتستخدم RoPE modulation بتركيز على التسرب من التوافق المكاني. كمان طلعوا benchmark جديد مع أدوات قياس دقيقة وأخذ عينات من نموذج رؤية لغة لتقييم جودة التوليد.

لماذا تهم؟: لأن التحكّم الدقيق في فصل الأسلوب والموضوع بصورة واحدة كتير مهم في التطبيقات الحقيقية من الفن الرقمي لحد الإعلانات، وهالورقة بتقدّم حلّ عملي وقابل للتوسّع بدون اعتماد على بيانات ضخمة مرتّبة يدويًا.

style transfer content preservation image generation LoRA dual-reference diffusion models arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

📘 مصطلحات هذا العدد 14

💡 مفاهيم 11

LLM

نموذج لغة ضخم بتعلم على مليارات الكلمات وبعدين بيقدر يتنبأ ويكتب نصوص زي ChatGPT و Claude. بدنا نعرف عنه عشان دخل كل حاجة بحياتنا من البحث للكتابة للبرمجة.

contamination

لما البيانات اللي درّسنا عليها النموذج تتسرب لداخل بيانات الاختبار، فبنحصل على نتايج مزيفة وما بتعكس الحقيقة. مشكلة خطيرة عشان بتخدعنا نحسب إن النموذج أذكى مما هو بالفعل.

code generation

يعني البرنامج الذكي اللي بقدر يكتب كود برمجي بحاله بناءً على اللي بتطلبيه منه. بنسمع عنه كتير لأنه بوفّر وقت على المبرمجين ويساعدهم في الأشياء الممّلة والروتينية.

RAG

اختصار Retrieval-Augmented Generation، يعني احنا بنجيب معلومات من قواعد بيانات خارجية ونخليها تساعد النموذج إنه يجاوب على أسئلتك بشكل أدق. بنسمع عنه عشان بيحسّن إجابات الذكاء الاصطناعي ويقلل الأخطاء.

reinforcement learning

تعليم الذكاء الاصطناعي من خلال نظام الحوافز والعقوبات، زي لما تعلمي طفل بالمكافأة والعقاب عشان يتعلم السلوك الصحيح. بنستخدمه عشان الآلة تتعلم تاخذ قرارات ذكية بنفسها من غير ما نحطّ كل إجابة جاهزة.

retriever

هذا المصطلح بيعني آلية بتروح تجيب المعلومات الصح من قاعدة بيانات كبيرة، زي ما تروحي توديري في المكتبة وتجيبي الكتاب اللي فيه المعلومة اللي بدك إياها. بنسمع عنه كتير في الذكاء الاصطناعي عشان بيساعد النماذج تجاوب أكتر دقة بناءً على معلومات موجودة.

flow-matching

تقنية بدنا نطابق بيها أنماط الحركة والتدفق بين أشياء مختلفة، بدل ما نتنبأ بكل خطوة لحالها. بنسمع عنها عشان أسرع وأدق من الطرق القديمة في توليد الحركة.

Content-addressable Memory

ذاكرة بتاعة الحاسوب لما تروح فيها بمحتوى معين بتطلعلك الحاجة مباشرة، مثل لما تتذكري حاجة برقم في دماغك.

Contagion Networks

شبكات بتدرس كيف الحاجات بتنتشر من شخص لشخص (أمراض، أفكار، معلومات)، عشان نفهم إزاي الأشياء بتتوسع بسرعة.

evaluator bias

يعني أن المسؤول عن تقييم نموذج الذكاء الاصطناعي قد يكون عنده ميول شخصية مش عادلة بتأثر على النتايج. بدنا نركز عليها عشان التقييم العادل والنزيه هو أساس تطوير نماذج موثوقة وصحيحة.

multi-agent systems

هي أنظمة فيها أكتر من عامل ذكي (agent) بيشتغلوا مع بعض عشان يوصلوا لهدف معين - كل واحد منهم بياخذ قرارات ويتفاعل مع الآخرين. بنسمع عنها كتير لأنها بتخليك تحل مشاكل معقدة بطريقة أذكى من الحل الواحد.

🤖 موديلز 1

Modern Hopfield Network

شبكة عصبية قديمة بتقنيات جديدة، بتخزّن وبتسترجع معلومات مثل الذاكرة، إشي مشابه لكيفاش احنا بنتذكر الحاجات.

📏 مقاييس 1

Phoneme Error Rate

🗂️ بيانات 1

LiveCodeBench

منصة اختبار حقيقية بتقيّم قدرة نماذج الذكاء الاصطناعي على كتابة كود برمجي فعلي وتحل مشاكل حقيقية. بنركز عليها عشان فيها أسئلة جديدة باستمرار ومش مجرد مذكرة قديمة.

كل المصطلحات ←

📚 كل الأعداد