📡 أحدث عدد

شو في AI؟ | 25 يونيو

يومي 📅 2026-06-25
سلام 👋 هلقيت العدد الجديد من نشرة الذكاء الاصطناعي، بنقدملكم أهم التطورات التقنية باختصار.
#1

هل إحنا جاهزين لنظام ذاكرة Agent-Native للوكيل؟

Are We Ready For An Agent-Native Memory System?
الورقة بتستعرض كيف صارت ذاكرة الـLLM للوكيل من آلية استرجاع بسيطة لنظام إدارة بيانات كامل بيدعم التخزين المستمر، الاسترجاع، التحديث، والتجميع خلال تشغيل الوكيل. الباحثين قدموا إطار تحليلي بيفصل الذاكرة لأربع وحدات أساسية: تمثيل وتخزين الذاكرة، الاستخراج، الاسترجاع والتوجيه، والصيانة. جربوا 12 نظام ذاكرة مع معيارين مرجعيين على خمس مجموعات عمل تشمل 11 dataset، ولقوا إنه ما في بنية وحدة بتتفوق بكل الحالات، والاختيار الصح بيعتمد على مطابقة هيكل الذاكرة مع نقطة الاختناق بالعمل. كمان حللوا تكلفة الأداء ولقوا إن الصيانة المحلية أوّلية من حيث الكلفة.
لماذا تهم؟: هالنتائج بتساعدنا نختار أو نصمم نظام ذاكرة للوكيل يشتغل بكفاءة حسب التطبيق الفعلي، مو بس حسب مقياس النجاح العام.
🌱 شو إلك منها؟
بتخيل إنك عم تستخدم تطبيق ذكي بيتذكر كل تفاصيل محادثاتك ويقدر يحدّث معلوماته بسرعة، هالورقة بتوضح كيف ممكن نعمل هالشي بأقل تكلفة. يعني إذا كان عندك مساعد صوتي أو روبوت بيتعامل معك كل يوم، رح يقدر يحافظ على معلوماتك القديمة ويضيف جديدة بدون ما يضيع وقت أو موارد. هالتحسينات رح تشوفها قريبًا بخدمات مثل المساعدات الذكية أو تطبيقات الدعم الفني اللي بتتعلم من تفاعلاتك.
agent memory LLM evaluation data management cost-performance hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#2

ShutterMuse: دليل التصوير وقت الالتقاط

ShutterMuse: Capture-Time Photography Guidance with MLLMs
الفريق قدموا CaptureGuide-Bench، بنشوف فيه مهمتين: قرار التكوين للّقط من ناحية المصوّر وتعديله، وتوصية وضعية للموضوع حسب المشهد. لقوا إن الـMLLMs العامة بتقدر تقرر التكوين بس ما بتحدد تعديل الدقة، والنماذج المتخصصة بتقصر على التعديل بس ما بتعطي توجيه للموضوع. بعدين بنوا CaptureGuide-Dataset فيه 130 ألف عينة مع توضيحات نصية وتعليقات بصرية، ودربوا نموذج موحد اسمه ShutterMuse باستخدام التدريب المشرف وتعزيز التعلم. التجارب بينت إن ShutterMuse بيحقق أحسن أداء للقرارات التكوينية وبنفس الوقت بيقدّم توصيات وضعية للموضوع بتكلفة استدلال أقل.
لماذا تهم؟: هالورقة بتظهر كيف ممكن نستخدم نماذج اللغة المتعددة الوسائط لتساعد المصورين يلقطوا صور أحسن مباشرةً وقت التصوير.
🌱 شو إلك منها؟
تخيّل إنك عم بتصوّر صديقك أو منظر طبيعي، وبدك نصيحة سريعة إذا لازم تقرب أو تبعد أو تغير وضعية الشخص. ShutterMuse بيعطيك اقتراحات فورية لتضبط الإطار والوضعية، متل ما لو كان معك مدرب تصوير جنبك. هالشي ممكن يطلعك بألبومات أحلى وتطبيقات التصوير على الموبايل تستفيد من هالتقنية لتسهّل عليك الشغل.
photography MLLM benchmark multimodal AI hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#3

V‑Zero: طريقة بلا إجابات مُعلَّمة للتفكير البصري الدقيق

V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning
الفريق قدم V‑Zero، إطار بيشتغل بدون ما يحتاج لأي إجابات مكتوبة، وبيستغل مسارات الطالب نفسها لتعليم النموذج كيف يركز على أجزاء الصورة المهمة. الفكرة إنّه يخلّف صورة سؤالية مقصّرة مع مشهد بصري سالب، وبس يستخدم هالزوج لتقييم وتوجيه عملية الـdistillation على مستوى الـtoken. التجارب على مجموعة من الـbenchmarks أثبتت إنّه بيحسّن التفكير البصري الدقيق وبسرعة أكبر بكتير من الطرق السابقة، يعني أسرع 5‑أضعاف عن fine‑tuning المراقب و10‑أضعاف عن الـreinforcement learning.
لماذا تهم؟: هالإطار بيوفر طريقة أسرع وأرخص لتدريب نماذج بصرية دقيقة بدون الحاجة لتسميات إجابات مكلفة.
🌱 شو إلك منها؟
تخيّل إنك عم تحكي مع برنامج يقدر يشرح لك صورة معقدة بدون ما يحتاج يشتغل على مجموعات إجابات جاهزة. V‑Zero بيخلّي هالبرنامج يتعلم من نفسه، فبيصير أسرع يجاوب على أسئلتك ويعطيك شرح أدق للصور. ممكن تشوف هالتقنية بالمستقبل ببرامج المساعدة الذكية أو تطبيقات الترجمة البصرية.
visual-reasoning multimodal distillation contrastive-learning hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#4

دليل المسافر للـ Agentic AI: من الأساسيات للأنظمة

The Hitchhiker's Guide to Agentic AI: From Foundations to Systems
هالكتاب هو مرجع عملي لبناء أنظمة ذكاء اصطناعي ذاتية. بيشرح كل طبقة من الـ LLM، الـ transformer، تدريب وتفصيل النموذج، وضغط النموذج وتسرّيع الاستدلال، وبعدين ينتقل لطبقة التوافق والتفكير عبر RLHF وPPO وغيرها. بالنص التاني بيغطي كل شي عن الـ agentic AI: تدريب الوكلاء، RAG، أنظمة الذاكرة، تصميم الـ harness وتنسيق الوكلاء عبر بروتوكولات مثل MCP وA2A. وأخيرًا بيعرض إطارات تطوير الوكلاء، تصميم الواجهة، وتقييم ونشر الأنظمة بحياة الإنتاج.
لماذا تهم؟: لأنها بتعطيك خريطة شاملة لتجميع كل مكوّنات الوكيل الذكي من الأساس للانتاج الفعلي، مش بس تركّز على جزء واحد.
🌱 شو إلك منها؟
بتقدر تستعمل هالكتاب إذا حابب تبني برنامج يقدر يتعامل لحاله مع أسئلة أو مهام معقّدة، متل المساعد الرقمي اللي يجاوبك ويعمل شغلك. فكر فيه كأنه دليل سواقة للسيارة، يوريك كل خطوة من تشغيل المحرك لحد ما توصل للوجهة. هالخبرة ممكن تشوفها في تطبيقات مثل المساعدات الصوتية أو الروبوتات اللي بتساعد بالمنازل أو الشغل.
agents LLM RLHF RAG AI systems hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#5

iLLaDA: نموذج لغة كبير بانتشار مزدوج

Improved Large Language Diffusion Models
الفريق قدم iLLaDA، نموذج لغة بحجم 8 بليون بارامتر مدرب من الصفر باستخدام masked diffusion وattention كامل ثنائي الاتجاه. حافظوا على هدف الـ diffusion طوال مرحلة ما قبل التدريب وتدريب التعليمات، وتدربوا على 12 تريليون توكن وبعدين على 25 بليون توكن تعليمية. كمان استعملوا توليد بطول متغيّر لتقليل الوقت وعملوا scoring مبني على الثقة لتقييم الأسئلة المتعددة الخيارات. النتائج أظهرت تحسين واضح على مجموعات اختبار عامة، رياضية، وبرمجية مقارنةً بـ LLaDA وحتى مع Qwen2.5 7B.
لماذا تهم؟: هالطريقة بتفتح باب تدريب نماذج لغة قوية بدون الاعتماد على التوليد التلقائي التقليدي، وبتعطي أداء أعلى بموارد أقل.
🌱 شو إلك منها؟
تخيل إنو عندك برنامج يكتب لك حلول رياضية أو كود برمجي بسرعة أكبر وبدقة أعلى، هالشي بيقرب التكنولوجيا من شغلك اليومي. مثلاً، إذا بدك تحل مسألة رياضية أو تكتب سكريبت بسيط، النموذج رح يعطيك إجابة أسرع وبأقل أخطاء. هالتحسينات ممكن تشوفها قريباً بأدوات مثل مساعدات الكتابة أو تطبيقات التعليم الإلكتروني.
language models diffusion bidirectional attention instruction tuning benchmarks hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#6

Wan-Streamer v0.1: نموذج أساسي تفاعلي لبث صوتي‑بصري لحظي

Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
الفريق قدم Wan-Streamer، نموذج أساسي بيشتغل بنظام streaming من أول وجديد لتفاعل صوتي‑بصري بوقت حقيقي وبكفاءة قليلة التأخير. النموذج بيستخدم Transformer واحد بيجمع النص، الصوت والفيديو كتوكنات متشابكة، وبيعتمد على block‑causal attention لتوليد وإدخال البيانات بصورة متدرجة. بهالطريقة ما في حاجة لتجميع وحدات منفصلة مثل VAD أو ASR أو TTS، كل شي بيتعلم مع بعض داخل نموذج واحد، فبيقلل زمن الاستجابة وتراكم الأخطاء. التجربة أظهرت استجابة النموذج حوالي 200 ms من الجانب النموذجي و550 ms إجمالي مع شبكة عادية، يعني محادثة صوتية‑بصرية تحت الثانية.
لماذا تهم؟: هالورقة بتفتح باب لتطبيقات تواصل لحظي بين البشر والآلات بدون تأخير ملحوظ ولا تعقيدات الأنظمة المتقطعة.
🌱 شو إلك منها؟
تخيّل إنك عم تحكي مع مساعد صوتي على الموبايل ويقدر يرد عليك بالفيديو فورًا، بدون انتظار طويّل أو تشويش. هالنظام بيخلي المحادثة تشبه الكلام العادي بين شخصين، لأن الصوت والفيديو بيطلعوا بنفس اللحظة. ممكن نشوف هالتقنية بالـ VR، الألعاب التفاعلية، أو حتى مكالمات الفيديو اللي بدها رد فعل سريع مثل الدردشة الحية.
multimodal streaming foundation model real-time audio-visual hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#7

ما بعد NL2Code: مسح منظم للذكاء البرمجي المتعدد الوسائط

Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence
الفريق قدم مسح شامل للذكاء البرمجي المتعدد الوسائط، يعني نماذج تشتغل على صور وشاشات وتطلع كود. حددوا دور الكود بأربع فئات – كصورة، كهيكل رمزي، كتمثيل علمي، أو كأداة تنفيذية – ونظموا البنشماركات بربع مجالات: واجهة المستخدم، التصوير العلمي، الرسومات المهيكلة، والمهام المتقدمة. كمان اقترحوا أربع اتجاهات تركّز على التحقق من صحة الكود من خلال إشارات متعددة وحالات تنفيذية متعددة وتعميم المهارات بين المهام.
لماذا تهم؟: هالورقة بتوضح كيف ممكن نطور نماذج تفهم الصور وتكتب كود موثوق، وهاد بيفتح باب لتطبيقات برمجية أذكى وأقرب للناس.
🌱 شو إلك منها؟
تخيّل إنك ترفع صورة لتصميم تطبيق أو مخطط بياني، والكمبيوتر يكتب لك الكود اللي بيشتغل على هالشي مباشرةً. هالشي بيسهّل على الأشخاص اللي ما عندهم خبرة برمجية يحققوا أفكارهم بسرعة، متل ما بنشوف بأدوات توليد السكريبتات من واجهات الاستخدام. ممكن تلاقي هالتقنية داخل تطبيقات تعديل الصور أو أدوات إنشاء تقارير تلقائية.
multimodal code generation LLM survey benchmark hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#8

SARA: تحسين التوجيه المتعدد اللغات في Mixture-of-Experts

SARA: Unlocking Multilingual Knowledge in Mixture-of-Experts via Semantically Anchored Routing Alignment
الفريق اقترح إطار اسمه SARA يركّز على توحيد توزيع التوجيه للغات القليلة الموارد مع اللغات الغنية بالبيانات. الفكرة إنو بنستخدم اللغات القوية كمرساة معنوية وبنقرب توجيه الخبراء في الطبقات الداخلية باستخدام قياس Jensen‑Shannon. التجارب على نموذجين كبيرين وعلى خمس لغات ضعيفة الموارد أظهرت تحسين واضح مقارنةً بالتدريب التقليدي.
لماذا تهم؟: SARA بتخلّي نماذج اللغة الكبيرة تفهم وتجاوب أحسن باللغات القليلة الموارد، فبتقرب الفجوة بين اللغات.
🌱 شو إلك منها؟
تخيّل إنك عم تحكي مع برنامج ترجمة وما بيفهم لغتك، بعد هالإطار رح يقدر يترجم أكتر دقة. يعني إذا كنت من شمال فلسطين أو أي منطقة بتحكي لهجة نادرة، رح تشوف تحسين واضح بخدمات الذكاء الاصطناعي اليومية مثل المساعدات الصوتية أو التطبيقات التعليمية.
multilingual MoE routing alignment low-resource arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#9

DomainShuttle: توليد فيديو من نص بمرونة بين المجالات

DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation
فريق Nan Chen وزملاؤه قدموا DomainShuttle، طريقة جديدة لتوليد فيديو من نص بتقدر تنتقل بحرية بين سيناريوهات داخلية وخارجية. الطريقة بتستعمل Domain‑MoT لتفكيك الفيديو والميزات المرجعية، وبتضيف domain‑aware AdaLN لتخصيص النمذجة حسب المجال. كمان حطوا Video‑Reference DualRoPE لتقسيم توكنات الصورة والفيديو بمساحات RoPE منفصلة، وطبقوا Cross‑Pair Consistent Loss لتأكيد استخراج ميزات الموضوع الأساسية بدون تأثير الخصائص غير المرتبطة. التجارب أظهرت تحسن واضح بالمقارنة مع الطرق السابقة، مع وفرة بالثقة على تفاصيل الموضوع ومرونة إبداعية أكبر.
لماذا تهم؟: هالطريقة بتعطيك تحكم أدق بالموضوع وبنفس الوقت تسمحلك تغير الأنماط والسمات بسهولة، فبتفتح باب لتطبيقات فيديو شخصية أكتر إبداعاً.
🌱 شو إلك منها؟
بتخيل إنك بدك تعمل فيديو قصير لحيوانك الأليف أو لمناسبة خاصة، وتكتب بس وصف بسيط، وهالطريقة بتطلع لك فيديو يظل فيه الحيوان واضح ومشوش بالأنماط اللي بتحبها. يعني متل ما بتستخدم تطبيقات تعديل الفيديو على السوشيال ميديا، بس مع قدرة أكبر على الحفاظ على هوية الشيء الأساسي. ممكن تشوف هالتقنية قريبا بأدوات تحرير الفيديو على الإنترنت أو تطبيقات الذكاء الاصطناعي اللي بتولد محتوى فيديو من النص.
text-to-video domain adaptation generative models video personalization hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#10

OpenThoughts-Agent: إشي لتدريب نماذج وكيلية ببيانات مفتوحة

OpenThoughts-Agent: Data Recipes for Agentic Models
الفريق عملوا مشروع OpenThoughts-Agent اللي بيقدّم خط أنابيب مفتوح لتجميع بيانات تدريب الوكلاء. جربوا أكتر من مية تجربة تحكمية ليعرفوا أي مرحلة أهم، وجمعوا 100 ألف مثال لتدريب Qwen3-32B. النموذج بعد التدريب وصل متوسط دقة 44.8٪ على سبعة benchmarks وكسر نتيجة أقوى نموذج مفتوح قبل هيك. كمان البيانات بتبين قدرة توسّع قوية، يعني كل ما زادت حجم التدريب بتحسّن الأداء أكتر من غيرها من المجموعات المفتوحة.
لماذا تهم؟: هالورقة بتفرجينا كيف نقدر نجهّز بيانات تدريب قوية تخلّي الوكلاء يتعاملوا مع مهام متنوعة بفعالية أعلى من غيرها.
🌱 شو إلك منها؟
تخيّل إنو عندك مساعد ذكي يقدر ينجز شغلات كتيرة من كتابة إيميلات لتخطيط رحلات، لأنو تدرب على بيانات منوعة ومفتوحة. هالطريقة بتخلي المساعد يتعامل مع مواقف جديدة بسهولة، وبتظهر أكتر في تطبيقات مثل المساعدات الرقمية أو الروبوتات المنزلية. يعني إذا استعملت تطبيق ذكي هالأيام، ممكن يكون مبني على هالنهج المفتوح.
agent data fine-tuning benchmark open-source hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#11

HiReLC: ضغط الشبكات العصبية بهيكل هرمي

Hierarchical Reinforcement Learning for Neural Network Compression (HiReLC): Pruning and Quantization
فريق Baghdadi وزملاؤه قدموا HiReLC، إطار تعلم معزز هرمي بيشتغل على تقليم وتكميم الشبكات العصبية بشكل آلي. الإطار بيقسم مهمة الضغط على مستويين: وكلاء منخفضين (LLAs) يختاروا إعدادات البتات ونسبة الاحتفاظ لكل نواة، ووكلاء عاليين (HLAs) يوزعوا الميزانية الكلية بناءً على حساسية الفيشير إنفورمشن. لتقليل تكلفة التقييم، بيستعملوا حلقة تعلم نشط مع نموذج بديل خفيف (MLP) لتوجيه تحسين الـRL، وبعدها بيعملوا fine‑tuning نهائي. التجارب على Vision Transformer وCNN أثبتت إنو ممكن نوصل لتقليل الوزن بـ 5.99‑6.72× مع خسارة دقيقة قليلة أو حتى تحسين بسيط بالأداء.
لماذا تهم؟: هالطريقة بتخلي النماذج الكبيرة تصير أصغر وأسرع بدون ما تخسر كتير من الدقة، فبتفيد التطبيقات اللي بتشتغل على أجهزة محدودة.
🌱 شو إلك منها؟
تخيل إنو تطبيق على موبايل بيحتاج يشتغل بسرعة وما يستهلك بطارية، مع هالتقنية بيصير البرنامج أخف وأسرع، فبيشتغل بأقل استهلاك للطاقة. يعني ممكن تشوف فرق واضح بوقت استجابة تطبيقات الترجمة أو التعرف على الصور على جوالك. كمان هالتحسين بيساعد إنو الأجهزة القديمة تقدر تستفيد من تقنيات الذكاء الاصطناعي بدون ما تحتاج ترقيات مكلفة.
model compression reinforcement learning pruning quantization hierarchical RL arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#12

DREAM: تمثيلات استرجاع كثيفة عبر النمذجة التلقائية

DREAM: Dense Retrieval Embeddings via Autoregressive Modeling
الفريق Yixuan Tang و Yi Yang قدموا طريقة جديدة اسمها DREAM لتدريب نماذج الاسترجاع الكثيفة. الفكرة إنو بنستغل هدف التنبؤ بالكلمة الجايّة داخل LLM لتوجيه انتباه النموذج لملفات الوثائق اللي ممكن تكون مفيدة للاستعلام. بنحط درجات التشابه بين الاستعلام والوثيقة داخل رؤوس attention لنموذج LLM ثابت، وبهالطريقة بنستقبل إشارات تدريب للـ retriever من خلال loss التنبؤ. التجارب على مجموعات BEIR و RTEB أظهرت إنو DREAM يتفوّق على الطرق السابقة مهما كان حجم النموذج.
لماذا تهم؟: هالطريقة بتقليل الاعتماد على بيانات مُعلّمة مكلفة وبتحسّن جودة البحث في الأنظمة الذكية.
🌱 شو إلك منها؟
بتخلي محركات البحث أو التطبيقات اللي بتعتمد على استرجاع المعلومات تلاقي الجواب الصح أسرع وأدق، متل ما إذا بدك تلاقي وصف لدواء بسرعة من الإنترنت. الفكرة متل لما تسأل صديق موثوق يرشّح لك كتب أو مقالات مفيدة، بس الصديق هون هو برنامج الذكاء الاصطناعي. ممكن تشوف التحسين بميزات البحث داخل التطبيقات اللي بتستعملها يوميًا.
retrieval dense embeddings autoregressive LLM hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#13

IV-CoT: تخطيط بصري ضمني لتوليد صور من نص مع مراعاة الهيكل

IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation
الفريق قدم طريقة جديدة اسمها IV-CoT، بتقسم طلب النص لتوليد صورة لسلسلة من الاستفسارات البصرية. أولاً بتنشئ مخطط بصري خفي من خلال استعلامات هيكلية، وبعدها بتستعمل استعلامات دلالية لتضيف تفاصيل المظهر على هالمخطط. التدريب بيستغل إشراف من رسومات تخطيطية بس ما بيحتاجوا يرسموا أو يطلعوا مخطط واضح وقت الاستنتاج، وبيصير كل هالشي بتمريرة واحدة للـ forward. الطريقة جابت نتائج أحسن على Benchmarks مثل GenEval وT2I-CompBench.
لماذا تهم؟: هالطريقة بتخلي الصور المتولدة تحترم عدد الأشياء والعلاقات المكانية، فبتعطي نتائج أدق للناس اللي بدهوا رسومات دقيقة.
🌱 شو إلك منها؟
تخيل إنك عم تكتب وصف لمشهد وتطلع لك صورة تطابق كل تفاصيل الوصف، من عدد الأشياء لمكانها وعلاقتها ببعض. هالشي بيخلي التطبيقات اللي تولد صور من نصوص تعطيك نتائج أقرب للخيال اللي عندك، متل ما بتشوفه ببرامج تعديل الصور أو إنشاء خلفيات للهواتف. يعني رح تلاقي الصور اللي بتطلع لك أكتر وضوح وتنظيم، وتستفيد منها بحياتك اليومية.
text-to-image multimodal structural-planning generation IV-CoT hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#14

نقد نموذج الوكيل (Agent Model)

Critique of Agent Model
الفريق بيستكشف شو يعني الوكيل بالذكاء الاصطناعي وبيفرق بين الأنظمة اللي بتشتغل بمهام محددة والأنظمة اللي عندها استقلالية حقيقية. بيحللوا الوكيل على خمس أبعاد: الهدف، الهوية، اتخاذ القرار، التنظيم الذاتي، والتعلم. بناءً على هالتحليل، اقترحوا بنية جديدة اسمها Goal-Identity-Configurator (GIC) بتجمع تقسيم هرمي للأهداف وتطور الهوية وتفكير محاكى مع نموذج عالم منفصل، وتنظيم ذاتي وتعلم ذاتي من الخبرات الحقيقية والمحاكية. كمان بيحكوا عن كيف نقدر نراقب ونتحكم بهالأنظمة ونضمن سلامتها تحت إشراف البشر.
لماذا تهم؟: هالورقة بتوضح كيف ممكن نطور أنظمة ذكية تكون أكثر استقلالية وأمان، وهذا مهم لتصميم أدوات تساعدنا بدون ما تصير خطر على البشر.
🌱 شو إلك منها؟
تخيل إنك عندك برنامج يقدر يخطط لك شغلك اليومي ويتعلم من أخطائك بدون ما تحتاج تدخّل كل مرة. هالشي بيسهّل حياتنا وبيخلينا نركز على إشي أهم من الروتين. ممكن تشوف هالتقنية بآلات المساعد الذكي أو تطبيقات التنظيم اللي صارت أكثر فهماً لاحتياجاتك.
agents autonomy AI safety architecture GIC hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#15

MemGUI-Agent: وكيل واجهة الموبايل بطول أمد طويل وإدارة سياق ذكية

MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
الفريق قدم MemGUI-Agent، وكيل موبايل يشتغل على واجهات التطبيقات لفترات طويلة. هو بيستعمل فكرة Context-as-Action (ConAct) لتعامل مع السياق كإجراء مستقل، فبدل ما يضيف كل خطوة لسجل طويل، بيحافظ على ثلاث حقول سياقية منظمة لتقليل الضغوط على النموذج. درّبوا نموذج 8B على مجموعة بيانات MemGUI-3K، وطلعوا بأفضل أداء على MemGUI-Bench وكمان قدر يتعامل مع اختبارات MobileWorld اللي ما شافها قبل.
لماذا تهم؟: هالطريقة بتخلي الوكلاء يشتغلوا بثقة على مهام طويلة ومعقدة بدل ما يضيعوا بالمعلومات بين التطبيقات.
🌱 شو إلك منها؟
تخيل إنو موبايلك يقدر يساعدك تحجز تذاكر سفر عبر عدة تطبيقات من غير ما تعيد نفس الخطوات كل مرة. الوكيل بيحفظ المعلومات المهمة وبيذكّرك فيها، فبيسهل عليك العملية. ممكن تشوف هالتحسينات قريباً في تطبيقات المساعدة الذكية على الموبايل.
mobile GUI agent context-management long-horizon hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#16

نقشة الفكر الرسمي (Weave of Formal Thought)

Weave of Formal Thought
البحث بيقدّم محرك صرامي للتركيب النحوي للشفرة بيستند على مواصفات Tree-sitter، وبيستعمل محلل GLR مع آلية speculative-lexing لتأكد إن كل توكن فرعي بيكمل برنامج صحيح. كمان بيضيف طريقة fine‑tuning بالمتغيّر الكامن (latent‑variable) بتخلّي النموذج يدمج رموز القواعد غير الطرفية مباشرةً خلال التوليد، باستخدام خوارزمية RWS لتحسين IW‑ELBO. التجربة على Python مع StarCoder2‑3B أظهرت انخفاض 14.3% في cross‑entropy لكل توكن مقارنةً بالتدريب التقليدي.
لماذا تهم؟: هالطريقة بتخلّي نماذج الكود تنتج شيفرة صالحة نحويًا وتقلل الأخطاء اللي بتظهر بالمراحل الأولى من التطوير.
🌱 شو إلك منها؟
تخيل إنو برنامج كتابة الكود عندك صار عنده مدقق نحوي ذكي، ما بيسمحلك تكتب سطر غير صحيح ويصححه فورًا. هالشي بيقلل وقت البحث عن الأخطاء وبيخلي تجربة البرمجة أسهل وأسرع، خصوصًا إذا كنت تستخدم أدوات إكمال الكود أو IDEs. يعني رح تشوف كودك يشتغل من غير ما تحتاج تراجع كل سطر يدوياً.
LLM parsing code generation fine-tuning arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#17

MiniOpt: نموذج صغير لتفكير وحل مشاكل التحسين بموارد قليلة

MiniOpt: Reasoning to Model and Solve General Optimization Problems with Limited Resources
الفريق بقيادة Ke Zhao قدم MiniOpt، إطار تعلّم معزّز بيفكّر ويولّد نموذج للمعادلات وحلّها. بيقسّم عملية التفكير لخطوتين: أولاً يبني نموذج تحسين منظم، وبعدين يولّد كود محلّل ينفّذ الحل. كمان حطوا OptReward، دالة مكافأة بتقيس جودة النموذج والحل معاً، وبهالطريقة يتعلم النموذج بدون ما يحتاج شروحات خبراء. التجارب ورّيت إن MiniOpt-3B يقدر يحلّ مشاكل تحسين مختلفة بدقّة عالية حتى مع عدد بارامترات أقل من 10 مليار.
لماذا تهم؟: هالورقة بتخلّي النماذج الصغيرة تقدر تحلّ مشاكل تحسين معقّدة بموارد حوسبة قليلة، يعني بنقدر نستخدمها ببيئات واقعية ما فيها قدرة حسابية كبيرة.
🌱 شو إلك منها؟
تخيل عندك تطبيق بيساعدك ترتّب جدولك اليومي أو يختار أسرع طريق لتوصيل طلباتك، وبيشتغل بسرعة على جوالك من غير ما يستهلك طاقة كثير. MiniOpt هو التقنية اللي ورا هالنوع من المساعدات، لأنه يقدر يحوّل الوصف البسيط للمشكلة إلى حل رياضي ويعطيك النتيجة فوراً. ممكن تشوفه قريباً ببرامج التخطيط أو التطبيقات اللي تحتاج قرارات سريعة ومثالية.
optimization reinforcement learning language models miniLLM arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#18

MobileForge: تكيّف بدون تعليقات لوكلاء واجهة الموبايل

MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization
الفريق قدم MobileForge، نظام بيتكيّف مع تطبيقات الموبايل من غير ما يحتاج أي تعليقات يدوية. النظام بيشتغل على MobileGym لتوليد مهام حقيقية وتقييمها، وبعدين بيستعمل HiFPO لتحديث السياسات بناءً على ملاحظات خطوة بخطوة وتلميحات تصحيحية. باستخدام بيانات توليد تلقائي، MobileForge عدّل نموذج Qwen3-VL-8B ووصل لـ 67.2% Pass@3 على AndroidWorld، وهو قريب من أداء النموذج المتخصص GUI‑Owl-1.5-8B اللي عنده 69.0%
لماذا تهم؟: هالطريقة بتخلّي تدريب وكلاء الموبايل أسرع وأرخص، لأن ما في داعي لتجميع تعليقات يدوية
🌱 شو إلك منها؟
تخيّل إنو تطبيقاتك على الموبايل تقدر تتعلم كيف تستعملها بدون ما حد يشرحلك كل خطوة. هالشي بيخلي التطبيقات تتصرف بذكاء وتساعدك بأداء مهام بسرعة، متل فتح التطبيقات أو ضبط الإعدادات، وبتشوفه في مساعدات صوتية أو تطبيقات ذكية
mobile GUI adaptation agents reinforcement-learning hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#19

انهيار الـ Multi-Step Tool-Use RL وكيف الإشارات الإشرافية بترجعها

Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It
الفريق اللي بيقود البحث، Yupu Hao وزملاؤه، جربوا RL مع LLMs لتشغيل أدوات متعددة الخطوات ولاحظوا إنّ بعض النماذج بتنهار فجأة لأنّ توكنات التحكم بتقفز بشكل غير متوقع. بعد ما فحصوا المشكلة، اكتشفوا إنّ القدرة على استخدام الأدوات لسا موجودة بس الشكل بيتعطل. جربوا إشارات إشرافية مختلفة، مثل الإشراف خارج السياسة وإرشادات تلميحية، وخلطوا التدريب المشرف مع RL. النتيجة إنّ الدمج بين SFT وRL بي stabilizes التدريب، رغم إنّ الأداء بيتدهور شوي إذا واجهنا صيغ أو محتوى غير متوقع.
لماذا تهم؟: هالنتيجة بتخلينا نقدر ندرب نماذج LLM تشتغل بأمان مع أدوات معقّدة بدون ما يطيح الأداء فجأة.
🌱 شو إلك منها؟
تخيل إنك عم تحكي مع برنامج ذكي يقدر يفتح لك تطبيقات أو يجمع معلومات من الإنترنت خطوة بخطوة، بس أحيانًا يوقف فجأة. هالبحث بيقترح طريقة تخلي البرنامج يظل ثابت ويكمل شغله حتى لو تغيرت الأوامر. يعني رح تشوف تطبيقات أذكى، مثل المساعدات الشخصية اللي ما بتتوقف فجأة.
RL tool-use supervision LLM fine-tuning arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#20

ثغرات الخصوصية في طبقات الـAttention بنماذج الأساس للجدول وحماية الاستعلامات عالية الخطورة

Privacy Vulnerabilities of Attention Layers in Tabular Foundation Models and Protection of High-Risk Queries
الفريق Carvalho وزملاؤه بيّنوا إنو طبقات الـAttention بنماذج الأساس للجدول ممكن تكشف معلومات حساسة عن سجلات التدريب. هني طوّروا هجوم اسمه AMIA بيستغل تركيز نمط الـattention بدون ما يحتاجوا نماذج ظل، وبيظهر إنو الإشارات بالـattention أقوى من هجمات الثقة التقليدية بنسبة زيادة 7.7٪. كمان اقترحوا دفاع وقت الاستنتاج مبني على مبدأ الـk‑anonymity بيقلل فريدة تمثيلات المفتاح السياقي، وبيخفض تسريب العضوية بنص المتوسط مع خسارة أداء قليلة 3.9٪.
لماذا تهم؟: هالطريقة بتخلينا نقدر نحمي بيانات المستخدمين من إنكشاف غير مقصود وقت استخدام نماذج الذكاء الاصطناعي.
🌱 شو إلك منها؟
تخيل إنو تطبيق بيعطيك توقعات على بياناتك الشخصية، وإذا قدر يكتشف إذا إنت كنت جزء من بيانات التدريب، ممكن يفضح معلوماتك. هالهجمات ممكن تصير مع أي خدمة AI بتستخدم أمثلة من المستخدمين لتتوقع. الدفاع الجديد بيشتغل كأنه يخلّي مجموعة البيانات أكبر بحيث ما يطلع أي إشي واضح، فبضلّك بأمان.
privacy attention membership inference tabular models defense arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
📘 مصطلحات هذا العدد 14
💡 مفاهيم 9
memory representation
retrieval
يعني البحث وإرجاع المعلومات المناسبة من كم كبير من البيانات بسرعة ودقة. احنا بنسمع عنها دايماً عشان هي الأساس بتاع محركات البحث وأنظمة الذكاء الاصطناعي اللي بتحتاج معلومات صحيحة.
reinforcement fine-tuning
On-Policy Distillation
contrastive evidence gating
multimodal large language models
reinforcement learning
تعليم الذكاء الاصطناعي من خلال نظام الحوافز والعقوبات، زي لما تعلمي طفل بالمكافأة والعقاب عشان يتعلم السلوك الصحيح. بنستخدمه عشان الآلة تتعلم تاخذ قرارات ذكية بنفسها من غير ما نحطّ كل إجابة جاهزة.
RLHF
RAG
اختصار Retrieval-Augmented Generation، يعني احنا بنجيب معلومات من قواعد بيانات خارجية ونخليها تساعد النموذج إنه يجاوب على أسئلتك بشكل أدق. بنسمع عنه عشان بيحسّن إجابات الذكاء الاصطناعي ويقلل الأخطاء.
🤖 موديلز 3
LLM
نموذج لغة ضخم بتعلم على مليارات الكلمات وبعدين بيقدر يتنبأ ويكتب نصوص زي ChatGPT و Claude. بدنا نعرف عنه عشان دخل كل حاجة بحياتنا من البحث للكتابة للبرمجة.
MLLM
نموذج ذكاء اصطناعي بيقدر يفهم ويتعامل مع أنواع بيانات مختلفة في نفس الوقت (صور، نص، صوت)، احنا بنسمع عنه كتير لأنه بيقدر يحل مسائل معقدة بكفاءة أعلى.
ShutterMuse
📏 مقاييس 1
benchmark
يعني مجموعة معايير واختبارات بننسخدمها عشان نشيك كيف أداء النموذج تاعنا، شو مستواه الفعلي. بنسمع عنها كتير عشان هي إشي أساسي لمعرفة إذا النموذج بتاعك تمام أم لا.
🗂️ بيانات 1
CaptureGuide-Bench
كل المصطلحات ←
📚 كل الأعداد