📡 أحدث عدد

شو في AI؟ | 22 يونيو

يومي 📅 2026-06-22
مرحبا 👋 عدد اليوم من نشرة سلام ثابت للذكاء الاصطناعي — بتاريخ 22 يونيو 2026 — بيضم عشرين ورقة بحثية بتغطّي طيفاً واسعاً: من ضغط tokens في تحرير الصور، لتقييم سلامة التعلّم بالتعزيز، لكشف الهلوسة في الأنظمة القانونية. احنا هلقيت بنقدّملك الأبرز بشكل مختصر وواضح.
#1

Taylor-Calibrate: تهيئة ذكية لتحويل نماذج الـ Transformer إلى هجينة أسرع

Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation
فريق Zhou وزملاؤه جاء بفكرة حلوة: بدل ما تبني نموذج هجين من الصفر، ليش ما تحوّل نموذج Transformer موجود وجاهز؟ المشكلة إنه التحويل البسيط كان كسير — لما تنقل طبقات الـ attention من المعلّم (teacher) لنموذج Gated DeltaNet (GDN) مباشرة، النموذج بيبدأ في حالة ديناميكية سيئة وبيحتاج وقت كتير عشان «يصحّح» نفسه. Taylor-Calibrate بيحل هالمشكلة بطريقة خفيفة: يستخدم إحصاءات الـ teacher مع تقريب Taylor عشان يضبط بدقّة معاملات الـ GDN (قيم الـ projection، ومقاييس الذاكرة، والـ gates)، ثم يطبّق خطوة محاذاة قصيرة لكل طبقة. النتيجة؟ تحسّن يوصل لـ 88x في بعض الحالات، والوصول لنفس جودة التحويل بـ 4.9x إلى 9.2x رموز تدريب أقل من التحويل الساذج. الورقة preprint على arXiv وانتشرت في Hugging Face Daily Papers.
لماذا تهم؟: التحويل من Transformer لنماذج هجينة أسرع كان مكلّف ومش موثوق — هالطريقة بتخلّيه عملي وموفّر للموارد، وهالإشي مهم جداً لأي فريق بدّه يبني نماذج سريعة على contexts طويلة بدون ما يبدأ من الصفر.
🌱 شو إلك منها؟
تخيّل إنه عندك مدرّب رياضي محترف ومجرّب، وبدك تعلّم مدرّب جديد أسلوبه — مش بس تقوله 'قلّد حركاته' لأنه هالإشي مش كافي، لازم تفهم ليش بيتحرّك هيك وتعلّمه الأساس. هيك بالضبط Taylor-Calibrate بيشتغل مع الذكاء الاصطناعي: بدل ما يقلّد النموذج القديم بشكل أعمى، بيفهم «منطقه» ويورّثه للنموذج الجديد بشكل صح. النتيجة العملية إنه النماذج اللي بتستخدمها في تطبيقات الدردشة والترجمة ممكن تصبح أسرع وأقل استهلاكاً للذاكرة، بدون ما تخسر من جودة إجاباتها.
hybrid attention knowledge distillation linear attention Transformer conversion efficient inference hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#2

التفكير بدليل بصري: لمّا النموذج يُريك وين بيطلع استنتاجه

Thinking with Visual Grounding
الفكرة المحورية هون إنو نماذج الرؤية واللغة (VLMs) لمّا بتفكّر، بتحكي كلام منطقي بس ما بيّنوا إيش المنطقة بالصورة اللي بانت عليها هالنتيجة — هيك بيصعب تتحقّق منها أو تدرّبها صح. فريق Zhang وزملاؤه قدّموا إشي اسمو "visually grounded thinking"، يعني كل خطوة بالتفكير بتجي معها إشارة صريحة على المنطقة أو الصندوق بالصورة اللي استند عليها النموذج. عشان يتدرّب النموذج هيك، بنوا pipeline تلقائي بيستخرج مسارات التفكير الصح وبيربطها بمناطق الصورة باستخدام agent مبني على SAM3، وكمان طوّروا تعلمًا معزّزًا (reinforcement learning) بيحاسب النموذج مش بس على صحة الإجابة، لكن كمان على مدى دقة إشاراته البصرية. النتيجة؟ نموذج Gemma3-4B-IT بهالطريقة بيتفوّق على Gemma3-27B-IT بمهام التفكير المكاني — وهاد إنجاز كبير.
لماذا تهم؟: هاد البحث بيخلّي تفكير الـ VLMs أكثر شفافية وقابلية للتحقق، وبيحسّن أداءها على مهام العدّ والتفكير المكاني بشكل ملموس — ومهم كتير للتطبيقات اللي بتحتاج ثقة بنتائج النموذج.
🌱 شو إلك منها؟
تخيّل إنك بتسأل برنامج ذكي عن صورة «كم طفل في هالصورة وين قاعدين؟» — الأنظمة القديمة بتجاوب بس ما بتفرجك على أساس جوابها. هالبحث بيخلّي البرنامج يشير بالضبط على كل طفل بالصورة وهو بيفكّر، زي ما المعلم بيحطّ إشارات على السبّورة وهو بيشرح. يعني مستقبلًا، لو استخدمت تطبيق بيحلّل صور أو بيساعدك تفهم محتوى بصري، ممكن يفرجك كيف وصل لجوابه خطوة بخطوة وين بالصورة.
visual grounding visual reasoning VLM reinforcement learning spatial reasoning hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#3

MaineCoon: نحو نموذج عالمي اجتماعي يولّد صوتاً وصورة في الوقت الفعلي

MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model
فريق Bai وزملاؤه قدّموا MaineCoon، وهو نموذج autoregressive ضخم بـ 22 مليار معامل، مصمّم خصيصاً لمحاكاة «العوالم الاجتماعية» — يعني المحتوى التفاعلي اللي بنشوفه يومياً على منصات التواصل الاجتماعي. الجديد هون إنه أوّل نموذج يولّد صوت وصورة معاً بشكل متزامن (audio-visual) بسرعة تلاقي 47.5 FPS على GPU واحد بس، مع latency أقل من ثانية. البحث ظهر كـ preprint على arXiv وانتشر ضمن Hugging Face Daily Papers. النموذج بيستخدم جملة من التقنيات الجديدة زي self-resampling وcross-modal representation alignment وشي اسمه ROPD عشان يستقر التدريب ويتسرّع الاستنتاج، وفيه كمان framework للـ streaming يدعم توليد لمئات الثواني بلا انجراف في الجودة.
لماذا تهم؟: معظم الأبحاث السابقة حاكت بيئات فيزيائية أو ألعاب — بس MaineCoon بيقول: العالم الاجتماعي الرقمي (ريلز، فيديوهات تفاعلية، بث مباشر) هو التحدي الجاي، وهاد أوّل نموذج بيتعامل معه بجدية بأداء real-time فعلي.
🌱 شو إلك منها؟
تخيّل تطبيق مكالمات أو بث مباشر فيه ذكاء اصطناعي بيخلق شخصية افتراضية تحكي معك وترد عليك بصوت ووجه طبيعيين — وكل هاد بيصير بدون تأخير محسوس. هيك بالضبط شو بيحاول هالبحث يعمل، مثل ما المساعد الصوتي في هاتفك صار يرد بسرعة، الجيل الجاي ممكن يكون بيرد بفيديو حي كمان. ممكن تلمس هاد في المستقبل في تطبيقات المحادثة أو منصات الترفيه التفاعلية اللي بتستخدمها كل يوم.
audio-visual generation real-time world model social media autoregressive hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#4

HiLo-Token: ضغط ذكي للـ tokens عشان تحرير الصور يصير أسرع

HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing
فريق Haoran You وزملاؤه من Adobe قدّموا إطار HiLo-Token لتسريع نماذج Diffusion Transformers (DiTs) في مهام تحرير الصور. الفكرة الأساسية إنهم ما بيعاملوا كل أجزاء الصورة بنفس الطريقة — المناطق اللي المستخدم بدّه يعدّل عليها بتاخد أكثر tokens، والمناطق الخارجها بنقسمها: مناطق عالية التردد (تفاصيل ودقة) بتاخد tokens مختارة بذكاء، والمناطق المنخفضة التردد (خلفية عامة) بتتمثّل بصورة مضغوطة صغيرة. النتيجة؟ تسريع وصل لـ 3.13x في المناطق الصغيرة اللي بدنا نعدّلها، من غير أي تراجع في جودة التوليد، وهاد على بيانات تقييم من بيئة إنتاج حقيقية. الورقة preprint على arXiv وانتشرت عبر Hugging Face Daily Papers.
لماذا تهم؟: أدوات زي Generative Fill في Photoshop بتعاني من بطء واضح بسبب حجم الـ DiT — هالشغلة بتحلّ المشكلة من غير ما تخسري الجودة، يعني تحرير الصور الذكي ممكن يصير أسرع بكتير على نفس الجهاز.
🌱 شو إلك منها؟
تخيّلي إنك بدك تمسحي شخص من صورة باستخدام برنامج تعديل الصور، وبتنتظري ثواني طويلة كل مرة — هاد البحث بيخلّي الذكاء الاصطناعي يشتغل بشكل أذكى، يركّز جهده بس على الجزء اللي إنتِ عم تعدّلي عليه وما يضيّع وقته على باقي الصورة. الفكرة مثل طباخ شاطر بيحكيلك «أنا مش بكوي كل الأكل، بكوي بس الجزء اللي بتاكله هلقيت» — بيوفّر وقت وطاقة. هالتحسين ممكن تلمسيه بشكل مباشر في تطبيقات زي Photoshop وLightroom اللي بتستخدمها كتير ناس يوميًا.
token compression image editing diffusion transformers efficiency generative AI hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#5

HEPTv2: transformer كامل من الطرف للطرف لتتبّع الجسيمات المشحونة

HEPTv2: End-to-End Efficient Point Transformer for Charged Particle Reconstruction
الباحثون — فريق Miao وزملاؤه من جامعات ومراكز بحثية في فيزياء الجسيمات وتعلّم الآلة — قدّموا HEPTv2، وهو معمارية point transformer متكاملة تبني مسارات الجسيمات المشحونة مباشرةً من قياسات الكاشف بدون ما تحتاج خطوات بناء رسم بياني أو clustering أو تصفية منفصلة. السرّ في دمج encoder يعتمد على locality-sensitive hashing للحفاظ على الهندسة الفيزيائية مع attention محلي كفوء، مع decoder ذكي يحلّ التعقيدات التركيبية عبر sectorized decoding. على الـ benchmark الشهير TrackML، وصل النموذج لكفاءة تتبّع 98.6% بمعدل خطأ 0.8%، وبوقت استنتاج ~15 ميلي ثانية بس! هالنتيجة بتحسّن على أقوى transformer سابق بـ 4.5% كفاءة مع تقليل وقت الاستجابة بعامل 7، وعلى أفضل أنابيب graph-based بفارق 1.1–2.2% مع تقليل الوقت بعامل 38–52. الورقة ظهرت كـ preprint على arXiv.
لماذا تهم؟: تتبّع الجسيمات في HL-LHC هو من أصعب مسائل الاستنتاج في الفيزياء الحديثة، وHEPTv2 بيثبت إنه ممكن نحلّها بـ transformer كامل التدريب بكفاءة عالية وسرعة مناسبة للوقت الفعلي — وهاد بيفتح باب لأساليب مشابهة في تطبيقات تانية بتحتاج تتبّع شيء ما وسط ضجيج هائل من البيانات.
🌱 شو إلك منها؟
تخيّل إنك بتحاول تتبّع مسار كل كرة بلي واحدة وسط آلاف الكرات بتتحرك بنفس اللحظة — هاد تقريبًا شو العلماء بيعملوه لمّا بيحاولوا يفهموا شو صار داخل المسرّع الجسيمي. الذكاء الاصطناعي الجديد هاد بيساعد الأجهزة العلمية تتعرّف على مسار كل جسيم مشحون بدقّة عالية وبسرعة خيالية، بحيث ما تضيع أي معلومة قيّمة. هالنوع من الأبحاث بيمشّي العلم اللي بيقف وراء اكتشافات كبيرة مثل اكتشاف جسيمات جديدة.
particle-tracking point-transformer high-energy-physics end-to-end HL-LHC arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#6

CRAX: benchmark سريع لتعلّم التعزيز الآمن

CRAX: Fast Safe Reinforcement Learning Benchmarking
واحدة من أكبر مشاكل تدريب الـ agents في بيئات ثلاثية الأبعاد واقعية إنها بتاخد وقت كتير — وهاد بيعيق التجارب الكبيرة. فريق Tomilin وزملاؤه جاءوا بـ CRAX، وهو benchmark مبني فوق محرك فيزياء MuJoCo XLA بيستغل تسريع الـ hardware والعمليات المتوازية، وبيوصل لـ ~100x أسرع من الـ benchmarks الـ CPU-based المشابهة. CRAX بيشمل ستة بيئات وثلاث مهام مخصّصة للـ agents، وكل وحدة بثلاث مستويات صعوبة. والنتائج بيّنت إنه ما في طريقة safe RL واحدة بتكسب على كل المهام، وإن الـ curriculum learning والـ safety transfer بيساعدوا كتير بالبيئات الصعبة.
لماذا تهم؟: لو بدنا نطوّر robots أو سيارات ذاتية القيادة بشكل آمن، بنحتاج نجرّب كتير وبسرعة — وCRAX بيحل مشكلة البطء اللي كانت عايقة هالأبحاث.
🌱 شو إلك منها؟
تخيّل إنك بدك تدرّب روبوت يتعلّم يمشي من غير ما يقع أو يأذي حدا — هالتدريب عادةً بياخد أيام. هالبحث عمل إشي كأنك بدّلت دراجة هوائية بسيارة سباق: نفس الطريق بس أسرع بمئة مرة. هيك الباحثين اللي بيشتغلوا على أمان الـ robots والسيارات الذكية رح يقدروا يجرّبوا أفكارهم بوقت أقل كتير.
safe RL benchmark JAX MuJoCo robotics arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#7

LedgerAgent: كيف تخلّي الـ agents تتذكّر السياق وتلتزم بالسياسات؟

LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
فريق Uddin وزملاؤه من جامعة أريزونا ستيت جابوا فكرة حلوة لمشكلة بتعاني منها agents خدمة العملاء: لما الـ agent بدّه ياخد قرار، بيضطر كل مرة يرجع يقرأ كل المحادثة من أوّلها عشان يفهم السياق — وهيك بيوقع بأخطاء كأنه ينسى معلومة مهمة أو ينفّذ أمر خالف فيه سياسة الشركة. الحل هو LedgerAgent، وهو طريقة inference-time بتحتفظ بـ 'ledger' — يعني سجلّ منفصل — فيه كل الحقائق والشروط والقيود الحالية، وقبل ما أي tool call يغيّر إشي في البيئة بتراجع هاد السجل تلقائيًا عشان تمنع أي خرق للسياسة. جرّبوها على أربع مجالات لخدمة العملاء مع نماذج مفتوحة ومغلقة، ولاحظوا تحسّن واضح في مقياس pass@k خصوصًا في metrics التناسق الصارمة.
لماذا تهم؟: هاي الورقة بتفرق عملياً لأنها بتحلّ واحدة من أكبر مشاكل الـ agents في بيئات العمل الحقيقية — الالتزام بالسياسات وعدم تكرار أخطاء السياق — وهالإشي ضروري قبل ما نثق بأي agent يشتغل بشكل مستقل بالأنظمة الحساسة.
🌱 شو إلك منها؟
تخيّل إنك بتتصل بخدمة العملاء وبتحكيلهم قصتك من أوّلها، والموظف كل شوي بينسى إشي قلته وبيطلب منك تكرّر — هيك بالضبط بتصير الأخطاء مع الذكاء الاصطناعي. هاد البحث بيعلّم الذكاء الاصطناعي يكتب 'ملاحظات' بنفسه وهو يحكي معك عشان ما ينسى إشي ولا يعمل حركة ممنوعة. لو استخدمت تطبيقات بنك أو شركة اتصالات فيها مساعد ذكي، هاد البحث ممكن يخلّي هاد المساعد أكثر موثوقية ومحافظًا على حقوقك.
tool-calling agents policy-compliance customer-service state-management hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#8

Reflective Masking: تعليم نماذج الانتشار كيف تفكّر وتراجع نفسها

Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models
الباحثون من فريق Zhang وزملاؤه جابوا فكرة لطيفة جداً: النماذج الانتشارية للنصوص (Mask Diffusion Models أو MDMs) عندها ميزة طبيعية ما بتستخدموها أحد — وهي إنها تقدر تعدّل على أجزاء محددة من الإجابة بدل ما تمسح كل إشي وتبدأ من الصفر. فاحنا عادةً شايفين هيك سلوك في النماذج autoregressive مع chain-of-thought، بس هناك كل إشي تسلسلي وثقيل. الفريق اقترح طريقة اسمها Reflective Masking (RM)، بتعلّم النموذج يراجع إجاباته السابقة ويعدّل عليها دورة بعد دورة (multi-turn)، وبدون ما يغيّر هيكل النموذج أصلاً — بس post-training خفيف. وعشان ما يضيع السياق من الجولات السابقة، أضافوا آلية اسمها History Reference بتستخدم حالات الـ denoising الوسيطة كمرجع. النتايج أحسن من baselines على مهام متنوعة: توليد نصوص، Sudoku، وتعديل صور.
لماذا تهم؟: هالبحث بيفتح باب لاستخدام MDMs كنماذج تفكير حقيقية وليس بس نماذج توليد — وهيك بيصير عندنا بديل واعد لنماذج autoregressive في مهام اللي بتحتاج تفكير تكراري ومراجعة ذاتية.
🌱 شو إلك منها؟
تخيّل إنك بتكتب موضوع وبدل ما تمسحه كله لما تغلط، بتصحّح بس الجملة الغلطانة — هيك بالضبط بتشتغل هالفكرة. الذكاء الاصطناعي هلقيت يقدر يراجع إجابته خطوة خطوة ويعدّل بس على الجزء المغلوط. هالإشي ممكن يحسّن أدوات مثل المساعدين الذكيين ومحرّرات الصور لما بتطلب منهم تعديل بسيط — بدل ما يعيدوا كل إشي من أوّله.
diffusion models reasoning mask diffusion reflective masking test-time scaling hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#9

UNIEGO: تعلّم تمثيل شامل لفيديو الكاميرات المحمولة عبر وسطاء ذكيين

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning
فريق Chi وزملاؤه قدّموا UNIEGO، إطار عمل بيحاول يحلّ مشكلة قديمة: كاميرات الجسم (egocentric) بترشد من منظور ضيّق — زاوية واحدة، صورة واحدة، كتير من التفاصيل ضايعة. الحلّ؟ تدريب موديل واحد يستوعب معرفة تسعة مُعلِّمين مختلفين (teachers) بيغطّوا زوايا نظر متعددة، وأنواع بيانات مختلفة زي RGB والعمق والهيكل العظمي، وأربعة foundation models. بس المشكلة إنّ هالمعلّمين الكتار بيعطوا إشارات متضاربة، فالحلّ الذكي هون إنّهم أضافوا طبقة من نماذج وسيطة اسمها Proxy models تترجم معرفة كل مُعلِّم لنفس الفضاء، وبعدين Selective Proxy Distillation (SPD) بيختار من كل وسيط بس الإشارات الصح والواثقة. الورقة ظهرت preprint على arXiv ضمن مجال الرؤية الحاسوبية والتعلّم الآلي.
لماذا تهم؟: هاد البحث بيفرق لأنّه بيخلّي كاميرات الجسم الصغيرة تفهم الحركات البشرية بشكل أعمق بكتير — من غير ما تحتاج كاميرات إضافية وقت الاستخدام — وهيك بيفتح الباب لتطبيقات أقوى في الواقع المعزّز والمساعدة الذكية.
🌱 شو إلك منها؟
تخيّل إنّك شايل كاميرا صغيرة على صدرك وهي بتحاول تفهم إيش بتعمل — بس لأنّها بتشوف بس من زاويتك، كتير من التفاصيل ضايعة عليها. هالبحث زيّ ما تحضّر الكاميرا عند عشرة خبراء بيعلّموها من زوايا وطرق مختلفة، وبعدين هي توحّد كل هالمعرفة في دماغ واحد ذكي. الفايدة العملية: نظّارات الواقع المعزّز ومساعدات التدريب الرياضي والأجهزة الطبية اللي بتراقب تحركات المريض — كلّها ممكن تستفيد وتصير أكثر دقّة.
egocentric video knowledge distillation multi-teacher learning action recognition video understanding arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#10

تطوير الـ agents الذاتي بتراكم الأدلة عبر الـ batches: إطار MAA

Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution
فريق Yang وزملاؤه يطرحون مشكلة حقيقية بتواجهها agents الذاكرة: لما بتتدرّب بأسلوب batch-style trace distillation، نفس العملية ممكن تاخذ feedback متضارب من batch لـ batch — يعني مرة تقول «هاد شغّال» ومرة تقول «مش شغّال» — وما في آلية تميّز بين العمليات اللي شغّالة فعلاً والـ accidental hits. الحل اللي بقدموه هو إطار Marginal Advantage Accumulation (MAA)، واللي بيبني إشارات تفاضلية قابلة للمقارنة عبر الـ batches، وبتراكم الأدلة لكل عملية باستخدام EMA مع دمج للهويات الدلالية عشان يضمن التتبّع الكامل. الجميل إنه MAA ما هو نموذج جديد من الصفر — هو post-processing architecture بيتضاف فوق الأنظمة الموجودة، وحقّق أفضل نتائج في 14 من أصل 16 إعداد عبر 4 benchmarks و4 نماذج، مع تخفيض استهلاك الـ tokens بنسبة ~75% في مرحلة التحسين.
لماذا تهم؟: هالورقة بتحل مشكلة أساسية في تطوير الـ agents ذاتيًا: كيف تبني ذاكرة موثوقة لما الـ feedback متناقض — وهاد بيفتح الباب لـ agents أكثر استقرارًا وكفاءة بتكلفة حسابية أقل بكتير.
🌱 شو إلك منها؟
تخيّل إنك بتعلّم طالب مهارة جديدة، بس كل مرة بتجرّب تعطيه رأي مختلف — مرة «أحسنت» ومرة «هاد غلط» على نفس الإشي. هيك بيصير للبرامج الذكية لما بتتعلّم من تجاربها. هالبحث بيقترح طريقة تجمّع الأدلة بشكل أذكى عشان البرنامج يفرق بين إشي شغّال فعلاً وإشي نجح بالصدفة — وهاد ممكن يحسّن أداء المساعدين الذكيين اللي بتستخدموها بتطبيقاتك اليومية وبيخلّيها تتعلّم أسرع وبكلفة أقل.
memory agent trace distillation EMA self-evolution arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#11

UFP4: طريقة جديدة لتدريب LLMs بدقة 4-bit بتتجاوز مشكلة Shrinkage Bias

Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
الباحثون من فريق Zhao وزملاؤه بيشتغلوا على موضوع التدريب بدقة FP4 — يعني استخدام 4 بتات بس لتمثيل الأرقام عند تدريب النماذج الكبيرة، وهاد بيوفّر كتير من الذاكرة والحوسبة. المشكلة إنّهم اكتشفوا إن الصيغة الأكثر شيوعًا (E2M1) اللي بتعتمدها بطاقات NVIDIA Blackwell وAMD MI350 فيها خلل أصيل اسمه Shrinkage Bias — خطأ تقريب سلبي منهجي بسبب عدم انتظام الشبكة الهندسية للصيغة، وهاد الخطأ بيتراكم من طبقة لطبقة وبيتضخّم أكتر لمّا يُستخدم الـ Random Hadamard Transform. الحلّ اللي بيقترحوه هو UFP4 — وصفة تدريب بتستخدم شبكة موحّدة (E1M2/INT4) بدل E2M1، مع تطبيق RHT على الثلاث عمليات GEMM في التدريب وتقييد الـ stochastic rounding على dY بس. النتائج على نماذج Dense 1.5B وMoE 7.9B وMoE 124B بتبيّن إن UFP4 بتحقّق انحدارًا أقل في الـ loss مقارنةً بـ BF16 أفضل من الطرق الحالية.
لماذا تهم؟: هاي الورقة بتوضّح ليش طرق FP4 الحالية مش مستقرّة أثناء التدريب، وبتقدّم وصفة عملية بتصلح المشكلة من جذرها — وهاد مهم جدًا لأي فريق بدّه يدرّب نماذج ضخمة بتكاليف أقل.
🌱 شو إلك منها؟
تخيّل إنك بتحفظ معلومات بتاع طالب بس بدل ما تكتب كل إشي بالتفصيل بتختصر وتكتفي بأرقام تقريبية — هيك بيشتغل التدريب بدقة منخفضة. المشكلة إن الاختصار اللي كان مستخدَم كان دايمًا بيميل ناحية الغلط لدرجة إن النموذج ما بيتعلّم صح. الحلّ الجديد بيختصر بطريقة أعدل وأدقّ، يعني ممكن مستقبلًا تلاقي نماذج ذكاء اصطناعي أسرع وأرخص تشغيلًا في تطبيقاتك اليومية من غير ما تخسر في الجودة.
FP4 quantization LLM pretraining low-precision training INT4 arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#12

تعلّم Q-learning مقاوم للشكوك في نماذج التحكّم الجماعي

Robust $Q$-learning for mean-field control under Wasserstein uncertainty in common noise
فريق Laurière وزملاؤه قدّموا خوارزمية Q-learning قوية ومقاومة للشكوك، مصمّمة خصيصًا لمسائل التحكّم الجماعي (mean-field control) في الحالات اللي مش عارفين فيها بالضبط قانون الضوضاء المشتركة. الفكرة الذكية إنهم دمجوا تقنية تكميم الإشارة (quantization-and-projection) مع إعادة صياغة Wasserstein الثنائية عشان يتعاملوا مع حالة عدم اليقين. الباحثون أثبتوا رياضيًا تقارب الخوارزمية وحدود زمنية لكلا النمطين المتزامن وغير المتزامن، وجرّبوها على نماذج المخاطر النظامية والأوبئة. البحث انتشر كـ preprint على arXiv ضمن تصنيفات الـ AI والـ machine learning والرياضيات.
لماذا تهم؟: هاد البحث بفرق لأنه يخلّي خوارزميات التعلّم بالتعزيز أكثر موثوقية لمّا نكون مش متأكدين من النموذج الحقيقي للعالم — وهاد إشي كتير مهم في تطبيقات حقيقية زي إدارة الأوبئة أو المخاطر المالية على مستوى النظام كله.
🌱 شو إلك منها؟
تخيّل إنك بدك تاخذ قرار لمجموعة كبيرة من الناس، بس مش متأكد كيف سلوك الناس هيتأثر بأشياء خارج إيدك. هاي الأداة بتساعد الحاسوب يتعلّم أفضل قرار حتى لو في معلومات ناقصة أو غلط عن الواقع — زي ما الطبيب بيحسب الجرعة حتى لو مش عارف وزن المريض بالضبط. مستقبلًا ممكن تشوف هيك تقنيات في تطبيقات التخطيط الصحي أو أنظمة توزيع الموارد في الأزمات.
Q-learning mean-field control robust RL Wasserstein common noise arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#13

Bag of Dims: قراءة مباشرة لما بيفكّر فيه الـ transformer — بدون تدريب

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns
الباحث Nalagatla وزملاؤه جايين بفكرة بسيطة وجريئة: مش بدنا ندرّب أي إشي إضافي عشان نفهم شو بيحصل جوا الـ transformer. كل بُعد (dimension) من أبعاد الـ hidden states بيحمل معلومة دلالية، والإشارة (+ أو −) هي اللي بتحكيلك شو المفهوم الموجود، والحجم (magnitude) بيحكيلك كيف الموديل واثق من نفسه. الإطار المقترح اسمه "Bag of Dims"، وبيشتغل بمجرد إنك تعدّ الاتفاقيات بالإشارات بين التوكنات — بدون أي rotation أو optimization. الفريق اختبره على 7 موديلات: لغة زي Mistral وQwen وGemma، ورؤية زي DINOv2 وViT، وصوت زي AST — وبيقول إن نفس الظاهرة موجودة عند الكل، وهيك هي خاصّية عامة بالـ transformer training مش بس باللغة.
لماذا تهم؟: هالورقة بتفتح باب جديد لـ mechanistic interpretability — يعني نفهم ليش الموديل قرّر إشي معيّن — بدون ما نحتاج أيام على GPU أو نعيد التدريب، وهيك بتوفّر أداة تفسير سريعة وعملية لأي باحث.
🌱 شو إلك منها؟
تخيّلوا إنكم بدكم تعرفوا شو بيدور في بال شخص وهو بيحكي — عادةً لازم تستنى وتسأله كتير أسئلة. هاد البحث اكتشف إن دماغ الذكاء الاصطناعي عنده «مفاتيح» مخفية، كل مفتاح إما بيكون شغّال أو موقف، وبمجرد ما تشوف أي المفاتيح شغّالة بتعرف شو الفكرة اللي الذكاء الاصطناعي شايلها في باله. يعني مثلاً لو طلبت من تطبيق الذكاء الاصطناعي يكمّل جملة، هالطريقة بتخلّيك تشوف من وين جا الجواب وليش — وهاد الفهم ممكن يساعد المطوّرين يصلحوا الأخطاء ويحسّنوا التطبيقات اللي بتستخدموها يومياً زي أدوات الكتابة والترجمة.
mechanistic interpretability transformers probing feature extraction training-free hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#14

إعادة الإنسان لمركز تخصيص الـ LLMs: الفجوة بين البيانات الحقيقية والاصطناعية

Re-Centering Humans in LLM Personalization
كتير من أبحاث تخصيص النماذج اللغوية الكبيرة بتعتمد على بيانات اصطناعية — بس إيش اللي بيصير لما نجرّب مع بيانات بشر حقيقيين؟ هاد السؤال هو اللي شتغل عليه فريق Zhang وزملاؤه، وجمعوا مجموعة بيانات من 550 محادثة بشرية مع آلاف الأحكام البشرية على ثلاث مراحل: استخراج صفات المستخدم من المحادثة، تحديد الصفات الأنسب لطلب جديد، وتوليد ردود مخصّصة. النتيجة؟ النماذج بتعاني بكل المراحل الثلاث، والأهم: الـ LLMs بتحكم إن الردود المخصّصة أحسن بكتير مما يعتقده البشر الحقيقيين. الباحثين قدّموا كمان تدخّلين خفيفَيْن مبنيَّين على التدريب بيقرّبوا تقييم النماذج من حكم البشر في المرحلتين الأولى والثانية، بس في المرحلة الثالثة الارتباط مع الحكم البشري ظلّ ضعيف — مما بيدلّ إن موضوع التخصيص الحقيقي مش حُلّ لسّا.
لماذا تهم؟: هالورقة بتكشف إشي مهم جداً: إننا لمّا بنقيّم تخصيص النماذج بالبيانات الاصطناعية، مش بنشوف الصورة الحقيقية — والفجوة مع حكم البشر أكبر مما كنا نتوقع، وهاد بيأثر على كل أبحاث الـ personalization.
🌱 شو إلك منها؟
تخيّل إنك بتستخدم مساعد ذكي بيدّعي إنه بيعرفك وبيجاوبك على حسب اهتماماتك وأسلوبك — بس لمّا بشر حقيقيين جرّبوا هالنتائج، لقوا إن الردود «المخصّصة» مش أحسن كتير من الردود العادية. هيك كأنك طلبت من حدا يحضّرلك أكلتك المفضّلة وطلعت عادية متل أي أكل. وعشان كده، لو استخدمت تطبيقات بتقولك إنها بتتعلّم منك وبتتكيّف معك — زي المساعدات الذكية أو تطبيقات الكتابة — خليك تعرف إنهم لسّا ما وصلوا للمستوى اللي بيحسّسك فعلاً إنهم فاهمينك.
LLM personalization human evaluation synthetic data user attributes alignment hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#15

المكافأة كانت في بياناتك طول الوقت: تصحيح Flow Matching بـ RL مدعوم بـ Discriminator

The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL
فريق Beltran-Velez وزملاؤه من Meta لاحظوا إشي مهم: النماذج القائمة على score- و flow-matching بتعتمد كتير على reinforcement learning من تفضيلات البشر مش بس عشان تتوافق مع ذوق المستخدمين، بل حتى عشان تتعلم إشياء أساسية زي الواقعية البصرية والتماسك البنيوي — وهاد في الأصل المفروض تتعلمه من البيانات مباشرة! المشكلة الجوهرية هي إن خسارة الـ matching بتقيس regression error على velocity أو score fields، وهاد proxy رديء لجودة الصورة الفعلية. لحل هاد، قدّموا Discriminator-Guided RL أو اختصارًا DRL: النظام بيدرّب discriminator يفرق بين صور البيانات الحقيقية وصور النموذج، وبيستخدم الـ logit مكافأةً في KL-regularized RL — وهاد الـ logit ما هو إلا تقدير لنسبة log-likelihood بين التوزيعين، يعني المكافأة المثلى نظريًا. النتائج على backbones زي SiT وJiT وREPA وRAE كانت قوية كتير: FID على SiT انخفض من 9.38 لـ 2.62، والـ FD الدلالي على DINOv3 نزل من 88.2 لـ 19.3، وكل هاد بدون ما يحتاجوا تفضيلات بشرية.
لماذا تهم؟: هاد البحث بيكشف ثغرة أساسية في تدريب نماذج توليد الصور، ويثبت إنه ممكن نصلح جودة النموذج من بياناته هو بدون ما نضطر ندفع لبشر يقيّموا ملايين الصور — إشي بيوفّر وقت وكلفة كبيرين.
🌱 شو إلك منها؟
تخيّلي إنك بتعلّمي رسّامًا عن طريق ما تخبريه وين غلط بالضبط — بس بتقولي له «هاد مش زي رسومات المحترفين». هاد الذكاء الاصطناعي بيشتغل هيك: بيشوف الفرق بين صوره هو وصور حقيقية ويصلّح نفسه من تلقاء ذاته، بدون ما حدا يجلس ويحكم على كل صورة. النتيجة صور أوضح وأكثر واقعية وأقل إشكاليات زي الألوان المبالغ فيها — وهاد بتلمسيه في أي تطبيق توليد صور بتستخدميه.
flow-matching reinforcement-learning image-generation discriminator reward-modeling hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#16

LegalHalluLens: إطار ذكي لكشف هلوسة نماذج اللغة في العقود القانونية

LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI
فريق Yadav وزملاؤه قدّموا إطار عمل اسمه LegalHalluLens، مخصّص لتدقيق الأخطاء اللي بتقع فيها نماذج الذكاء الاصطناعي لمّا تشتغل على نصوص قانونية — وهاي الأخطاء بتُسمّى hallucination. الفكرة إنهم مش بس بيقولوا «الموديل غلط بنسبة 52%»، لأ، هيك رقم مجمّع ما بيفيد كتير؛ بدل هيك قسّموا الأخطاء لأربع فئات (أرقام، تواريخ، التزامات/حقوق، حقائق)، وطوّروا مقياس اسمه Risk Direction Index (RDI) يحدّد هل الموديل بيخترع معلومات ولّا بيحذفها. وعلى أساس هاد التشخيص، بنوا pipeline من نوع multi-agent debate يخلّي الوكلاء يتحدّوا بعض بطريقة موجّهة، وهيك خفّضوا نسبة الاختراعات الخاطئة بـ 45% — وكمان بموديل صغير نسبياً (4B parameters) يطابق أداء الـ APIs التجارية. البحث انتشر على Hugging Face Daily Papers وهو preprint على arXiv.
لماذا تهم؟: القانون ما بيسامح على الغموض — لو نظام ذكاء اصطناعي اخترع بند في عقد أو حذف التزام، الضرر قانوني وحقيقي؛ هاد الإطار بيعطي فِرَق الامتثال تشخيصاً دقيقاً وقابلاً للتصرّف بدل أرقام مجمّعة ما تنفع.
🌱 شو إلك منها؟
تخيّلي إنك بتوقّع عقداً مهماً، وفي برنامج ذكاء اصطناعي بيساعدك تفهمه — بس البرنامج أحياناً بيكذب: بيختلق تواريخ ما موجودة أو بيحذف شروط مهمة. هاد البحث بيبني طريقة تكتشف وين بالضبط البرنامج بيغلط — هل بيزيد إشي ما فيه، ولّا بيطيّح إشي مهم. اللي بنستفيد منه كمستخدمين إنه ممكن يصير في تطبيقات قانونية وخدمات مراجعة عقود أكثر مصداقية وأمان.
legal AI hallucination multi-agent debate contract analysis LLM auditing hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#17

WorldLines: benchmark جديد لاختبار الوكلاء الذكية في المنازل عبر فترات طويلة

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
الباحثون قدّموا WorldLines، وهو benchmark متخصص لتقييم الوكلاء المجسّدة (embodied agents) على مهام المساعدة المنزلية الطويلة الأمد. الفكرة إنو هالوكلاء مش بس لازم تنفّذ مهام قصيرة، بل تتذكّر عادات المستخدم، وحالة الأشياء والأجهزة، والتفاعلات السابقة — كتير أقرب للواقع. الـ benchmark بيبني سيناريوهات منزلية ممتدة زمنيًا فيها حوارات وأفعال وتغييرات على البيئة، وبِحوّلها لمهمتين: Memory QA وEmbodied Task Planning. وعلى جانب النماذج، قدّموا ObsMem، إطار عمل بيحافظ على ذاكرة تراعي ما شافته الوكيلة فعلًا، وتتبّع حالة البيئة بشكل مستمر عشان تاخذ قرارات أذكى.
لماذا تهم؟: معظم الـ benchmarks الحالية بتختبر الذاكرة بالنصوص فقط أو بمهام قصيرة — هاد البحث بيملأ فجوة حقيقية عشان نختبر وكلاء قادرة تشتغل بشكل حقيقي في بيوتنا على المدى الطويل.
🌱 شو إلك منها؟
تخيّل عندك مساعد ذكي في البيت — مش بس يسمع أوامرك هلقيت، بل يتذكّر إنك بتحبّ قهوة الصبح بدون سكر، وإنك فتحت الشباك الأسبوع الماضي لمّا اشتكيت من الحرارة. هاد البحث بيحاول يعلّم المساعدات الذكية كيف يتذكّروا كل هاد على مدى وقت طويل، مش بس اللحظة الحالية. لو نجح هيك تطوير، ممكن يوم من الأيام يكون في مساعد بيتي أو تطبيق ذكي يفهم روتينك اليومي ويساعدك بشكل شخصي حقيقي.
embodied agents long-horizon memory benchmark household assistance hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#18

Selective Synergistic Learning: تعلّم أذكى لتحليل الفيديو لكائنات منفصلة

Selective Synergistic Learning for Video Object-Centric Learning
فريق Moon وزملاؤه قدّموا طريقة جديدة اسمها SSync لتحسين مجال video object-centric learning — يعني تعليم النماذج إنها تفصل الكائنات المختلفة في الفيديو تلقائيًا من غير تعليم مسبق. المشكلة اللي كانت موجودة: الطرق الحالية بتحاول تُوازن بين خريطتين مختلفتين (attention maps من الـ encoder وobject maps من الـ decoder) بمحاذاة كاملة لكل النقاط، وهاد الإشي بينشر الأخطاء بدل ما يحلّها، وفوق هيك تكلفته الحسابية ترتفع بشكل تربيعي مع حجم الفيديو. SSync بتحلّ هاد بطريقة انتقائية ذكية: بتاخذ من كل module بس أقوى نقاطه — الـ encoder لتحسين الحدود، والـ decoder لتنظيف الداخل — وبتستخدم pseudo-labeling بتعقيد خطي بدل التربيعي. البحث انتشر كـ preprint على arXiv وظهر ضمن Hugging Face Daily Papers.
لماذا تهم؟: هاي الطريقة بتخلّي تحليل الكائنات في الفيديو أسرع وأدق وأقل تكلفة حسابية، وممكن تُضاف كـ plug-and-play module على أي نموذج موجود — إشي كتير مهم لأي تطبيق بيتعامل مع فيديو من غير بيانات معلّمة.
🌱 شو إلك منها؟
تخيّل إنك بتشوف مقطع فيديو فيه أشخاص وسيارات وحيوانات — هاد البحث بيعلّم الحاسوب يفصل كل شيء عن التاني من غير ما حدا يقوله 'هاد إنسان وهاداك سيارة'. زيّ ما شخص ذكي بياخذ من كل واحد أحسن ما عنده بدل ما يقلّد كل إشي — هيك بتشتغل الطريقة الجديدة بدقة أعلى وأسرع. ممكن تلاقوا هاد الإشي مستقبلًا في تطبيقات تحرير الفيديو أو كاميرات الأمان اللي بتتعرّف على الحركة تلقائيًا.
video understanding object-centric learning slot attention self-supervised learning video segmentation hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#19

بدل الأمثلة الطويلة: استخلاص تعليمات ذكية لـ In-Context Learning في محادثات B2B

Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations
فريق Rotman وزملاؤه اشتغلوا على مشكلة حقيقية بتواجه الشركات: كيف تصنّف نماذج اللغة محادثات المبيعات المعقّدة بين الأطراف المتعددة، لما الـ in-context learning التقليدي بيصطدم بحدود طول السياق. الفكرة الجديدة إنهم ما حطّوا أمثلة كتيرة في الـ prompt، بل استخلصوا منها معايير تصنيف منظّمة وتعليمات دقيقة — يعني بدل ما تحشر عشر محادثات كاملة، بتحط ملخّص ذكي للمنطق اللي وراها. قدّموا كمان dataset جديد اسمه Call Playbook بخمس مهام تصنيف مأخوذة من محادثات B2B حقيقية، وحققوا تخفيض 99% في استهلاك الـ tokens مع تحسّن يوصل لـ 7% في الـ macro-averaged AUC. الورقة preprint على arXiv وانتشرت على Hugging Face Daily Papers.
لماذا تهم؟: هاد النهج بيفتح الباب لنماذج اللغة تشتغل بكفاءة عالية في بيئات الأعمال الحقيقية — بتكاليف أقل بكتير، وبشفافية تخلّي الفرق التقنية تفهم وتعدّل منطق التصنيف بسهولة.
🌱 شو إلك منها؟
تخيّل إن عندك موظف بدّك تعلّمه كيف يقيّم مكالمات المبيعات — بدل ما تورّيه مئة مكالمة كاملة، بتكتبله ورقة فيها المعايير المهمة بشكل واضح ومرتّب. هيك بالضبط اشتغل البحث — خلّى الذكاء الاصطناعي يفهم من تعليمات مركّزة بدل أمثلة طويلة. يعني الشركات اللي بتستخدم أدوات ذكاء اصطناعي لتحليل مكالمات خدمة العملاء أو المبيعات ممكن توفّر كتير بالتكلفة وتحصّل نتائج أحسن بنفس الوقت.
in-context learning B2B conversations text classification prompt compression NLP hf اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
#20

تعلّم السياق متعدّد المهام لاستدلال Bayesian أسرع وأذكى

Multi-Task Bayesian In-Context Learning
فريق Zhu وزملاؤه من NYU قدّموا إطار عمل جديد بيجمع بين الاستدلال Bayesian التسلسلي والـ in-context learning بطريقة ذكية: بدل ما تعيد حساب كل إشي من الصفر لكل مسألة جديدة، بتعلّم الموديل كيف يتكيّف مع prior مختلفة وهو بيشتغل — وهيك بِصير الاستدلال أسرع بمراتب من الطرق الكلاسيكية. الفكرة الأساسية إنهم حوّلوا معلومات الـ prior لـ prefix داخل الـ context، وعلّموا transformer يتعلّم من سياقات متعددة المهام عشان يتأقلم مع عائلات مختلفة من الـ priors — حتى اللي ما شافها أثناء التدريب. النتائج على مجموعة benchmarks متصاعدة الصعوبة، بما فيها بيانات توزيع درجات الحرارة الجغرافي-الزماني، بيّنت إن الطريقة بتوصل لنفس دقة الـ oracle Bayesian predictor المثالي.
لماذا تهم؟: الاستدلال Bayesian الصحيح كان دايمًا بطيء وما يتقياس — هالورقة بتفتح باب لتطبيقه على مسائل حقيقية بسرعة عالية، وهيك ممكن تستفيد منها مجالات زي التنبؤ المناخي والتشخيص الطبي وأي إشي بحتاج قياس عدم اليقين بجدّية.
🌱 شو إلك منها؟
تخيّل إنك بدك تعرف احتمال نزول المطر بكرا، بس عندك بيانات محدودة — الكمبيوتر الذكي هون بيتعلّم من تجارب سابقة متنوعة عشان يطلع تنبؤ موثوق حتى لو الموقف جديد عليه. زي طبيب شاطر درس حالات كتير مختلفة، فلما يجيه مريض ما حكى عنه كتاب — بيعرف كيف يحكم بذكاء بدون ما يبدأ من الصفر. هالإشي ممكن يفيد في تطبيقات الطقس والملاحة وأي خدمة بتحتاج تقدّر "قديش هالمعلومة متأكّدة".
Bayesian inference in-context learning multi-task learning transformer uncertainty quantification arxiv اقرأ المزيد ↗
💬 أضِف تعليقك
بيظهر بعد مراجعة المحرّر ✦
📘 مصطلحات هذا العدد 14
💡 مفاهيم 10
knowledge distillation
عملية بتاخد معلومات نموذج ذكي كبير وتحطها في نموذج أصغر بدون ما تفقد الكتير من الجودة، أشبه بتلخيص كتاب سميك في نسخة مختصرة. بدنا هالشي عشان النماذج الصغيرة بتركض أسرع وتستهلك طاقة أقل.
KV cache
تقنية بتخزّن المفاتيح والقيم اللي حسبناها قبل هيك عشان نستخدمها مرة ثانية. بنستخدمها عشان نسرّع الذكاء الاصطناعي ونقلل الحسابات المكررة.
softmax attention
هاد إشي رياضي بيحسب قد إيش كل كلمة في الجملة مهمة بالنسبة للكلمات الثانية، وبنسمع عنه لأنه القلب اللي شغّال جوا كل نماذج الـ Transformer من GPT لـ BERT وغيرهم.
VLMs
هاي نماذج بتفهم الصور والنصوص مع بعض يعني بتقدر تحكيلها 'شو في بالصورة هاي؟' وتجاوبك، وبنسمع عنها لأنها صارت أساس كتير تطبيقات ذكاء اصطناعي بتجمع بين الرؤية واللغة.
visually grounded thinking
يعني لما النموذج بيفكر بمسألة وبيستند على إشي بشوفه بالصورة مش بس على الكلام، وبنسمع عنه لأنه بيخلي الـ VLMs أذكى وأدق لما بتحل مسائل تحتاج فهم بصري حقيقي.
reinforcement learning
تعليم الذكاء الاصطناعي من خلال نظام الحوافز والعقوبات، زي لما تعلمي طفل بالمكافأة والعقاب عشان يتعلم السلوك الصحيح. بنستخدمه عشان الآلة تتعلم تاخذ قرارات ذكية بنفسها من غير ما نحطّ كل إجابة جاهزة.
autoregressive model
هو نموذج بيتعلم يولّد الإشي خطوة خطوة، كل خطوة بتعتمد على اللي قبلها، زي ما بنحكي كلمة كلمة. بنسمع عنه كتير لأنه الأساس اللي بنيت عليه نماذج اللغة الكبيرة زي GPT.
ROPD
مش قادرة أتأكد من هاد المصطلح بشكل دقيق، يمكن يكون اختصار لطريقة خاصة في معالجة البيانات أو اكتشاف الأنماط. لو عندك سياق أكتر نقدر نشرحه صح.
streaming inference
يعني النموذج بيطلع النتيجة شوي شوي وأنت لسا بتحكيله، مش بينتظر تخلص ويطلع الجواب دفعة وحدة، وبنسمع عنه لأنه بيخلي التجربة أسرع وأحسن للمستخدم زي ما بنشوف في ChatGPT لما الكلام بيجي حرف حرف.
token compression
يعني بنضغط ونقلل عدد القطع اللي النموذج لازم يشتغل عليها عشان يوفر وقت وذاكرة، وبنسمع عنه لأن الصور والفيديو بتولّد tokens كتير جداً وبدنا نخفف الحمل على النموذج بدون ما نخسر الدقة.
🤖 موديلز 3
Gated DeltaNet (GDN)
هاد نوع من نماذج الذكاء الاصطناعي بيستخدم آلية 'بوابات' عشان يتحكم بشو المعلومات يحتفظ فيها وشو ينسى، وبنسمع عنه لأنه بيحاول يكون أسرع وأكفأ من نماذج الـ Transformer التقليدية خصوصاً مع النصوص الطويلة.
SAM3
هاد نموذج متخصص في تقطيع الأشياء داخل الفيديو يعني بيحدد حدود كل إشي بكل فريم، وبنسمع عنه لأنه تطور على الـ SAM الأصلي من Meta عشان يشتغل مع الفيديو مش بس الصور.
Diffusion Transformer (DiT)
هاد نموذج لتوليد الصور والفيديو بيجمع تقنية الـ Diffusion مع بنية الـ Transformer، وبنسمع عنه لأنه الأساس اللي بنيت عليه أقوى نماذج توليد الصور زي FLUX وSora.
📏 مقاييس 1
FPS
هو مقياس بيقيسلنا كم فريم أو صورة بيعالجها النموذج في الثانية الوحدة. بنحتاجه عشان نعرف هل النموذج سريع كفاية للشغل الفوري زي الفيديو والسيارات ذاتية القيادة.
كل المصطلحات ←
📚 كل الأعداد