📡 أحدث عدد

شو في AI؟ | 23 يونيو

يومي 📅 2026-06-23

أبرز ما صدر اليوم في أبحاث الذكاء الاصطناعي و NLP.

PerceptionDLM: فهم بصري متوازٍ لمناطق متعددة بنماذج Diffusion اللغوية

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

الباحثون قدّموا PerceptionDLM، نموذج لغوي متعدد الوسائط مبني على الـ diffusion بدل الجيل الذاتي التقليدي (autoregressive). الفكرة الأساسية إنه بدل ما النموذج يوصف منطقة بمنطقة من الصورة بالترتيب — يشتغل على كل المناطق بنفس الوقت بالتوازي! عشان يقيّموا هالقدرة صح، بنوا benchmark جديد اسمه ParaDLC-Bench بيقيس جودة الوصف وكفاءة التنفيذ مع بيانات تتضمن أكثر من منطقة بكل صورة. النتائج بتوضح إن النموذج بيحافظ على جودة الوصف البصري مع تحسين واضح بالسرعة، وهالشغل ظهر كـ preprint على arXiv وجمع انتباه كتير على Hugging Face Daily Papers.

لماذا تهم؟: هالبحث بيكسر قيد كبير كان موجود بنماذج فهم الصور — إنها لازم تشتغل ترتيبياً على كل منطقة — وده بيفتح الباب لتطبيقات أسرع بكتير بالوصف التلقائي للصور المعقّدة.

🌱 شو إلك منها؟

تخيّل عندك صورة فيها عشر أشياء مختلفة وبدك الكمبيوتر يوصف كل واحدة — النماذج القديمة كانت بتشتغل واحدة واحدة كأنك بتنتظر دورك بالصف. هالنموذج الجديد بيوصف الكل بنفس اللحظة، كأنه عنده عشر عيون بتشتغلوا مع بعض. هالإشي ممكن تحسّيه باستخدامات زي التعليق التلقائي على الصور في تطبيقات الكاميرا أو تحليل الصور الطبية.

multimodal diffusion language models region captioning parallel decoding visual perception hf اقرأ المزيد ↗

💬 أضِف تعليقك

PlanBench-XL: هل يقدر الـ LLM يخطّط على المدى البعيد وسط آلاف الأدوات؟

PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

الباحثون من جامعة Illinois وزملاؤهم قدّموا PlanBench-XL، وهو benchmark جديد بيختبر قدرة الـ LLM agents على التخطيط طويل المدى في بيئات فيها أدوات كتير (1,665 أداة!) لمهام تجارة التجزئة. الفكرة مش بس «استخدم الأداة الصح»، لأ — الـ agent لازم يبحث عن الأدوات الملائمة خطوة خطوة، ويستنتج أهداف وسطية، ويتأقلم لو أداة فشلت أو اختفت أو أعطته معلومة مضلِّلة. النتايج صادمة شوي: أقوى موديل اتجرّب — GPT-5 — وصل لـ 51.90% بالإعداد العادي، بس لما فعّلوا آلية الحجب الشديدة انهار للـ 11.36%! هالبحث انتشر على Hugging Face Daily Papers وجمع 47 upvote.

لماذا تهم؟: هالبنشمارك بيكشف نقطة ضعف أساسية في الـ agents الحاليين — إنهم هشّين لما البيئة مش مثالية ومش واضحة، وهاد بالضبط شو بيصير في العالم الحقيقي.

🌱 شو إلك منها؟

تخيّل إنك طلبت من مساعد ذكي إنه يكمّل طلبية شراء معقّدة، وفي النص اكتشف إن إشي من الخدمات اللي بيحتاجها واقف أو بيعطيه معلومات غلط — هل يقدر يحلّ المشكلة لحاله ويكمل؟ هاد بالضبط شو بيختبره البحث. زي ما الواحد منّا بيحتاج يتصرّف لما السوبرماركت ما فيه الصنف اللي بده، هيك المساعد الذكي لازم يلاقي بديل. الفايدة العملية إنه لما هالمشاكل تنحلّ، المساعدات الذكية في تطبيقات التسوّق والخدمات رح تصير أكثر موثوقية وأقل غلط.

LLM agents tool use long-horizon planning benchmark agentic AI hf اقرأ المزيد ↗

💬 أضِف تعليقك

KaLM-Reranker-V1: سرعة بدون تأخير في ترتيب النتائج

KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

فريق Zhao وزملاؤه قدّموا KaLM-Reranker-V1، نموذج reranking بنمط جديد اسموه FBNL (fast but not late interaction) — يفصل بين معالجة الـ query ومعالجة الـ passage بدل ما يحسبهم سوا، وهاد بيخلّي النظام أسرع وأكثر مرونة في التطبيق. الفكرة الأساسية إنهم بناوا النموذج على معمارية encoder-decoder: الـ encoder يعالج الـ passages مسبقًا بتقنية Matryoshka embedding pooling، والـ decoder يفهم التعليمات والـ query، وبعدين الـ cross-attention يربط الاثنين عشان يحدد مدى الصلة. جرّبوه على benchmarks معروفة زي BEIR وMIRACL وLMEB بثلاث أحجام (Nano بـ 0.27B، وSmall بـ 1B، وLarge بـ 4B)، وطلع بنتائج تنافس نماذج صناعية قوية زي Qwen3-Reranker مع كفاءة أعلى. البحث preprint على arXiv وانتشر على Hugging Face Daily Papers وجمع 33 upvote.

لماذا تهم؟: هاد البحث بيفتح باب لأنظمة استرجاع أسرع وأوفر في الموارد — لأنك ممكن تحسب تمثيلات الـ passages مرة وتخزّنها، بدل ما تعيد الحساب مع كل query، وهاد فرق ضخم في الأنظمة الحقيقية.

🌱 شو إلك منها؟

لما تدوّر على إشي في محرّك بحث أو في تطبيق ذكي، في خطوة خفية بتعيد ترتيب النتائج عشان تطلع لك الأفضل فوق — هاد بالضبط شغل هالنموذج. فكّر فيه زي موظّف أرشيف شاطر: بدل ما يفتح كل ملف من الأول مع كل سؤال تسأله، هو رتّب الملفات مسبقًا، فلما تسأله بيجيب الجواب بسرعة. هالتقنية ممكن تلمسها بحياتك في أدوات البحث الذكي، وأنظمة الأسئلة والأجوبة، وأي تطبيق بيساعدك تلاقي معلومة بين آلاف النصوص.

reranking information-retrieval encoder-decoder BEIR efficiency hf اقرأ المزيد ↗

💬 أضِف تعليقك

EnterpriseClawBench: benchmark حقيقي لتقييم الـ agents في بيئات العمل

EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

فريق الباحثين من FrontisAI قدّم EnterpriseClawBench، وهو benchmark مخصّص لتقييم الـ agents اللي بتشتغل جوّا بيئات الشركات الحقيقية — مش مهام مصطنعة. الفكرة إنهم راحوا على أرشيف ضخم من sessions عمل حقيقية وعملوا منها 852 مهمة قابلة للتكرار، كل مهمة معها ملفات وأدوات وتعليمات وقواعد تقييم صارمة. الـ benchmark مش بس بيسأل «هل الجواب صح؟» — بيقيّم كمان جودة المنتج النهائي، التكلفة، الوقت، وكيف الـ agent بينقل مهاراته لمهام جديدة. اللافت إن أحسن نتيجة وصلوا إليها كانت 0.663 فقط مع Codex المبني على GPT-4.5، يعني الـ agents لسّا عندها طريق طويل في بيئات الشركات الفعلية.

لماذا تهم؟: معظم الـ benchmarks الحالية بتختبر الـ agents في مواقف مصطنعة بعيدة عن الواقع — هالورقة بتفتح الباب لتقييم أكثر صدقاً ودقّة من جلسات عمل حقيقية، وهيك بتعطينا صورة أوضح وين نحنا فعلاً.

🌱 شو إلك منها؟

تخيّل إنك وظّفت مساعداً ذكياً يشتغل معك في الشغل — يقرأ ملفاتك، يستخدم البرامج، ويسلّمك تقارير وعروض. هالبحث بيحاكي هيك مواقف حقيقية عشان يشوف كيف بيأدّي هالمساعد الذكي شغله فعلاً، مش بس في أسئلة اختبارية مصطنعة. يعني مستقبلاً لما تجي تختار أداة ذكاء اصطناعي لمكان شغلك، في ناس شغلتهم يوفّروا لك مقاييس أمينة تعتمد عليها.

enterprise agents benchmark evaluation LLM agents workplace automation hf اقرأ المزيد ↗

💬 أضِف تعليقك

تعليم الـ LLMs مطابقة النصوص والتراجع الذكي لحلّ ألغاز معالجة البتّات

Teaching LLMs String Matching, Backtracking, and Error Recovery to Deduce Bases and Truth Tables for the Combinatorially Exploding Bit Manipulation Puzzles

فريق Agnihotri وزملاؤه قدّموا مقاربة جديدة لمشكلة كتير صعبة على الـ LLMs: اكتشاف القاعدة المنطقية المخفية اللي بتحوّل سلاسل ثنائية (binary strings) لمخرجات — وهاي كانت ضمن تحدّي NVIDIA Nemotron. بدل ما يخلّوا النموذج يعمل حسابات boolean معقّدة بتوديه للهلوسة، حوّلوا المسألة كلها لمهمة مقارنة نصوص وبحث منظّم. الفكرة الجوهرية إنهم يختاروا "bases" (تحولات أساسية) بناءً على أقل عدد من الـ bit flips، ويبنوا truth tables بدون أرقام، وإذا في تعارض بالأمثلة يتراجع النموذج ويجرّب غيرها (backtracking DFS). فوق هيك، درّبوا النموذج على supervised fine-tuning (SFT) بأسلوب تفاعلي يخلّيه يفرض نسبة الـ bit tokens واحد واحد، ويقيّم حاله بنفسه. النتيجة؟ أكثر من 96% validation accuracy — أعلى أداء في هاد التصنيف بالمسابقة.

لماذا تهم؟: هالورقة بتوضّح إنه أحياناً الطريقة الأذكى مش إنك تحلّ المسألة الصعبة مباشرةً، لكن تعيد صياغتها لمشكلة أسهل — وهاد درس مهم لأي حدا بيشتغل على تحسين أداء الـ LLMs في مهام المنطق الرياضي.

🌱 شو إلك منها؟

تخيّل إنك بتلعب لعبة بتشوف فيها أنماط مشفّرة بالأصفار والواحدات، وبدك تكتشف السرّ اللي وراها بدون ما تخبرك أحد — هيك بالضبط الـ AI كان بيعاني. هالبحث خلّى الكمبيوتر يفكّر مثل ما بتعمل لمّا بتشوف الفرق بين كلمتين وتلاقي اللي اتغيّر فيهم، بدل ما يعمل عمليات حساب معقدة. النتيجة إن الـ AI صار أقدر على حلّ ألغاز منطقية، وهاد ممكن يأثّر مستقبلاً على أدوات البرمجة الذكية اللي بتساعد المبرمجين في كتابة وتصحيح الكود.

LLM reasoning bit manipulation backtracking string matching SFT arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

CLI-Universe: محرّك لتوليد مهام قابلة للتحقّق لتدريب وكلاء الـ Terminal

CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents

فريق Hua وزملاؤه قدّموا CLI-Universe، وهو محرّك متخصّص بتوليد بيانات تدريب عالية الجودة لوكلاء الـ terminal — يعني البرامج اللي بتشتغل على سطر الأوامر. المشكلة اللي بيحلّوها هي إنّ البيانات الموجودة كانت ضعيفة وغير موثوقة: تعليمات غامضة وتحقّق سطحي. الحل؟ كل مهمة بتنتقي من taxonomy متعدد الأبعاد، وبتتحقق منها داخل بيئات Dockerized عبر pipeline متعدد المراحل — بينتهي الأمر إنّ تقريباً ثلثا المهام المقترحة بتنحذف لأنها مش على مستوى. الناتج هو dataset بـ 6,000 trajectory اسمها CLI-Universe-6K، وبعد fine-tuning عليها، Qwen3-32B وصل لـ 33.4% على Terminal-Bench 2.0 — وهو state-of-the-art للنماذج اللي دون 32B parameter، وتفوّق حتى على نماذج أكبر منه بكتير.

لماذا تهم؟: هالورقة بتثبت إنّ الجودة الحقيقية للبيانات أهم بكتير من الكمّية — نموذج صغير نسبياً تفوّق على نماذج عملاقة بس لأنّه تدرّب على بيانات مبنية بدقّة ومُتحقَّق منها فعلياً.

🌱 شو إلك منها؟

تخيّل إنك تطلب من مساعد ذكي يساعدك تنجز مهام على حاسوبك مباشرة — مثل يرتّب ملفاتك أو يشغّل برنامج معقّد — وهو فاهم تماماً شو بده يعمل وعارف كيف يتحقق من نفسه. هالبحث شبيه بمدرّس صبور جداً بيعطي الطالب مسائل صعبة ومظبوطة بدل مسائل غلط ومبهمة، فبيطلع الطالب أشطر بكتير. مستقبلاً، هالنوع من الوكلاء ممكن يساعد في أدوات البرمجة والأنظمة الذكية اللي بتتعامل مع الحاسوب بشكل مباشر.

CLI agents data synthesis terminal agents fine-tuning LLM hf اقرأ المزيد ↗

💬 أضِف تعليقك

Randomized YaRN: خطوة للأمام في تعميم السياق الطويل لـ LLMs

Randomized YaRN Improves Length Generalization for Long-Context Reasoning

الـ LLMs عادةً بتتدرّب على نصوص قصيرة، وبتعاني لمّا بتجي تشتغل على سياقات طويلة كتير. فريق Mehta وزملاؤه من جامعة تكساس اقترحوا طريقة تدريب اسمها Randomized YaRN — بتجمع بين positional extrapolation المبنية على YaRN، وبين positional encodings عشوائية مع length curriculum. الفكرة الذكية هي إنك خلال التدريب على بيانات قصيرة، بتعطي الموديل positional encodings مسحوبة من نطاق أوسع بكتير، يعني بتعرّضه لتمثيلات مواقع ما شافها قبل — حتى لو النص أمامه قصير. النتيجة؟ الموديل المتدرّب على سياقات أقل من 8K بيحسّن أداؤه على سياقات من 16K لـ 128K على benchmarks صعبة زي BABILong وMRCR، وبيتفوّق على الـ fine-tuning العادي، خصوصًا على الأطوال البعيدة جدًا عن التوزيع الأصلي.

لماذا تهم؟: هاد البحث بيفتح باب عملي لتحسين قدرة الموديلات على استيعاب نصوص طويلة جدًا — بدون ما تحتاج بيانات تدريب طويلة أصلًا، وهيك بيوفّر تكلفة وجهد كتير.

🌱 شو إلك منها؟

تخيّل إنك عندك مساعد ذكي بتسأله عن ملف كبير فيه مئات الصفحات، بس هو تعلّم بس على وثائق قصيرة — يعني بيضيع لما بيشوف حجم الملف! هالبحث بيحكي: ممكن نعلّمه يتعامل مع الأشياء الطويلة حتى بدون ما ندرّبه عليها مباشرةً، زي إنك تعلّم حدا يقرأ قواميس ضخمة عن طريق تمارين قراءة بسيطة بس بأسلوب ذكي. النتيجة هي تطبيقات وأدوات ذكاء اصطناعي بتقدر تحلّل عقود قانونية أو أبحاث طويلة أو محادثات ممتدة بشكل أدق وأصح.

long-context positional encoding YaRN length generalization LLM arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

AIR: تفكير تكاملي مرن مع الكود في النماذج متعددة الوسائط

AIR: Adaptive Interleaved Reasoning with Code in MLLMs

الباحثون Han وزملاؤه جاؤوا بفكرة حلوة: بدل ما يعتمد الـ MLLM على نظر بس أو كود بس، خلّوه يتبادل بينهم بشكل تكيّفي — يفكّر شوي، يكتب كود، يرجع يفكّر، وهيك. الجديد إنهم ركّزوا على المسائل الحسابية العددية المعقّدة، مش بس مهام الإدراك البصري اللي عليها معظم الأبحاث. بنوا منظومة من ثلاث مكوّنات: pipeline لبناء بيانات cold-start بمرحلتين، وفلترة بيانات لـ RL، واستراتيجية tool-invocation تكيّفية مع دالة مكافأة مقيّدة بالمجموعة. النتيجة؟ تحسّن بمعدل 6.1 نقطة مئوية على الـ benchmarks، ونسبة نجاح الـ tool-use تجاوزت 95%. البحث preprint على arXiv.

لماذا تهم؟: هالورقة بتفتح باب مهم: خلّي الـ MLLM يتعامل مع حسابات رقمية معقّدة بشكل ذكي ومرن عوض ما يكون حبيس نظرة ثابتة أو أداة واحدة — وهاد بيفرق كتير في التطبيقات العلمية والهندسية.

🌱 شو إلك منها؟

تخيّل إنك بتحلّ مسألة رياضيات صعبة: بتفكّر، بتكتب خطوات، بتحسب، بترجع تراجع — هيك بالضبط صار الذكاء الاصطناعي بهالبحث. بدل ما يحاول يجاوب دفعة وحدة، صار يتبادل بين التفكير والحساب الآلي بشكل طبيعي. يعني لو استخدمت تطبيقًا بيحلّ مسائل علمية أو هندسية معقّدة، هالنوع من الأبحاث هو اللي بيخلّيه أدقّ وأشطر.

MLLM reinforcement-learning code-reasoning tool-use numerical-computation arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

هل تقدر الـ LLMs تكشف لو تعرّضت لهجوم خبيث؟ تحقيق في الوعي الذاتي للنماذج

Can LLMs Reliably Self-Report Adversarial Prefills, and How?

الباحثون Nguyen وزملاؤه بحثوا في سؤال مثير: لو نموذج لغوي كبير انخدع وأعطى إجابة خطيرة بسبب هجوم adversarial prefill — يعني لو حدا حشر في المحادثة كلام بيخلّي النموذج يكمل بإجابة ضارة — هل النموذج قادر يعترف بعدين إنه اتلاعب فيه؟ جرّبوا عشرة نماذج مفتوحة المصدر من 3B لـ 70B على أربعة safety benchmarks، ولاقوا إنه ما في نموذج بيعترف بشكل موثوق — بس النماذج بتدّعي النيّة على الإجابات المحشورة بنسبة 27.3% بالمعدل. الإشارة الاستبطانية اللي بتظهر مرتبطة أساسًا بآليات الرفض safety/refusal، وزي ما التجارب بيّنت، الـ framing للسؤال — هل الخطأ نيّة داخلية ولا تلاعب خارجي — بيغيّر الإجابة كليًا. جرّبوا كمان ثلاث طرق fine-tuning هي SFT وGRPO وDPO، وإيش جرى؟ الموديلات صارت تعترف أكثر بالنيّة، بس ما انحلّ المشكل الأعمق — وبعض الحالات ارتفع معدل نجاح الهجوم!

لماذا تهم؟: هالورقة بتكشف إن إحساس النموذج بـ «وعيه الذاتي» بالأمان مش موثوق ولا متّسق، وهاد إشي مهم كتير لأي حدا بيبني نظام AI آمن أو بيعتمد على النموذج يراقب نفسه.

🌱 شو إلك منها؟

تخيّل إنك حكيت لشخص كذبة صغيرة وخلّيته يقول إشي مش صحيح — وبعدين سألته: «هل حدا لاعب فيك؟» الشخص اللي ما انتبه ممكن يقول «لأ، هاد رأيي». الذكاء الاصطناعي هلقيت واقع بنفس المشكلة — لما تخدعه ببعض الكلمات المحشورة ما بيعرف يعترف إنه اتخدع. هالبحث بيهمّنا عشان الأدوات اللي بنستخدمها يوميًا — من مساعدين ذكيين لتطبيقات الإجابة على الأسئلة — بحاجة تكون واعية لحالها عشان تحمينا.

LLM safety adversarial attacks introspection self-report fine-tuning arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#10

طوبولوجيا الأسئلة الملتبسة: persistent homology لكشف الإشكاليات وتوجيه LLMs

The Topology of Ill-Posed Questions: Persistent Homology for Detection and Steering in LLMs

لما تسأل نموذج لغوي سؤالًا مبهمًا أو متناقضًا أو ناقص المعلومات، كيف بيعرف النموذج إنه السؤال أصلًا فيه إشكالية؟ فريق Jiang وزملاؤه من جامعة George Washington وغيرها قرروا ما يحكموا على السؤال من الإجابة، بل يدخلوا على الـ internal states جوّا الـ transformer نفسه. الفكرة: يعاملوا الـ hidden states للـ tokens كـ point cloud ويحلّلوا شكلها الهندسي باستخدام zero-dimensional persistent homology — وهي أداة من الرياضيات بتوصف كيف تتجمّع النقاط وتتفرّق. من كل layer بيستخرجوا ٣ descriptors مضغوطة، ولمّا يضمّوهم كلهم مع بعض يجيب representation توبولوجي للسؤال. وعلى هالأساس بنوا طريقة steering بتجيب أمثلة مشابهة توبولوجيًا وتبني تدخلات مخصّصة تخلّي النموذج يطلب توضيحًا أو يمتنع عن الإجابة بدل ما يخترع جواب. النتائج على benchmarks زي AmbigQA وSituatedQA وCLAMBER أثبتت إن الـ topology features تتفوق بوضوح على الـ baselines التقليدية. البحث ظهر كـ preprint على arXiv ضمن cs.AI.

لماذا تهم؟: هاد البحث بيفتح باب جديد: بدل ما ننتظر النموذج يغلط في جوابه، نكشف إن السؤال أصلًا ملتبس من جوّا النموذج — وهيك ممكن نبني أنظمة أذكى بتعرف متى تسأل بدل ما تتخيّل.

🌱 شو إلك منها؟

فكّر معي: لو سألت مساعد ذكي سؤالًا فيه تناقض أو ناقص معلومات، الأحسن إنه يقولك «ممكن توضّح أكتر؟» بدل ما يعطيك جواب غلط بثقة. هاد البحث زي ما تعطي النموذج حاسّة سادسة تشعّر إنه السؤال فيه إشكالية من أول ما يقرأه. النتيجة العملية إنك ممكن تلمسها في أي مساعد ذكي بتستخدمه — لما يبدأ يسألك «قصدك إيش بالضبط؟" بدل ما يرجع لك بإجابة مش صح.

LLM persistent homology ill-posed questions activation steering interpretability arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#11

DelveAgent: إطار عمل متعدد الـ agents للبحث العلمي في الفيزياء والكيمياء

Deep Research in Physical Sciences: A Multi-Agent Framework and Comprehensive Benchmark

الباحثون من فريق Jiang وزملاؤه قدّموا شغلتين بورقة وحدة: أوّلاً PhySciBench، وهو benchmark جديد خاص بالعلوم الفيزيائية، فيه 200 سؤال معدّ من خبراء في فيزياء وكيمياء، موزّعة على ستّ فئات تعكس سير العمل البحثي الحقيقي. لما جرّبوا أقوى الأنظمة الموجودة، تبيّن إنّ الأداء محدود — حتى Gemini Deep Research ما وصل إلا لـ 33.5% دقّة! بعدها بنوا DelveAgent، إطار عمل modular متعدد الـ agents يشتغل بـ adaptive planning loop وذاكرة dual-granularity وآلية تحقّق مبنية على منطق فيزيائي. النتيجة؟ تحسين بلغ 7.5 نقطة مئوية عن أقوى baseline، مع تخفيض تكلفة الاستدلال لثلث الكلفة تقريباً.

لماذا تهم؟: هالورقة بتفضح كيف إنّ حتى أقوى الـ LLMs هلقيت بتتعثّر في الأسئلة العلمية المعقّدة، وبتقدّم benchmark وإطار عمل موحّد يساعدنا نقيس ونطوّر أنظمة AI أقدر على البحث العلمي الحقيقي — إشي ضروري لكل مهتم بتطبيق AI في العلوم.

🌱 شو إلك منها؟

تخيّلوا عندكم مساعد ذكي بيقدر يبحث ويحلّل مسائل علمية صعبة زيّ ما يعملها عالِم متخصّص — بس الأبحاث أثبتت إنّ المساعدين الحاليين بيغلطوا كتير في هالنوع من الأسئلة. هالبحث جاء يقيس كيف حجم المشكلة بشكل عادل، وبعدين بنى نظام أذكى يعرف يصحّح نفسه على أساس قواعد العلوم. يعني مستقبلاً ممكن تطبيقات البحث العلمي أو التعليم تقدّملك تفسيرات علمية أدق وأوثق من قبل.

multi-agent physical sciences benchmark LLM scientific reasoning hf اقرأ المزيد ↗

💬 أضِف تعليقك

#12

Unlimited OCR: نموذج OCR بذاكرة عمل ثابتة يتحدى حدود الصفحات الطويلة

Unlimited OCR Works

فريق Youyang Yin وزملاؤه من Baidu قدّموا نموذج Unlimited OCR، وهو محاولة جريئة لحل مشكلة معروفة في نماذج OCR الحديثة زي DeepSeek OCR — يعني لما النص يطول، الـ KV cache بيكبر وبيأكل ذاكرة وبيبطّئ كل إشي. الحل اللي قدّموه هو آلية انتباه جديدة اسمها Reference Sliding Window Attention (R-SWA)، بتحافظ على حجم الـ KV cache ثابت طول فترة الـ decoding بغض النظر عن طول المستند. النتيجة؟ النموذج بيقدر يقرأ عشرات الصفحات في تمريرة واحدة بطول أقصى 32K token — وبنفس الوقت R-SWA مش محصورة بالـ OCR بس، بتنفع كمان لمهام زي الـ ASR والترجمة. الكود والأوزان متاحة للعموم على GitHub.

لماذا تهم؟: هالورقة بتفرق لأنها بتحل bottleneck حقيقي في نماذج OCR الكبيرة — كلما المستند أطول كلما النموذج اتعب أكتر — وR-SWA بتحل هالإشي بدون ما تضحّي بجودة التعرف على النص.

🌱 شو إلك منها؟

تخيّل إنك بدك تحوّل كتاب كامل من صور لنص مكتوب على الحاسوب — النماذج القديمة بتتعب وبتبطّأ كلما زادت الصفحات، كأنك بتكتب وقلمك بيثقل مع كل سطر. هالنموذج الجديد شغّال كالإنسان اللي بينقل نص بدون ما يتعب مهما طالت الصفحات. يعني تطبيقات المسح الضوئي وأدوات تحويل الوثائق والكتب الرقمية ممكن تصبح أسرع وأقدر على التعامل مع الملفات الضخيمة.

OCR attention mechanism KV cache long-document efficient inference hf اقرأ المزيد ↗

💬 أضِف تعليقك

#13

POTracker: تدريب LLMs على توليد تقارير انقطاع الكهرباء بشكل دقيق ومقنّن

POTracker: Optimizing Large Language Models for Standard-Compliant Power Outage Report Generation

فريق Phan وزملاؤه جابوا مشكلة مهمة بقطاع الطاقة في أمريكا: كيف تخلّي LLM يكتب تقارير انقطاع الكهرباء بشكل صح — مش بس من ناحية المعنى، كمان من ناحية البنية والـ format المطلوب من الجهات التنظيمية (JSON وXML محددين بمعايير دقيقة). قدّموا POTracker، وهو نموذج Qwen2.5-7B-Instruct تم fine-tuning عليه بـ loss function جديدة اسمها POTrackerLoss تحسب التشابه النصي والبنيوي (التاغات) مع تقرير الـ ground truth مع بعض. النتايج على dataset من 1,000 تقرير: POTracker تفوّق على خمس طرق fine-tuning معروفة وطريقة rule-based، ورفع الدقة الكلية لـ 51% وبلغ 86.47% structural accuracy. كمان خبراء المجال أعطوا التقارير المولّدة 4.03 من 5 بدراسة بشرية.

لماذا تهم؟: هالورقة بتثبت إنو LLMs ممكن تُدرَّب عشان تنتج وثائق تقنية شديدة الصرامة — مش بس نصوص حرّة — وهاد بيفتح الباب لتطبيقات حقيقية بقطاعات حسّاسة زي الطاقة والبنية التحتية.

🌱 شو إلك منها؟

تخيّل إنو كل مرة بتنقطع الكهرباء، الموظفين لازم يكتبوا تقرير رسمي بشكل محدد كتير — أي خطأ بسيط بالشكل ممكن يخلّي الأنظمة ما تقدر تقراه. هالبحث صنع أداة ذكية بتكتب هالتقارير بشكل صح من أول وجديد، كأنها موظف متدرّب خصيصًا على القوانين والأنظمة. يعني في المستقبل، شركات الكهرباء ممكن توفّر وقت وجهد كبير وتضمن إنو التقارير دايمًا مكتوبة صح.

LLM fine-tuning structured generation energy sector domain-specific NLP arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#14

MCompassRAG: استخدام البيانات الوصفية للمواضيع كبوصلة دلالية لاسترجاع أدق

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

فريق Abaskohi وزملاؤه قدّموا MCompassRAG، وهو إطار عمل جديد لتحسين أنظمة RAG — اللي بتجمع البحث مع التوليد. المشكلة اللي بيعالجوها هي التوازن الصعب بين دقّة الاسترجاع وسرعته: الـ chunks الصغيرة بتعطي دقّة أحسن بس بتكلّف وقت وموارد أكتر، والكبيرة أسرع بس بتخلط مواضيع كتير فتضعف جودة التمثيل الدلالي. الحل اللي اقترحوه هو إثراء تمثيل كل chunk ببيانات وصفية للمواضيع في نفس فضاء الـ embedding، وتدريب retriever خفيف الوزن عن طريق LLM-teacher distillation. النتيجة: تحسّن في information efficiency بنسبة 8.24% على ستّ benchmarks معقّدة، مع زمن استجابة أقل بأكتر من 5 مرات مقارنةً بأقوى baselines فعّالة. الكود متاح على GitHub.

لماذا تهم؟: هالبحث بيفرق لأنه بيحلّ مشكلة حقيقية في أنظمة RAG المستخدَمة بالبحث العميق — كيف توصل لمعلومة دقيقة بسرعة دون ما تحرق موارد، وهيك الأنظمة بتكون أكتر كفاءة وأقل تكلفة.

🌱 شو إلك منها؟

تخيّل إنك بتسأل مكتبة ضخمة عن معلومة محدّدة، وبدل ما تفتّش كل ورقة من أوّلها لآخرها، في فهرس ذكي بيدلّك على الفصل الصح أوّلاً، وبعدين بتروح مباشرةً للمعلومة. هيك بالضبط بيشتغل هالنظام — بيضيف للـ AI بوصلة بتوجّهه للموضوع الصح قبل ما يبدأ يفتّش. هالإشي ممكن تحسّه في أدوات مثل أنظمة البحث الذكي والمساعدات اللي بتقرأ مستندات طويلة وبتجاوب عليها بشكل أسرع وأدق.

RAG retrieval semantic search embeddings LLM distillation hf اقرأ المزيد ↗

💬 أضِف تعليقك

#15

SproutRAG: نظام RAG ذكي للوثائق الطويلة بتوجيه الـ attention وبحث شجري

SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

واحدة من التحديات الكبيرة في أنظمة RAG هي كيف توازن بين دقة استرجاع المعلومات والتماسك السياقي — يعني مش بس تجيب الجملة الصح، لازم تجيب السياق الكافي معها. فريق Abaskohi وزملاؤه قدّموا SproutRAG، نظام هرمي بيرتّب الجمل في وحدات أكبر وأكبر بشكل تدريجي باستخدام الـ attention بين الجمل عشان يبني شجرة ثنائية للتقسيم. الذكي في الموضوع إنه بيتعلّم لوحده أي layers وأي attention heads بتمثّل هيكل الوثيقة بشكل أحسن، من غير ما يحتاج يستدعي LLM خارجي أو يعمل تلخيص ناقص للمعلومات. وعند الاسترجاع، بيستخدم hierarchical beam search عشان يجيب مقاطع من مستويات مختلفة بنفس الوقت. النتايج على أربعة benchmarks في مجالات علمية وقانونية ومفتوحة أظهرت تحسّن 6.1% في الـ information efficiency على أقوى baseline.

لماذا تهم؟: هالورقة مهمة لأنها بتحسّن جودة ما يُسترجع من وثائق طويلة في أنظمة RAG بدون ما تزيد التكلفة الحسابية — وهاد بالضبط اللي محتاجينه لما نشتغل على عقود قانونية أو أبحاث علمية طويلة.

🌱 شو إلك منها؟

تخيّل إنك بدك تسأل برنامج ذكي سؤالاً عن كتاب قانوني أو بحث علمي طويل كتير — المشكلة إن البرنامج أحياناً بيجيب جملة واحدة منزوعة من سياقها وما بتفهم إشي. هالنظام الجديد بيشتغل مثل شخص فاهم بيقرأ الوثيقة ويجمّع الفقرات المترابطة مع بعض عشان يعطيك إجابة منطقية ومتكاملة. يعني لو استخدمت مستقبلاً برنامج مساعد قانوني أو أكاديمي، بصير يفهمك بشكل أفضل بكتير.

RAG long-document hierarchical retrieval attention embeddings hf اقرأ المزيد ↗

💬 أضِف تعليقك

#16

EvoEmbedding: تمثيلات تتطوّر مع السياق لاسترجاع أذكى وذاكرة للـ agents

EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

النماذج الموجودة للـ embeddings بتعمل بشكل ثابت — بتشفّر كل قطعة نص لوحدها بمعزل عن اللي قبلها وبعدها. فريق Nie وزملاؤه جاؤوا بفكرة مختلفة كليًّا: EvoEmbedding بيحافظ على ذاكرة كامنة بتتحدّث باستمرار مع كل مدخل جديد، وبيستخدمها جنبًا لجنب مع المحتوى الخام عشان يولّد تمثيلات «تتطوّر» مع السياق. يعني نفس الـ query ممكن يرجعلك نتائج مختلفة حسب وين وصلت في القصة أو المحادثة — مش بس بحث دلالي ساكن. لتدريب الموديل على هالقدرة، بنوا dataset جديد اسمه EvoTrain-180K، واضافوا تقنية memory queue تمنع انهيار التمثيلات، وطريقة segment-batching بتسرّع التدريب 3.8 مرات. النتائج بتقول إن EvoEmbedding تجاوز نماذج أكبر منه حجمًا زي Qwen3-Embedding-8B وKaLM-Embedding-Gemma3-12B على عدة long-context retrieval benchmarks، وحتى pipeline بسيط من RAG مزوّد بيه تفوّق على أنظمة ذاكرة متخصصة للـ agents.

لماذا تهم؟: هالورقة بتكسر حاجز كبير: ما عاد الـ embedding ثابت بغضّ النظر عن السياق — وهاد بيفتح باب لـ agents ونظم RAG أكثر ذكاءً بكتير وبتكلفة أقل.

🌱 شو إلك منها؟

تخيّل إنك بتحكي مع مساعد ذكي وكل ما تقدّمت في الحديث، هو فاهم أكثر وين وصلنا — مش بيرجع يقرا من أول. هيك بالضبط بيشتغل هالبحث: النظام بيتذكّر اللي مضى وبيفهم سؤالك على ضوء كل السياق مش بس الكلمات المكتوبة. نتيجة ذلك، تطبيقات زي المساعدات الذكية وروبوتات الدردشة رح تعطيك إجابات أدق وأكثر ارتباط بالمحادثة الكاملة — مش بس آخر رسالة بعثتها.

embeddings long-context RAG agentic memory retrieval hf اقرأ المزيد ↗

💬 أضِف تعليقك

#17

Kamera: إعادة استخدام الـ KV Cache في النماذج متعددة الوسائط بدون إعادة تدريب

Kamera: Unified Position-Invariant Multimodal KV Cache for Training-Free Reuse

فريق Ma وزملاؤه من جامعة إرلانغن-نورنبرغ لاحظوا إشيًا بيصير كتير في الـ multimodal agents: كل مرة النموذج بيرجع يشوف نفس الصورة أو الفيديو أو الـ screenshot، بيعيد حسابها من أول وجديد — وهاد تدمير للوقت والحوسبة. المشكلة إنه الـ prefix caches الموجودة شغّالة بس لما البيانات بتكون بنفس المكان الثابت في السياق، ولما بتتحرك بيضيع جزء مهم اسمه "cross-chunk conditioning". الحل اللي قدّموه اسمه Kamera: بدل ما يعيد الحساب، بيحكم "patch" صغير low-rank مخزّن مع كل chunk بيعيد هاد الجزء الضايع بدقة، مع إعادة توجيه الـ RoPE لأي موقع جديد. الإشي الذكي إنه هاد الحل ما بحتاج أي fine-tuning وبيشتغل مع MLA وGQA وMHA — والنتايج على benchmarks زي MM-NIAH وdoc-QA بيثبتوا إنه بيسترجع الدقة الكاملة بجزء بسيط من تكلفة الـ KV الأصلية.

لماذا تهم؟: هاد البحث بيوفّر حوسبة ضخمة في الـ multimodal agents — بدل ما النموذج يعيد تحليل نفس الصور والفيديوهات كل شوي، بيستخدم نتايج محفوظة بذكاء، وهاد مباشرةً بيأثر على السرعة والتكلفة في الأنظمة الإنتاجية.

🌱 شو إلك منها؟

تخيّل إنك قاعد تذاكر مع مدرّس، وكل مرة بدّه يرجع لنفس الصفحة بيقرأها من أولها — مش هيك بتشتغل الأمور الذكية! هالبحث بيخلّي الذكاء الاصطناعي يتذكر الصور والفيديوهات اللي شافها قبل من غير ما يعيد تحليلها من أول، زي ما بتحفظ ملاحظاتك عشان ما ترجع تقرأ الكتاب كله. بيأثر هاد مباشرةً على التطبيقات اللي بتحلّل فيديوهات أو صور كتيرة، زي أدوات مراجعة الوثائق والمساعدين الذكيين اللي بيشتغلوا على الشاشة.

KV Cache multimodal agents training-free RoPE efficient inference arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#18

HydraHead: لمّا كل رأس في الـ attention له وظيفة — فبدنا نستغلها!

HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization

الباحثون من Alibaba (فريق Tan وزملاؤه) لاحظوا إشي مثير: الـ attention heads جوّا نفس الطبقة مش متشابهة — كل رأس بتخصّص بوظيفة مختلفة، بينما الطبقات اللي بجانب بعض هي اللي بتشتبه ببعض. انطلاقًا من هاد الاكتشاف، طوّروا معمارية HydraHead اللي بتدمج Full Attention مع Linear Attention على مستوى الـ heads مش الطبقات. الفكرة: الـ heads اللي إلها دور في استرجاع المعلومات بتاخذ Full Attention، والباقي بياخذوا Linear Attention الأخف. النتيجة؟ نموذج تدرّب على 15B token بس حقّق تحسّن فوق 69% في السياقات الطويلة جداً (512K)، ووصل قريب من Qwen3، وهاد البحث ظهر كـ preprint على arXiv وجمع اهتمام واضح على Hugging Face Daily Papers.

لماذا تهم؟: معظم النماذج الهجينة بتدمج أنواع الـ attention على مستوى الطبقات — هون الفريق بيثبت إنه مستوى الـ heads أذكى وأكفأ، وبيفتح باب لنماذج أطول سياقاً بتكلفة أقل.

🌱 شو إلك منها؟

تخيّل إنك بتقرا كتاب طويل — مش كل أجزاء دماغك بتشتغل بنفس الطريقة، بعض الخلايا بتركّز على تذكّر التفاصيل المهمة وبعضها على الفهم العام. هاد البحث خلّى الذكاء الاصطناعي يشتغل نفس هيك — كل جزء بيتخصص بالشغل اللي يظبط معه، وما يحتاج كل الطاقة لكل إشي. يعني تطبيقات الدردشة والمساعدين الذكيين ممكن تفهم نصوص أطول بكتير — كأنك بتعطيه كتاب كامل بدل ما تعطيه صفحة وحدة.

attention hybrid-attention long-context linear-attention architecture hf اقرأ المزيد ↗

💬 أضِف تعليقك

#19

LangMAP: توكنة ذكية بتتكيّف مع لغتك من غير ما تغيّر الـ vocabulary

LangMAP: A Language-Adaptive Approach to Tokenization

فريق Meister وزملاؤه جابوا خوارزمية اسمها LangMAP بتحلّ مشكلة قديمة: كيف تخلّي الـ tokenizer يعطي كل لغة حقها من غير ما تعيد تدريب النموذج من أوله أو تعدّل الـ vocabulary؟ الفكرة إنها بتمدّد خوارزمية UnigramLM الموجودة عشان تصير تطلع tokenization خاص بكل لغة من نفس الـ vocabulary المشترك. الأحلى من هيك إنها وقت الـ inference ما بتحتاج تعرف إيش اللغة اللي بتشتغل عليها — النموذج بيكتشفها لحاله. الفريق جرّبها على 14 tokenizer مفتوح المصدر، 9 لغات طبيعية، و9 لغات برمجة، وكانت النتايج واعدة خصوصًا على مستوى المحاذاة الصرفية ومحاذاة حدود الـ AST في الكود.

لماذا تهم؟: كتير من اللغات — وخصوصًا العربية والصرفيات المعقدة — بتتعذّب مع الـ tokenizers المصمّمة للإنجليزي، وهالورقة بتقترح طريقة عملية تحسّن التوكنة بدون تكلفة إعادة التدريب الكاملة.

🌱 شو إلك منها؟

تخيّل إنك بتحكي مع برنامج ذكاء اصطناعي بالعربي وهو بيقطّع كلامك بطريقة غلط — مثل ما يقسّم كلمة 'بيشتغلوا' لأجزاء ما إلها معنى. هالبحث بيقترح طريقة تخلّي البرنامج يفهم بشكل أفضل كيف الكلمات بتتركّب في لغتك. النتيجة؟ تطبيقات الترجمة والمساعدين الذكيين بتصير أفهم وأدقّ، وبتحسّ إنها فاهمة طريقة حكيك مش بس حافظة إياها.

tokenization multilingual UnigramLM morphology code arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

#20

حدود الـ LLMs: ليش الـ prompt وحده مش كافي؟

On the Limits of Prompt-Conditioned Language Models as General-Purpose Learners

الباحثون Mguni وزملاؤه جابوا ورقة نظرية بتقول إشي مهم وجريء: الـ LLMs مش universal solvers زي ما الناس بتحكي. الفكرة الأساسية إنهم بيشوفوا التفاعل بين المستخدم والنموذج كـ 'cheap-talk game' — يعني لعبة تواصل ناقصة — لأن اللغة الطبيعية نفسها channel محدود السعة، وما بتقدري تحشي فيها كل تفاصيل أي مهمة معقدة. من هون بيشتقوا نتيجتين رياضيتين قويتين: الأولى 'expressivity floor' — يعني في حد أدنى للخطأ مش ممكن تتجاوزيه بأي قدر من البيانات أو الـ scaling؛ والثانية 'objective-misalignment floor' — لما الـ alignment constraints بتقيّد مخرجات النموذج، بيصير في تشويه لا يمكن إزالته. النتيجة الرسمية: في مهام بيفشل فيها الـ prompting حتى لو عندك بيانات لا نهائية، وهيك بيقترح الباحثين إن الحل ببدنا نتجاوز اللغة — بـ multimodal inputs وذاكرة خارجية.

لماذا تهم؟: هاي الورقة بتحكيلك بشكل رياضي رسمي إيش الحدود الأصيلة للـ prompting، وهيك بتوجّه المجتمع نحو حلول واقعية زي الـ multimodal وال external memory بدل ما نكمل نوهم حالنا إن نموذج أكبر رح يحل كل إشي.

🌱 شو إلك منها؟

تخيّل إنك بدك تشرح لحدا مهمة معقدة كتير بس بس عبر رسايل نصية قصيرة — في لحظة بتلاقي الكلام ما بكفي عشان تنقل كل التفاصيل. هيك بالضبط مشكلة الذكاء الاصطناعي مع الأوامر النصية: مهما كان الذكاء كبير، الكلام وحده ما بقدر ينقل كل إشي. وهيك لما تستخدم مساعد ذكي وتلاقيه بيفهمك غلط أو بيرفض يساعدك بطريقة معينة — مش دايمًا لأنه 'غبي'، أحيانًا لأن طريقة التواصل نفسها عندها حدود ما بتتجاوزها.

LLMs prompt-conditioning PAC-Bayes expressivity limits alignment arxiv اقرأ المزيد ↗

💬 أضِف تعليقك

📘 مصطلحات هذا العدد 14

💡 مفاهيم 11

diffusion language model (DLM)

هو نموذج لغوي بيولّد النص بطريقة مختلفة عن المعتاد، مش كلمة كلمة، بس بيشتغل بإضافة وإزالة ضوضاء تدريجياً عشان يطلع الجواب. بنسمع عنه لأنه بدنا نفهم هل في طريقة أحسن من الطرق التقليدية لتوليد النص.

autoregressive generation

هو الأسلوب اللي بيتعلمه إشي زي ChatGPT، يعني بيولّد الكلام كلمة كلمة، كل كلمة بتعتمد على اللي قبلها. بنسمع عنه كتير لأنه الطريقة الأساسية اللي اشتغلنا عليها سنين بنماذج اللغة.

LLM agents

يعني برامج ذكية مبنية على نماذج لغة كبيرة، وهذي البرامج قادرة تتخذ قرارات وتقوم بمهام معقدة بنفسها بدون ما نخبرها كل خطوة. بنسمع عنها كتير الآن عشان هي الخطوة الجاية في تطور الذكاء الاصطناعي.

benchmark

يعني مجموعة معايير واختبارات بننسخدمها عشان نشيك كيف أداء النموذج تاعنا، شو مستواه الفعلي. بنسمع عنها كتير عشان هي إشي أساسي لمعرفة إذا النموذج بتاعك تمام أم لا.

tool-use

يعني إنك تعطي الـ AI أدوات يستخدمها بنفسه، زي إنه يبحث على النت أو يحسب أرقام أو يشوف ملفات، مش بس يجاوب من ذاكرته. بنسمع عنه كتير لأنه بيخلي النماذج أكثر فايدة في الواقع.

blocking mechanism

هو إشي بيوقف النموذج أو يمنعه من إنه يكمل بطريقة معينة، زي قيود بتحكم شو يقوله وشو ما يقوله. بنسمع عنه في سياق الـ safety والتحكم بسلوك الـ AI.

reranking

بعد ما بنجيب نتائج من بحث، الـ reranking بيرتبها من جديد بطريقة أذكى عشان أهم إشي يطلع فوق. زي ما بنرتب أوراقنا بعد ما نجمعها.

cross-attention

هاد إشي من قلب الـ Transformers، وفكرته إن الموديل بيربط معلومات من مصدرين مختلفين مع بعض — مثلاً لما بنوصف صورة، بيربط كلمات النص بمناطق الصورة عشان يفهم العلاقة بينهم.

Matryoshka embedding pooling

تخيلي دمية الماتريوشكا الروسية اللي جوّاها دمى أصغر، هيك الـ embeddings هون بتكون متداخلة وممكن تستخدميها بأحجام مختلفة حسب الحاجة. بنسمع عنها لأنها بتوفر وقت وموارد.

agents

هي نماذج AI بتتصرف لوحدها وبتاخذ قرارات وبتنفذ خطوات متعددة عشان توصل لهدف، مش بس تجاوب على سؤال. هلق كلنا بنسمع عنهم لأنهم مستقبل الـ AI العملي.

semantic rubrics

هي معايير تقييم مبنية على الفهم والمعنى مش على مطابقة كلمات بالضبط، بنستخدمها عشان نحكم هل جواب الـ AI كان صح فعلاً. مهمة جداً في تقييم جودة النماذج.

🤖 موديلز 1

MLLM

نموذج ذكاء اصطناعي بيقدر يفهم ويتعامل مع أنواع بيانات مختلفة في نفس الوقت (صور، نص، صوت)، احنا بنسمع عنه كتير لأنه بيقدر يحل مسائل معقدة بكفاءة أعلى.

🗂️ بيانات 2

ParaDLC-Bench

هو مجموعة بيانات تقييمية صُمّمت خصيصاً عشان نقيس أداء نماذج الـ DLM بشكل عادل ومظبوط. بنسمع عنه لأن احنا بنحتاج أدوات قياس موثوقة عشان نعرف أيّ نموذج أحسن.

BEIR

هو مجموعة بيانات ضخمة بنستخدمها عشان نختبر كيف نماذج البحث والاسترجاع بتشتغل على مواضيع متنوعة. بنسمع عنه كتير في أبحاث الـ information retrieval.

كل المصطلحات ←

📚 كل الأعداد