Master's thesis directions at the intersection of Agentic AI, Large Action Models (LAMs), and Vision-Language-Action (VLA) models — across robotics, agriculture & environment, and healthcare. Each topic is framed as a concrete Problem, the research Gap, and exactly how a student can contribute.
Last updated: 13 June 2026
توجهات لأطروحات الماجستير عند تقاطع الذكاء الاصطناعي الوكيلي، ونماذج الفعل الكبيرة (LAMs)، ونماذج الرؤية-اللغة-الفعل (VLA) — في مجالات الروبوتات، والزراعة والبيئة، والرعاية الصحية. ويُعرَض كل موضوع في صورة مشكلة محدّدة، ثم الفجوة البحثية، ثم كيف يُسهم الطالب تحديداً.
آخر تحديث: 13 يونيو 2026
Every direction is scoped for the same setting: a single Master's student, ~12 months, on a commodity GPU (RTX 4090 24 GB or 5090 32 GB) with 128 GB RAM — no large-scale pretraining, only fine-tuning of 7B-class models with LoRA/QLoRA, or API/simulation work — aiming for a top-tier publication.
Each tab opens with a ★ Recommended pick and an at-a-glance table, then a card per topic. Every card states the Problem (what is broken), the Gap (what is missing in the literature), the Contribution (exactly what the student builds and measures), the core research question, suitable datasets/simulators, a target venue, and linked references.
Proposal template (print to PDF)كل توجّه مصمَّم ضمن الإطار نفسه: طالب ماجستير واحد، خلال نحو 12 شهراً، باستخدام بطاقة رسومية متاحة تجارياً (RTX 4090 بسعة 24 غيغابايت أو 5090 بسعة 32 غيغابايت) مع 128 غيغابايت من الذاكرة — دون تدريب مُسبق واسع النطاق، بل فقط ضبط دقيق لنماذج بحجم 7B عبر LoRA/QLoRA، أو عمل عبر الواجهات البرمجية والمحاكاة — بهدف نشر من الطراز الأول.
يفتح كل تبويب بتوصية ★ موصى به وجدول نظرة سريعة، ثم بطاقة لكل موضوع. وتوضّح كل بطاقة المشكلة (ما الخلل)، والفجوة (ما الغائب في الأدبيات)، ومساهمة الطالب (ما الذي يبنيه ويقيسه تحديداً)، وسؤال البحث الأساسي، ومجموعات البيانات/المحاكيات، وجهة النشر، ومراجع موثّقة بروابط.
قالب مقترح الأطروحة (اطبعه PDF)Agentic Workflows × VLA × Robotics / UAV
On a single 4090/5090 you cannot out-scale Physical Intelligence (π0), NVIDIA (GR00T), or the OpenVLA team. The winning move is to take a frozen or LoRA-adapted 7B-class VLA and make the agentic wrapper the contribution — turning most of your compute into inference in simulation, and landing on the hot reliability question: does the policy succeed repeatedly, not just once?
At a glance
| # | Topic | Focus | Venue |
|---|---|---|---|
| ★ A | Self-Healing VLA | Agentic failure detection & recovery around a frozen policy | CoRL, ICRA, RA-L |
| B | Adaptive Embodied Reasoning | Gate slow chain-of-thought on uncertainty | ICRA, CoRL/ICLR ws |
| C | Aerial VLA | Language-conditioned closed-loop UAV control | ICRA/IROS, RA-L |
| D | VLA Robustness Benchmark | Distribution-shift degradation + abstention | NeurIPS/ICLR D&B |
| E | Hierarchical Verified VLA | LLM planner + VLA skills + postcondition checks | CoRL |
Agentic failure detection & recovery wrapped around a frozen policy.
VLA policies fail silently mid-task — they grasp the wrong object or stall, yet keep emitting actions as if nothing is wrong.
Modern 7B VLAs have no built-in sense of "I am failing"; recovery has been studied for classical policies, not as a model-agnostic layer over today's VLAs.
Build a plug-in supervisor — a VLM progress-estimator + an LLM recovery planner — around a frozen OpenVLA/SmolVLA that detects stalls/drift and triggers retry, re-plan, or reset. No policy retraining.
Reason before acting — but only when the policy is uncertain.
Embodied chain-of-thought makes VLAs smarter but several times slower, because it writes long reasoning traces at every single step — too slow for real-time control.
Reasoning is applied uniformly; no one has made it conditional on whether a given step actually needs it.
Train a cheap uncertainty gate that fires ECoT only on hard steps and acts directly otherwise; chart the accuracy-vs-latency Pareto and show most of the gain at a fraction of the tokens.
A VLA that flies — language-conditioned closed-loop UAV control.
Drones would benefit from language-driven control, but VLAs are built almost exclusively for tabletop arms.
No open VLA maps image + instruction to low-level flight actions; aerial work is waypoint navigation, not learned closed-loop control.
LoRA-adapt a VLA to emit flight commands in Flightmare / Isaac Aerial; evaluate goal-reaching, obstacle avoidance, and scene generalization. (Keep it control, not mission planning, to stay disjoint from Mazen's thesis.)
How brittle are VLAs — and can they learn to say "I'm not sure"?
Reported VLA success rates assume clean conditions; small changes in lighting, texture, or camera pose can crater them — unnoticed.
There is no standard distribution-shift stress test for VLAs, and no abstention mechanism to fall back on.
Release a reproducible perturbation suite over SimplerEnv plus an out-of-distribution detector that lets the policy abstain; report degradation curves and the safety-vs-coverage tradeoff.
An LLM plans, VLA skills execute, and a verifier checks every step.
Flat VLAs collapse on long-horizon tasks because one early error silently cascades through the rest of the episode.
LLM task-planners exist, but step-level verification of each VLA skill's outcome is rarely closed-loop.
Combine an LLM planner, a VLA skill library, and a postcondition verifier that gates each step (did the drawer actually open?); measure long-horizon success and cascade reduction on RoboCasa / LIBERO-Long.
| Component | 4090 (24 GB) | 5090 (32 GB) | Notes |
|---|---|---|---|
| OpenVLA-7B inference | ✅ (bf16 ~16 GB) | ✅ | Frozen executor |
| OpenVLA-7B LoRA fine-tune | ⚠️ QLoRA/offload | ✅ comfortable | 5090 is the better buy |
| SmolVLA (~0.45B, 2025) | ✅ trivially | ✅ | Built for consumer GPUs |
| GR00T-N1 / TinyVLA / Diffusion Policy | ✅ LoRA | ✅ | All fit |
| Sim: LIBERO, ManiSkill3, SimplerEnv, Isaac Lab | ✅ RTX-accel. | ✅ | Single-GPU |
| UAV sim: Isaac Aerial / Flightmare / AirSim+PX4 | ✅ | ✅ | No real hardware needed |
سير العمل الوكيلي × VLA × الروبوتات والطائرات المسيّرة
على بطاقة 4090/5090 واحدة لا يمكنك منافسة مختبرات مثل Physical Intelligence (π0) أو NVIDIA (GR00T) أو فريق OpenVLA في الحجم. الحركة الرابحة هي أخذ نموذج VLA بحجم 7B مُجمَّد أو مُكيَّف عبر LoRA وجعل الغلاف الوكيلي هو المساهمة — فيتحوّل معظم الحوسبة إلى استدلال داخل المحاكاة، ويتركّز العمل على سؤال الموثوقية الساخن: هل تنجح السياسة تكراراً لا مرةً واحدة فقط؟
نظرة سريعة
| # | الموضوع | التركيز | جهة النشر |
|---|---|---|---|
| ★ A | VLA ذاتي التعافي | كشف الإخفاق والتعافي منه وكيلياً حول سياسة مُجمَّدة | CoRL، ICRA، RA-L |
| B | استدلال تجسيدي تكيّفي | تبويب التفكير البطيء على عدم اليقين | ICRA، ورشة CoRL/ICLR |
| C | VLA جوّي | تحكّم حلقي مغلق في الطائرة موجَّه باللغة | ICRA/IROS، RA-L |
| D | معيار متانة VLA | تدهور تحت انزياح التوزيع + الامتناع | NeurIPS/ICLR D&B |
| E | VLA هرمي مُتحقَّق منه | مخطِّط LLM + مهارات VLA + فحص ما بعد الشرط | CoRL |
كشف الإخفاق والتعافي منه وكيلياً حول سياسة مُجمَّدة.
تُخفِق سياسات VLA بصمت في منتصف المهمة — تُمسك الجسم الخطأ أو تتجمّد، لكنها تواصل إصدار الأفعال كأن شيئاً لم يحدث.
لا تملك نماذج VLA الحديثة (7B) إحساساً ذاتياً بـ«أنا أُخفِق»؛ ودُرِس التعافي للسياسات الكلاسيكية لا كطبقة مستقلة عن النموذج فوق نماذج VLA الحالية.
بناء مشرف قابل للتركيب — مُقدِّر تقدّم بنموذج رؤية-لغة + مخطِّط تعافٍ بنموذج LLM — حول OpenVLA/SmolVLA مُجمَّد يكشف التعثّر/الانحراف ويُطلِق إعادة المحاولة أو إعادة التخطيط أو العودة الآمنة. دون إعادة تدريب السياسة.
التفكير قبل الفعل — لكن عند عدم اليقين فقط.
يجعل الاستدلال التجسيدي المتسلسل نماذج VLA أذكى لكن أبطأ بأضعاف، لأنه يكتب آثار تفكير طويلة عند كل خطوة — أبطأ من أن يصلح للتحكّم اللحظي.
يُطبَّق التفكير بشكل موحّد؛ ولم يجعله أحد مشروطاً بما إذا كانت الخطوة تحتاجه فعلاً.
تدريب بوّابة عدم يقين رخيصة تُطلِق ECoT على الخطوات الصعبة فقط وتتصرّف مباشرةً فيما عداها؛ ورسم منحنى الدقة مقابل الكمون وإظهار معظم المكسب بجزء من الرموز.
نموذج VLA يطير — تحكّم حلقي مغلق موجَّه باللغة.
ستستفيد الطائرات المسيّرة من التحكّم الموجَّه باللغة، لكن نماذج VLA مبنية تقريباً حصراً للأذرع المكتبية.
لا يوجد نموذج VLA مفتوح يُحوّل الصورة + التعليمات إلى أفعال طيران منخفضة المستوى؛ والعمل الجوي ملاحةٌ بنقاط مسار لا تحكّماً حلقياً مغلقاً مُتعلَّماً.
تكييف VLA عبر LoRA لإصدار أوامر طيران في Flightmare / Isaac Aerial؛ وتقييم الوصول للهدف وتجنّب العوائق والتعميم عبر المشاهد. (أبقِه تحكّماً لا تخطيطاً للمهمة ليبقى منفصلاً عن أطروحة مازن.)
ما مدى هشاشة نماذج VLA — وهل تتعلّم قول «لستُ متأكداً»؟
تفترض نسبُ النجاح المُعلَنة ظروفاً نظيفة؛ وقد تنهار النماذج مع تغيّرات طفيفة في الإضاءة أو القوام أو وضعية الكاميرا — دون أن يُلاحَظ ذلك.
لا يوجد اختبار إجهاد قياسيّ لانزياح التوزيع لنماذج VLA، ولا آلية امتناع تلجأ إليها.
إصدار حزمة اضطرابات قابلة لإعادة الإنتاج فوق SimplerEnv مع كاشف خارج التوزيع يسمح بالامتناع؛ وعرض منحنيات التدهور ومفاضلة الأمان مقابل التغطية.
نموذج LLM يُخطّط، ومهارات VLA تُنفّذ، ومُتحقِّق يفحص كل خطوة.
تنهار نماذج VLA المسطّحة في المهام طويلة الأمد لأن خطأً مبكّراً واحداً يتراكم بصمت عبر بقية الحلقة.
توجد مخطِّطات مهام بنماذج LLM، لكن التحقّق من نتيجة كل مهارة VLA على مستوى الخطوة نادراً ما يكون حلقياً مغلقاً.
الجمع بين مخطِّط LLM ومكتبة مهارات VLA ومُتحقِّق من شرط ما بعد كل خطوة (هل فُتح الدرج فعلاً؟)؛ وقياس النجاح طويل الأمد وخفض التراكم على RoboCasa / LIBERO-Long.
| المكوّن | 4090 (24 GB) | 5090 (32 GB) | ملاحظات |
|---|---|---|---|
| استدلال OpenVLA-7B | ✅ (bf16 ~16 GB) | ✅ | منفّذ مُجمَّد |
| ضبط OpenVLA-7B عبر LoRA | ⚠️ QLoRA/تفريغ | ✅ مريح | الـ5090 خيار أفضل |
| SmolVLA (~0.45B، 2025) | ✅ بسهولة | ✅ | مصمَّم للبطاقات الاستهلاكية |
| GR00T-N1 / TinyVLA / Diffusion Policy | ✅ LoRA | ✅ | الكل مناسب |
| محاكاة: LIBERO, ManiSkill3, SimplerEnv, Isaac Lab | ✅ مُسرَّعة على RTX | ✅ | بطاقة واحدة |
| محاكاة الطائرات: Isaac Aerial / Flightmare / AirSim+PX4 | ✅ | ✅ | دون عتاد حقيقي |
Agentic AI × VLA × Agriculture / Sustainability / Environment
A truly embodied VLA (a harvesting arm) is possible in simulation but bottlenecked by the scarcity of agricultural sim assets — high-risk for 12 months. The sweet spot is the agentic tool-calling framing: an agent that orchestrates crop models, geospatial APIs, sensors, and retrieval, where the contribution is reliability, evaluation, safety, or efficiency.
At a glance
| # | Topic | Focus | Venue |
|---|---|---|---|
| ★ A1 | Agronomic Decision Agent | Tool-calling agronomy + verification layer | CEA; AAAI AISI; NeurIPS CCAI |
| A2 | Crop-Disease Agent | Ground-leaf VLM + treatment retrieval + abstention | CVPR ag ws; CEA |
| A3 | Embodied Ag-VLA | Sim harvesting / weeding manipulation | ICRA/IROS |
| ★ E1 | Geospatial Tool-Calling LAM | Earth-Engine function calling vs GPT-4o | IGARSS; NeurIPS CCAI/D&B |
| E2 | Env-Agent Reliability Benchmark | Cost / holdout / repeated-trial controls | NeurIPS D&B |
| ★ S1 | Green Agentic AI | Energy cut via uncertainty-gated routing | SUSCOM; IEEE T-SUSC |
A tool-calling agent that turns crop models and field data into farm advice.
Farmers get generic LLM advice that can be confidently wrong about irrigation or fertilization — costly, and sometimes unsafe for the crop.
LLMs are not grounded in validated crop models, and agentic agronomy advice has no reliability or safety evaluation.
A tool-calling agent that invokes DSSAT/APSIM + weather/soil APIs with a constraint verifier; benchmark recommendation reliability against expert ground truth and measure the reduction in harmful advice.
Diagnose a leaf from a photo, retrieve the right treatment, abstain when unsure.
Crop-disease classifiers output a label but no actionable, safe treatment — and they hallucinate confidently on diseases they have not seen.
Few systems pair diagnosis with grounded treatment retrieval and calibrated abstention on out-of-distribution cases.
A ground-image VLM agent that diagnoses, retrieves a treatment protocol, and abstains under low confidence; measure the safe-abstention rate and the reduction in hallucinated treatments.
A VLA arm for harvesting and weeding in simulation.
Agricultural manipulation (picking, weeding) is highly variable; hand-coded policies do not transfer across crop layouts.
VLAs are untested on agricultural manipulation, and dedicated sim assets barely exist.
Build a small ag-manipulation sim on Isaac Lab and LoRA-adapt a VLA; measure cross-layout generalization. (Higher risk: asset-building is the main cost.)
Teach a 7B model to drive Earth-observation tools better than GPT-4o.
Environmental analysts must hand-write Earth Engine code, and general LLMs generate plausible-but-broken geospatial pipelines.
No open 7B model is fine-tuned for executable Earth-observation function-calling, and frontier models are not grounded in the API.
Synthesize an EO function-calling dataset (APIGen-style), LoRA-tune xLAM-7B, and benchmark executable-task success vs GPT-4o on deforestation / flood / land-use queries.
Which environmental-agent results survive honest, cost-controlled evaluation?
Environmental-agent papers report headline gains that may not hold once evaluation is fair.
No environmental-agent benchmark enforces proper holdouts, repeated-trial consistency, and cost control (the issues raised by "AI Agents That Matter").
Build that benchmark and re-evaluate existing agents under joint accuracy–cost–holdout controls; report which reported gains actually survive.
Cut the energy and carbon of agentic pipelines without losing accuracy.
Agentic pipelines call large models repeatedly, with a large — and usually unmeasured — energy and carbon cost.
Energy is rarely measured per agentic workflow, and model routing has been studied for accuracy/cost, not for energy.
Instrument an agentic pipeline with CodeCarbon and add uncertainty-gated small→large routing; quantify the energy saved at a fixed task-success target. A single GPU is the cleanest scale for attributing energy.
| Component | 4090 | 5090 | Notes |
|---|---|---|---|
| Tool-calling fine-tune (xLAM-7B / Qwen2.5-7B, LoRA) | ✅ QLoRA | ✅ | Function-calling SFT fits easily |
| Crop-disease VLM (Qwen2-VL-7B / PaliGemma, LoRA) | ✅ | ✅ | Ground-level leaf images, not drone |
| Geospatial agent (Earth Engine / Sentinel APIs) | ✅ | ✅ | Heavy compute runs cloud-side |
| Green-AI energy measurement (CodeCarbon) | ✅ | ✅ | Single GPU is the correct scale |
| Embodied ag-VLA in Isaac Lab | ⚠️ | ⚠️ | Custom ag assets are the real cost |
الذكاء الاصطناعي الوكيلي × VLA × الزراعة والاستدامة والبيئة
إنّ نموذج VLA التجسيدي الحقيقي (ذراع للحصاد) ممكن في المحاكاة لكنه مقيَّد بندرة أصول المحاكاة الزراعية — خيار عالي المخاطرة خلال 12 شهراً. النقطة المثلى هي إطار استدعاء الأدوات الوكيليّ: وكيلٌ يُنسّق نماذج المحاصيل والواجهات الجغرافية المكانية وأجهزة الاستشعار والاسترجاع، حيث تكون المساهمة في الموثوقية أو التقييم أو الأمان أو الكفاءة.
نظرة سريعة
| # | الموضوع | التركيز | جهة النشر |
|---|---|---|---|
| ★ A1 | وكيل القرار الزراعي | استدعاء أدوات زراعية + طبقة تحقّق | CEA؛ AAAI AISI؛ NeurIPS CCAI |
| A2 | وكيل أمراض المحاصيل | VLM لأوراق أرضية + استرجاع العلاج + امتناع | ورشة CVPR؛ CEA |
| A3 | VLA زراعي تجسيدي | مناورة حصاد/إزالة أعشاب في المحاكاة | ICRA/IROS |
| ★ E1 | LAM جغرافي مكاني | استدعاء دوال Earth-Engine مقابل GPT-4o | IGARSS؛ NeurIPS CCAI/D&B |
| E2 | معيار موثوقية الوكلاء البيئيين | ضوابط التكلفة/الاختبار المحجوز/التكرار | NeurIPS D&B |
| ★ S1 | ذكاء وكيلي أخضر | خفض الطاقة عبر توجيه مُبوَّب بعدم اليقين | SUSCOM؛ IEEE T-SUSC |
وكيل استدعاء أدوات يُحوّل نماذج المحاصيل وبيانات الحقل إلى نصائح زراعية.
يحصل المزارعون على نصائح عامة من نماذج اللغة قد تكون خاطئة بثقة حول الريّ أو التسميد — مكلفة وأحياناً ضارة بالمحصول.
نماذج اللغة غير مُسنَدة إلى نماذج محاصيل مُتحقَّق منها، والنصيحة الزراعية الوكيلية بلا أي تقييم للموثوقية أو الأمان.
وكيل استدعاء أدوات يُشغّل DSSAT/APSIM + واجهات الطقس/التربة مع مُتحقِّق قيود؛ ومقارنة موثوقية التوصيات بالحقيقة المرجعية للخبراء وقياس خفض النصائح الضارة.
تشخيص الورقة من صورة، واسترجاع العلاج الصحيح، والامتناع عند عدم اليقين.
تُخرِج مصنّفات أمراض المحاصيل تسميةً دون علاج عملي وآمن — وتُهلوِس بثقة على أمراض لم ترها.
قليلة هي الأنظمة التي تقرن التشخيص باسترجاع علاج مُسنَد وامتناع معاير على الحالات خارج التوزيع.
وكيل VLM لصور أرضية يُشخّص ويسترجع بروتوكول علاج ويمتنع عند انخفاض الثقة؛ وقياس معدّل الامتناع الآمن وخفض العلاجات المُهلوسة.
ذراع VLA للحصاد وإزالة الأعشاب في المحاكاة.
المناورة الزراعية (القطف، إزالة الأعشاب) شديدة التغيّر؛ والسياسات المكتوبة يدوياً لا تنتقل عبر تخطيطات المحاصيل.
لم تُختبَر نماذج VLA على المناورة الزراعية، وأصول المحاكاة المخصّصة شبه معدومة.
بناء محاكاة مناورة زراعية صغيرة على Isaac Lab وتكييف VLA عبر LoRA؛ وقياس التعميم عبر التخطيطات. (أعلى مخاطرة: بناء الأصول هو التكلفة الرئيسة.)
تعليم نموذج 7B تشغيلَ أدوات رصد الأرض أفضل من GPT-4o.
يضطر المحلّلون البيئيون لكتابة شيفرة Earth Engine يدوياً، ونماذج اللغة العامة تُولّد مسارات جغرافية معقولة لكنها معطوبة.
لا يوجد نموذج 7B مفتوح مضبوط على استدعاء دوال رصد الأرض القابلة للتنفيذ، والنماذج الرائدة غير مُسنَدة إلى الواجهة البرمجية.
اصطناع مجموعة بيانات استدعاء دوال رصد الأرض (بأسلوب APIGen)، وضبط xLAM-7B عبر LoRA، ومقارنة نجاح المهام القابلة للتنفيذ مقابل GPT-4o على استعلامات إزالة الغابات/الفيضانات/استخدام الأراضي.
أيّ نتائج للوكلاء البيئيين تصمد أمام تقييم نزيه ومضبوط التكلفة؟
تُبلِّغ أوراق الوكلاء البيئيين عن مكاسب لافتة قد لا تصمد عند جعل التقييم نزيهاً.
لا معيار للوكلاء البيئيين يفرض مجموعات اختبار محجوزة سليمة واتساق التجارب المتكررة وضبط التكلفة (وهي مشكلات «AI Agents That Matter»).
بناء هذا المعيار وإعادة تقييم الوكلاء القائمين تحت ضوابط الدقة–التكلفة–الاختبار المحجوز مجتمعة؛ وبيان أيّ مكاسب تصمد فعلاً.
خفض طاقة وكربون مسارات العمل الوكيلية دون خسارة الدقة.
تستدعي المساراتُ الوكيلية النماذجَ الكبيرة مراراً، بتكلفة طاقة وكربون كبيرة وغير مقيسة عادةً.
نادراً ما تُقاس الطاقة لكل مسار عمل وكيليّ، ودُرِس توجيه النماذج للدقة/التكلفة لا للطاقة.
تجهيز مسار وكيليّ بـCodeCarbon وإضافة توجيه مُبوَّب بعدم اليقين (صغير ← كبير)؛ وتحديد الطاقة الموفّرة عند هدفٍ ثابت لنجاح المهمة. والبطاقة الواحدة هي المقياس الأنظف لإسناد الطاقة.
| المكوّن | 4090 | 5090 | ملاحظات |
|---|---|---|---|
| ضبط استدعاء الأدوات (xLAM-7B / Qwen2.5-7B، LoRA) | ✅ QLoRA | ✅ | ضبط استدعاء الدوال يناسبها بسهولة |
| VLM لأمراض المحاصيل (Qwen2-VL-7B / PaliGemma) | ✅ | ✅ | صور أوراق أرضية، لا جوية |
| وكيل جغرافي مكاني (Earth Engine / Sentinel) | ✅ | ✅ | الحوسبة الثقيلة على السحابة |
| قياس طاقة الذكاء الأخضر (CodeCarbon) | ✅ | ✅ | البطاقة الواحدة هي المقياس الصحيح |
| VLA زراعي تجسيدي في Isaac Lab | ⚠️ | ⚠️ | أصول المحاكاة الزراعية هي التكلفة الحقيقية |
Medical VLA × Agentic AI × Healthcare
"Medical VLA" has two GPU-feasible readings: (1) embodied = surgical/interventional robotics, controlling a surgical robot in simulation; and (2) agentic clinical AI = tool-calling, GUI, and decision agents. In healthcare, safety is the headline contribution, and the field uniquely rewards on-device / private models, since patient data never leaves the machine.
At a glance
| # | Topic | Focus | Venue |
|---|---|---|---|
| ★ M1 | Surgical VLA + Safety Monitor | Subtask control + enforced safety constraints | ICRA/IROS, RA-L, T-MRB |
| M2 | Assistive / Rehab VLA | Assistive manipulation generalization | ICRA/IROS, RA-L |
| ★ C1 | EHR GUI Agent | Zero-harmful-action EHR automation | ML4H, CHIL, IEEE JBHI |
| C2 | Clinical Decision-Support Agent | Tool-use + step-verification + abstention | CMPB, AIME, IEEE JBHI |
| C3 | Multi-Agent Clinical Reliability | pass^k consistency + cost of debate | ML4H, NeurIPS D&B |
| ★ S1 | Medical-Agent Safety Red-Team | Harmful-action benchmark + defense | NeurIPS D&B, ML4H |
| S2 | On-Device Private Medical Agent | Distill 7B→≤3B; privacy + efficiency | IEEE JBHI, SUSCOM, EMNLP |
A VLA that performs surgical subtasks, with a supervisor that never lets it cross a line.
A surgical VLA that occasionally moves outside safe bounds is unusable — a single unsafe action can be catastrophic.
Surgical VLAs optimize task success, not enforced safety, and agentic safety supervision is unexplored in surgical simulation.
Wrap a surgical VLA with a constraint-enforcing safety monitor + recovery; measure constraint-violation reduction versus the cost to subtask success in Orbit-Surgical / SurRoL.
Language-conditioned assistive manipulation for patient-care robots.
Assistive robots must adapt to each patient's body and setup; scripted controllers do not generalize.
VLAs are untested on assistive caregiving tasks across patient variation.
LoRA-adapt a VLA on assistive tasks (feeding, repositioning, fetching) in Assistive Gym; measure cross-patient generalization.
An agent that operates real EHR software — provably blocked from harmful actions.
Clinicians lose hours to EHR clicking; an LLM agent that automates it could also issue harmful orders.
No EHR GUI agent is trained under a provable zero-harmful-action constraint, and there is no clinical-GUI benchmark.
Fine-tune OS-Atlas-7B on OpenEMR/OpenMRS with Synthea (synthetic, no PHI) under a constrained action space; build a clinical-GUI benchmark; beat GPT-4o frameworks while satisfying the safety constraint.
A tool-using clinical advisor that verifies each step and abstains when unsafe.
Clinical LLMs issue unsafe recommendations without showing their work or knowing when to defer.
Tool-use clinical agents rarely include step-verification and abstention as an explicit safety mechanism.
An agent that calls calculators/guidelines/drug databases, verifies each step, and abstains; measure the reduction in unsafe recommendations at a fixed task-success level.
Is multi-agent medical debate actually more reliable — and worth the cost?
Multi-agent medical "debate" is reported to boost accuracy, but its reliability and cost are unclear.
The pass^k consistency and compute cost of medical multi-agent systems are unmeasured.
Measure pass^1 vs pass^k and token cost of MedAgents/MDAgents on AgentClinic / MedQA; show whether the debate machinery is worth its expense.
Stress-test clinical agents for harmful actions, then build a guardrail that halves them.
Open medical agents can be jailbroken into harmful actions and unsafe recommendations.
There is no action-level safety red-team benchmark for clinical agents paired with a defense.
Build a harmful-action benchmark, measure how often open agents comply, design a guardrail/refusal-grounding defense, and show it halves unsafe actions without utility loss.
Shrink a medical model to the edge so patient data never leaves the device.
Cloud medical LLMs send protected health information off-device — a privacy and compliance barrier to deployment.
The utility-vs-size tradeoff for distilled on-device medical agents is poorly characterized.
Distill a 7B medical model to ≤2–3B; quantify the utility retained, the latency, and the privacy gain of fully local inference.
| Component | 4090 | 5090 | Notes |
|---|---|---|---|
| Surgical sim (Orbit-Surgical / SurRoL) + VLA LoRA | ✅ | ✅ | Isaac RTX-accelerated |
| EHR GUI agent — fine-tune OS-Atlas-7B (LoRA) | ✅ QLoRA | ✅ | OpenEMR/OpenMRS + Synthea |
| Clinical tool-calling agent (xLAM-7B / Qwen2.5-7B) | ✅ | ✅ | Guidelines, drug-interaction, calculators |
| Medical VLM (LLaVA-Med / MedGemma / Qwen2-VL-7B) | ✅ | ✅ | Report gen, VQA |
| Distill medical 7B → ≤2–3B for edge | ✅ | ✅ | Privacy + efficiency |
VLA الطبي × الذكاء الاصطناعي الوكيلي × الرعاية الصحية
لـ«VLA الطبي» قراءتان مجديتان على بطاقة واحدة: (1) تجسيدي = روبوتات جراحية/تداخلية تتحكم بروبوت جراحي في المحاكاة؛ و(2) ذكاء سريري وكيلي = وكلاء استدعاء أدوات وواجهات رسومية وقرار. في الرعاية الصحية، الأمان هو المساهمة الحاسمة، والمجال يكافئ تحديداً النماذج على الجهاز / الخاصة، إذ لا تغادر بيانات المريض الجهاز.
نظرة سريعة
| # | الموضوع | التركيز | جهة النشر |
|---|---|---|---|
| ★ M1 | VLA جراحي + مراقب أمان | تحكّم بمهام فرعية + فرض قيود أمان | ICRA/IROS، RA-L، T-MRB |
| M2 | VLA مساعِد / تأهيلي | تعميم المناورة المساعِدة | ICRA/IROS، RA-L |
| ★ C1 | وكيل واجهة EHR | أتمتة EHR بصفر أفعال ضارة | ML4H، CHIL، IEEE JBHI |
| C2 | وكيل دعم القرار السريري | استخدام أدوات + تحقّق + امتناع | CMPB، AIME، IEEE JBHI |
| C3 | موثوقية سريرية متعددة الوكلاء | اتساق pass^k + تكلفة النقاش | ML4H، NeurIPS D&B |
| ★ S1 | اختبار أمان الوكلاء الطبيين | معيار أفعال ضارة + دفاع | NeurIPS D&B، ML4H |
| S2 | وكيل طبي خاص على الجهاز | تقطير 7B←≤3B؛ خصوصية + كفاءة | IEEE JBHI، SUSCOM، EMNLP |
نموذج VLA يُنفّذ مهام جراحية فرعية، ومشرفٌ لا يدعه يتجاوز الحدّ أبداً.
نموذج VLA جراحي يتحرّك أحياناً خارج الحدود الآمنة غيرُ صالح للاستخدام — فالفعل غير الآمن الواحد قد يكون كارثياً.
تُحسِّن نماذج VLA الجراحية نجاح المهمة لا الأمان المفروض، والإشراف الأمنيّ الوكيليّ غير مستكشَف في المحاكاة الجراحية.
تغليف VLA جراحي بمراقب أمان يفرض القيود + تعافٍ؛ وقياس خفض انتهاكات القيود مقابل الكلفة على نجاح المهمة في Orbit-Surgical / SurRoL.
مناورة مساعِدة موجَّهة باللغة لروبوتات رعاية المرضى.
يجب أن تتكيّف الروبوتات المساعِدة مع جسم كل مريض وإعداده؛ والمتحكّمات المكتوبة مسبقاً لا تُعمَّم.
لم تُختبَر نماذج VLA على مهام الرعاية المساعِدة عبر تباين المرضى.
تكييف VLA عبر LoRA على مهام مساعِدة (إطعام، إعادة تموضع، إحضار) في Assistive Gym؛ وقياس التعميم عبر المرضى.
وكيل يُشغّل برمجيات EHR حقيقية — ممنوعٌ بإثباتٍ من الأفعال الضارة.
يخسر الأطباء ساعات في النقر داخل أنظمة السجلات الصحية؛ ووكيل LLM يؤتمِت ذلك قد يُصدِر أيضاً أوامر ضارة.
لا يوجد وكيل واجهة EHR مُدرَّب تحت قيد قابل للإثبات بصفر أفعال ضارة، ولا يوجد معيار لواجهات السجلات السريرية.
ضبط OS-Atlas-7B على OpenEMR/OpenMRS ببيانات Synthea (اصطناعية، دون بيانات صحية) تحت مساحة أفعال مقيَّدة؛ وبناء معيار واجهة سريرية؛ والتفوّق على أطر GPT-4o مع استيفاء قيد الأمان.
مستشار سريري يستخدم الأدوات، يتحقّق من كل خطوة ويمتنع عند انعدام الأمان.
تُصدِر نماذج اللغة السريرية توصيات غير آمنة دون إظهار استدلالها ودون معرفة متى تُحيل الأمر.
نادراً ما تتضمّن الوكلاء السريرية القائمة على الأدوات تحقّقاً خطوةً بخطوة وامتناعاً كآلية أمان صريحة.
وكيل يستدعي الحاسبات/الإرشادات/قواعد الأدوية، ويتحقّق من كل خطوة، ويمتنع؛ وقياس خفض التوصيات غير الآمنة عند مستوى ثابت لنجاح المهمة.
هل النقاش الطبي متعدد الوكلاء أكثر موثوقيةً فعلاً — وهل يستحق تكلفته؟
يُقال إن «النقاش» الطبي متعدد الوكلاء يرفع الدقة، لكن موثوقيته وتكلفته غير واضحتين.
اتساق pass^k وتكلفة الحوسبة للأنظمة الطبية متعددة الوكلاء غير مقيسة.
قياس pass^1 مقابل pass^k وتكلفة الرموز لـMedAgents/MDAgents على AgentClinic / MedQA؛ وبيان ما إذا كانت آلية النقاش تستحق نفقتها.
إخضاع الوكلاء السريريين للضغط بحثاً عن أفعال ضارة، ثم بناء حاجزٍ يخفضها إلى النصف.
يمكن خداع الوكلاء الطبية المفتوحة لتنفيذ أفعال ضارة وتوصيات غير آمنة.
لا يوجد معيار اختبار اختراق أمنيّ على مستوى الأفعال للوكلاء السريريين مقروناً بدفاع.
بناء معيار أفعال ضارة، وقياس مدى امتثال الوكلاء المفتوحة، وتصميم دفاع (حاجز/إسناد رفض)، وإثبات أنه يخفض الأفعال غير الآمنة إلى النصف دون خسارة فائدة.
تصغير نموذج طبي إلى الحافة بحيث لا تغادر بيانات المريض الجهاز.
تُرسِل نماذج اللغة الطبية السحابية البيانات الصحية المحمية خارج الجهاز — عائق خصوصية وامتثال أمام النشر.
المفاضلة بين الفائدة والحجم للوكلاء الطبيين المقطَّرين على الجهاز غير موصوفة جيداً.
تقطير نموذج طبي 7B إلى ≤2–3B؛ وتحديد الفائدة المُحتفَظ بها والكمون ومكسب الخصوصية للاستدلال المحلي بالكامل.
| المكوّن | 4090 | 5090 | ملاحظات |
|---|---|---|---|
| محاكاة جراحية (Orbit-Surgical / SurRoL) + VLA LoRA | ✅ | ✅ | Isaac مُسرَّع على RTX |
| وكيل واجهة EHR — ضبط OS-Atlas-7B (LoRA) | ✅ QLoRA | ✅ | OpenEMR/OpenMRS + Synthea |
| وكيل سريري لاستدعاء الأدوات (xLAM-7B / Qwen2.5-7B) | ✅ | ✅ | إرشادات، تفاعلات دوائية، حاسبات |
| VLM طبي (LLaVA-Med / MedGemma / Qwen2-VL-7B) | ✅ | ✅ | توليد تقارير، أسئلة بصرية |
| تقطير نموذج طبي 7B ← ≤2–3B للحافة | ✅ | ✅ | خصوصية + كفاءة |