المكافآت والعقوبات\n\nالتعلم التعزيزي (RL) يدور حول قيام 'عملاء' باتخاذ إجراءات في بيئة ما لزيادة المكافآت. تعد Q-Learning نهجاً أساسياً قائماً على الجداول.