#๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
Deep Reinforcement Learning for Robotics, A Survey of Real-World Successes
์์
๊ณผ์ ์์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๊ด์ฌ ์๋ ๊ฒ์ด ์์ด์, ๊ฐ์ง๊ณ ์ค๊ฒ ๋์๋ค.
#1) ๋ ผ๋ฌธ ํ๋์ ๋ณด๊ธฐ
- ๋ ผ๋ฌธ: Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes
- ๋ฒ์ : arXiv v3 (2024-09-16)
- ํต์ฌ ์ง๋ฌธ:
- DRL์ด ์ค์ ๋ก๋ด ๋ฌธ์ ์์ ์ด๋๊น์ง ์ฑ๊ณตํ๋๊ฐ?
- ์ด๋ค ์์ญ์ ์ฑ์ํ๊ณ , ์ด๋ค ์์ญ์ ์์ง ์ด๋ ค์ด๊ฐ?
์ด ๋ ผ๋ฌธ์ ๋จ์ ์๊ณ ๋ฆฌ์ฆ ๋น๊ต๊ฐ ์๋๋ผ, ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ฑ๊ณผ๋ฅผ ๊ธฐ์ค์ผ๋ก DRL ์ฐ๊ตฌ๋ฅผ ๋ถ๋ฅํ๊ณ ์ฑ์๋๋ฅผ ํ๊ฐํ๋ค.
#2) ๋ ผ๋ฌธ ํต์ฌ ํ๋ ์์ํฌ
๋ ผ๋ฌธ์ DRL ๋ก๋ณดํฑ์ค ์ฐ๊ตฌ๋ฅผ ์๋ 4์ถ์ผ๋ก ๋ถ์ํ๋ค.
| ๋ถ์ ์ถ | ์ค๋ช |
|---|---|
| Robotic Competency | ๋ก๋ด์ด ํ์ตํ ๋ฅ๋ ฅ(์ด๋, ์กฐ์, ์ฌ๋/๋ค์ค๋ก๋ด ์ํธ์์ฉ) |
| Problem Formulation | ์ํ/๊ด์ธก/๋ณด์/ํ๋๊ณต๊ฐ์ ์ด๋ป๊ฒ RL ๋ฌธ์ ๋ก ์ ์ํ๋์ง |
| Solution Method | ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ, sim-to-real, real-world learning ๋ฑ ํ์ต ์ ๋ต |
| Level of Real-World Success | ์คํ ์ฑ๊ณผ๋ฅผ ์ค์ ์ ์ฉ ์ฑ์๋(๋ ๋ฒจ)๋ก ํ๊ฐ |
#Real-World Success ๋ ๋ฒจ (์์ฝ)
| ๋ ๋ฒจ | ์๋ฏธ |
|---|---|
| L0 | ์๋ฎฌ๋ ์ด์ ์์๋ง ๊ฒ์ฆ |
| L1 | ์ ํ๋ ์คํ์ค ํ๊ฒฝ ๊ฒ์ฆ |
| L2 | ๋ค์ํ ์คํ์ค ํ๊ฒฝ ๊ฒ์ฆ |
| L3 | ์ ํ๋ ์ค์ ํ๊ฒฝ ๊ฒ์ฆ |
| L4 | ๋ค์ํ ์ค์ ํ๊ฒฝ ๊ฒ์ฆ |
| L5 | ์์ฉ ์ ํ/์๋น์ค ์์ค ๋ฐฐํฌ |
#3) ๋ฐํ ์ฌ๋ผ์ด๋ ์ ๋ก๋ ๋ฐฉ์
์๋์ฒ๋ผ ์ฌ๋ผ์ด๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฆฐ ๋ค, ๊ฐ ์ฅ ์ค๋ช ์ ์ฑ์ ๋ฃ๋๋ค.
- ์ด๋ฏธ์ง ๊ฒฝ๋ก ์์:
/assets/slides/drl-robot-251110/slide-01.png - ํ์ผ๋ช
๊ท์น:
slide-01.png,slide-02.png, โฆ,slide-30.png - ํ ์ฌ๋ผ์ด๋๋น ๊ตฌ์ฑ:
- ์ฌ๋ผ์ด๋ ์ด๋ฏธ์ง 1๊ฐ
- ํต์ฌ ๋ฉ์์ง 2~4๋ฌธ์ฅ
- ๋ด ํด์/๋นํ 2~3๋ฌธ์ฅ
#4) ์ฌ๋ผ์ด๋๋ณ ์ค๋ช ์ด์ (30์ฅ)
#Slide 01. ์ ๋ชฉ/์ ์ ์๊ฐ

์ด ๋ฐํ๋ DRL์ด ์ค์ ๋ก๋ณดํฑ์ค์ ์ผ๋ง๋ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์๋์ง ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์๋ฒ ์ด๋ฅผ ์๊ฐํ๋ค.
์ ์์ง์ UT Austin, University of Virginia, Sony AI ์์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๋ฐํ ๋ฒ์๊ฐ ๋์ด ์ดํ ์ฌ๋ผ์ด๋์ ๋ถ๋ฅ ์ฒด๊ณ๊ฐ ์ค์ํ๋ค.
#Slide 02. ๋ชฉ์ฐจ ๋ฐ ๋ฒ์ ์ด๋ ฅ

๋ฐํ ๊ตฌ์ฑ์ ์ด 13๊ฐ ์น์
(Contents&History โ Taxonomy โ Competency Review โ Locomotion โ Navigation โ Manipulation โ MoMa โ HRI โ Multi-Robot โ General Trends โ Key Future Directions โ Additional Table โ Appendix)์ผ๋ก ์ด๋ฃจ์ด์ง๋ค.
๋ฒ์ ์ด๋ ฅ(v0.1: 2025.11.10 ์ต์ด ์์ฑ, v0.2: 2025.12.01 ์์ )๋ ํฌํจ๋์ด ์์ด ๋ฐํ ์ค๋น ๊ณผ์ ์ ํ์ธํ ์ ์๋ค.
#Slide 03. ์ด ์๋ฒ ์ด์ ํ์์ฑ (Why This Survey)

๊ธฐ์กด ์๋ฒ ์ด๋ ์๋ฎฌ๋ ์ด์
์ค์ฌ์ด๊ฑฐ๋ ํน์ ๊ธฐ์ ยท์์
์ ํธํฅ๋์ด ์์๋ค. ์ด ๋
ผ๋ฌธ์ โ ์ค์ธ๊ณ ์ฑ๊ณต ์ค์ฌ ๋ถ์, โก ์๋ก์ด DRL ๋ถ๋ฅ ์ฒด๊ณ(์ญ๋/๋ฌธ์ ์ํํ/Solution/Success Level), โข ์ต์ DRL ๋ฐ์ ๋ฐฐ๊ฒฝ(์๋ฎฌ โ ์ค์ธ๊ณ ์ ํ) ์ธ ๊ฐ์ง ์ด์ ๋ก ๊ธฐํ๋๋ค.
์ฆ, โ์ด๋์ ์ฑ๊ณตํ๋๊ฐ?โ๋ผ๋ ์ง๋ฌธ์ ์ฒด๊ณ์ ์ผ๋ก ๋ตํ๊ธฐ ์ํ ํ์ด ์ด ์๋ฒ ์ด์ ์กด์ฌ ์ด์ ๋ค.
#Slide 04. ๋ถ๋ฅ: ๋ก๋ด ๋ฅ๋ ฅ ์ฒด๊ณ (Robot Competencies)

DRL๋ก ํ์ต ๊ฐ๋ฅํ ์ญ๋์ Mobility(Locomotion + Navigation), Manipulation(์กฐ์), Interaction with other agents(HRI + Multi-Robot)๋ก ๊ณ์ธตํํ๋ค.
Fig 1 ๋ค์ด์ด๊ทธ๋จ์ Single-Robot Competencies๊ฐ ์ด๋ป๊ฒ Mobile Manipulation์ผ๋ก ์ฐ๊ฒฐ๋๊ณ , ๋์๊ฐ ์ธ๊ฐยท๋ค์ค๋ก๋ด ์ํธ์์ฉ์ผ๋ก ํ์ฅ๋๋์ง๋ฅผ ํ๋์ ๋ณด์ฌ์ค๋ค.
#Slide 05. ๋ถ๋ฅ: ๋ฌธ์ ๊ณต์ํ (Problem Formulation)

RL ๋ฌธ์ ์ ์๋ Action Space(low-level ๊ด์ ๋ช
๋ น / mid-level ํ์คํฌ ๊ณต๊ฐ / high-level ์๊ฐ ํ์ฅ), Observation Space(๊ณ ์ฐจ์ ์ผ์ ์
๋ ฅ vs ์ ์ฐจ์ ์ผ์ ์
๋ ฅ), Reward Function(sparse vs dense) ์ธ ์ถ์ผ๋ก ๋ถ๋ฅํ๋ค.
Fig 2์ ํ์ค MDP ๋ค์ด์ด๊ทธ๋จ(Agent โ Environment: ์ก์
ยท๋ณด์ยท๊ด์ธก)์ ์ด ๋ถ๋ฅ๊ฐ ์ค์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง๋ฅผ ์ง๊ด์ ์ผ๋ก ์ ๋ฆฌํ๋ค.
#Slide 06. ๋ถ๋ฅ: ํด๋ฒ ์ ๊ทผ ๋ฐฉ์ 1 (Solution Approach)

Simulator usage ์ธก๋ฉด์์ sim-to-real(zero-shot, few-shot), offline/real ํ์ต์ผ๋ก ๊ตฌ๋ถ๋๋ฉฐ, Model learning์ Model-free์ Model-based๋ก ๋๋๋ค.
Fig 3(sim-to-real ๊ฐ๋
๋)๊ณผ Fig 4(์ ์ฒด ํ์ดํ๋ผ์ธ: Training Env โ Experience Tuples โ Learning Process โ Policy Network โ RL Agent)๊ฐ ํจ๊ป ์ ์๋์ด Solution Approach ์ฒด๊ณ์ ๊ธฐ๋ฐ์ ์๊ฐํํ๋ค.
#Slide 07. ๋ถ๋ฅ: ํด๋ฒ ์ ๊ทผ ๋ฐฉ์ 2 (Solution Approach, cont.)

Expert usage(human demo, oracle ๋ฑ), Policy Optimization(planning, Offline/On-Policy/Off-Policy RL), PolicyยทModel Representation(MLP, CNN, RNN, Transformer) ์ธ ๋ฒ์ฃผ๋ก Solution Approach๊ฐ ์์ฑ๋๋ค.
์ด ๊ตฌ๋ถ ์ฒด๊ณ๋ ์ดํ ๊ฐ ์ญ๋ ์น์
์์ ์ด๋ค ๋ฐฉ๋ฒ ์กฐํฉ์ด ์ค์ธ๊ณ ์ฑ๊ณต์ผ๋ก ์ด์ด์ก๋์ง ๋น๊ตํ๋ ๊ธฐ์ค์ด ๋๋ค.
#Slide 08. ๋ถ๋ฅ: ์ค์ธ๊ณ ์ฑ๊ณต ๋ ๋ฒจ (Real-World Success Level)

๊ธฐ์ ์ฑ์๋(Technology Readiness Level)์์ ์๊ฐ์ ๋ฐ์ Level 0(์๋ฎฌ๋ ์ด์
์์๋ง ๊ฒ์ฆ)~Level 5(์์ฉ ์ ํยท์๋น์ค ๋ฐฐํฌ)๋ฅผ ์ ์ํ๋ค.
๊ฐ์ RL ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๋ ์ด๋ ํ๊ฒฝ์์ ๊ฒ์ฆ๋๋์ง์ ๋ฐ๋ผ ์๋ฏธ๊ฐ ํฌ๊ฒ ๋ค๋ฅด๋ฏ๋ก, ์ด ๋ ๋ฒจ ์ฒด๊ณ๋ ๋ฌธํ ๋น๊ต์ ํต์ฌ ๊ธฐ์ค์ด ๋๋ค.
#Slide 09. Competency-Specific Review ์๊ฐ ๋ฐ ์์ ๋ฒ๋ก

์ดํ ์น์
์ Locomotion, Navigation, Manipulation, MoMa, HRI, Multi-Robot ๊ฐ ์ญ๋์ ์ง์ค ๋ฆฌ๋ทฐํ๋ฉฐ, ๋
ผ๋ฌธ ๋ ํผ๋ฐ์ค๋ฅผ ์ฑ์๋ ๊ธฐ์ค์ผ๋ก ์์ ์ฝ๋ฉํด ์ ์ํ๋ค.
์์ ๋ฒ๋ก: Limited Lab(์ฐํ ํ๋) / Diverse Lab(ํ๋) / Limited Real(์ฒญ๋ก) / Diverse Real(์งํ ์ฒญ๋ก) โ ์ด ๊ธฐ์ค์ผ๋ก ์ดํ ๋ชจ๋ ํ๋ฅผ ํด์ํ๋ฉด ๋๋ค.
#Slide 10. Locomotion ๊ฐ์

Legged Locomotion(Quadruped, Biped)๊ณผ Quadrotor Flight Control๋ก ๋ถ๋ฅ๋ ๋ฌธํ๋ค์ ๋ ํผ๋ฐ์ค ๋ฒํธ + ์ฑ์๋ ์์์ผ๋ก ์ ๋ฆฌํ ํ๋ค.
Quadruped๋ Diverse Real๊น์ง ์์ด ๋๊ฒ ํผ์ ธ ์์ด ์ฑ์๋๊ฐ ๊ฐ์ฅ ๋๊ณ , Biped์ Flight๋ ์๋์ ์ผ๋ก Limited ์์ญ์ ์ง์ค๋์ด ์๋ค.
#Slide 11. Locomotion ํต์ฌ ์์ฝ

DRL ๊ธฐ๋ฐ ์ฌ์กฑ๋ณดํ(quadruped) ๊ตฌํ์ ์ฑ์๋ ๋์; ์ด์กฑ๋ณดํ์ DoF๊ฐ ๋๊ณ ๋์ญํ์ด ์ด๋ ค์ ๋ ์ฑ์ํ๋ค. ํต์ฌ ์ฑ๊ณต ํจํด์ Zero-shot Sim-to-real(On-policy Model-Free)๊ณผ Privileged information(ํน๊ถ ์ ๋ณด ๊ฐ์ง Teacher โ Student ์ฆ๋ฅ).
Open questions: ํจ์จ์ ยท์์ ํ real-world ํ์ต, ์ด๋๊ณผ ๋ค๋ฅธ ์์
(๊ณ ์ฐจ์ยท๋ณตํฉยท์ฅ๊ธฐ ๋ชฉํ)์ ํตํฉ ๋ฐฉ๋ฒ.
#Slide 12. Navigation ๊ฐ์

Wheeled, Legged, Aerial ํ๋ซํผ๋ณ๋ก ๋ฌธํ์ ๋ ํผ๋ฐ์ค ๋ฒํธ + ์ฑ์๋ ์์์ผ๋ก ์ ๋ฆฌํ ํ๋ค.
Wheeled Navigation์ Diverse Lab/Real ์ฌ๋ก๊ฐ ๋ง๊ณ , Aerial์ ์๋์ ์ผ๋ก Diverse Real ์ฌ๋ก๊ฐ ์ ์ด ์ฑ์๋ ์ฐจ์ด๊ฐ ๋๋ ทํ๋ค.
#Slide 13. Navigation ํต์ฌ ์์ฝ

์ค๋ด Nav์์ end-to-end RL์ด ์๋ฎฌ๋ ์ด์
์ ๋ฐ์ด๋์ง๋ง, real-world์์๋ ๋ชจ๋์(classical stacks)์ด ๊ฐ์ฅ ์ฑ๊ณต์ ์ด๋ค. ์ผ๋ฐํยท์ค๋ช
๊ฐ๋ฅ์ฑยท์์ ์ฑ์ด ๋ถ์ฌํ๋ฉฐ, local plan + semantic exploration์ด ์ ๋งํ ์ ๊ทผ์ด๋ค.
Open questions: Nav stacks ์ค ์ผ๋ง๋ ํ์ต์ผ๋ก ๋์ฒดํ ์ง, Nav์ Locomotion์ ์ด๋ป๊ฒ ํจ๊ป ํ์ตํ ์ง, Safety Critical ๋ถ์ผ(์์จ์ฃผํ ๋ฑ)์์์ RL ์ญํ .
#Slide 14. Manipulation ๊ฐ์

์กฐ์ ๋ฌธํ์ Pick-and-place(Grasping / End-to-end / Pick-and-place), Contact-rich(Assembly / Articulated Objects / Deformable Objects), In-hand, Non-prehensile๋ก ์ธ๋ถํํด ๋ ํผ๋ฐ์ค ๋ฒํธ + ์ฑ์๋๋ก ์ ๋ฆฌํ๋ค.
์ฌ์ง ์์(pick-and-place, contact-rich, in-hand, non-prehensile)๋ก ๊ฐ ์๋ธํ์คํฌ๊ฐ ์ด๋ค ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ธ์ง ํ๋์ ํ์ธํ ์ ์๋ค.
#Slide 15. Manipulation ํต์ฌ ์์ฝ

RL์ ๊ณผ์ ๊ฐ Constrained(๋ฌผ์ฒดยทํ๊ฒฝ์ด ์ ํด์ง) + Enumerable a priori(๋ชฉํยท์ด๊ธฐ์กฐ๊ฑด์ ์ฌ์ ์ด๊ฑฐ ๊ฐ๋ฅ)ํ ๋ ๊ฐ์ฅ ์ฑ๊ณต์ โ grasping, in-hand manipulation์ด ๋ํ ์.
Open-world ํ์ฅ์ ์ํด์๋ Multi-task/Meta/Lifelong learning, Autonomous real-world learning(reward/reset ์๋ํ), Learning from human video, Leveraging demonstrations๊ฐ ํ์ํ๋ค.
#Slide 16. Manipulation ๋ฏธ๊ฒฐ ๊ณผ์ (Open Questions)

ํจ๊ณผ์ ์ธ priors(Symmetry, Collision-avoidance)๋ฅผ ์ด๋ป๊ฒ ํตํฉํ ์ง, ๊ทธ๋ฆฌ๊ณ ๋๋ถ๋ถ ์ฐ๊ตฌ๊ฐ ํ๋์ ๊ณ ๋ฆฝ๋ ์๋ธํ์คํฌ(specific action space)๋ง ๋ค๋ฃจ๋ ํ์ค์์ ์ด๋ป๊ฒ ํตํฉ๋ ์์คํ
์ ์ค๊ณํ ์ง๊ฐ ํต์ฌ ์ง๋ฌธ์ด๋ค.
์กฐ์์ ๋ฏธ๋๋ ๊ฒฐ๊ตญ โ์ฌ๋ฌ ์๋ธ ๋ฅ๋ ฅ์ ํ๋๋ก ๋ฌถ๋ ํตํฉ ์ค๊ณโ์ ๋ฌ๋ ค ์์ผ๋ฉฐ, ์ด ์ ์ด Manipulation์ ์ฌ์ ํ ์ด๋ ต๊ฒ ๋ง๋๋ ์ฃผ๋ ์ด์ ๋ค.
#Slide 17. Mobile Manipulation (MoMa) ๊ฐ์

MoMa ๋ฌธํ์ WBC(Whole-Body Control), Short-Horizon Interactive Tasks, Long-Horizon Interactive Tasks๋ก ๋ถ๋ฅํ๊ณ ๋ ํผ๋ฐ์ค + ์ฑ์๋๋ฅผ ์ ๋ฆฌํ๋ค.
Long-Horizon ๊ณผ์ ๋ ๋๋ถ๋ถ Limited Lab ์์ค์ ๋จธ๋ฌผ๋ฌ, ์ด๋๊ณผ ์กฐ์์ ๋์์ ์ฅ๊ธฐ์ ์ผ๋ก ๋ค๋ฃจ๋ ๊ฒ์ด ์ผ๋ง๋ ์ด๋ ค์ด์ง๋ฅผ ์ ๋ณด์ฌ์ค๋ค.
#Slide 18. Mobile Manipulation ํต์ฌ ์์ฝ

๋จ๊ธฐ ๊ณผ์
์์๋ sim-to-real ์ด๊ธฐ ์ฑ๊ณต ์ฌ๋ก๊ฐ ์์ผ๋, Action space ์ ํ์ด ์ฑ๋ฅ์ ๊ฒฐ์ ์ ์ํฅ์ ๋ฏธ์น๊ณ , ๋ค์ํ ํํ(morphology)๋ก์ ํ์ฅ๋ ์ค์ํ๋ค.
Open questions: Multi-tasking, Long-term memory, Safe exploration โ ์ด ์ธ ๊ฐ์ง๊ฐ MoMa์ ์ค์ธ๊ณ ํ์ฅ์ ๋ง๋ ํต์ฌ ๋ณ๋ชฉ์ด๋ค.
#Slide 19. Human-Robot Interaction (HRI) ๊ฐ์

Physical HRI(pHRI)๋ฅผ Non-Collaborative(ํผ์กํ ๊ณต๊ฐ์์์ ํํผ), Collaborative(ํ๋ ์์
), Shared Autonomy๋ก ๊ตฌ๋ถํ๊ณ , ๊ฐ ์ ํ๋ณ ๋ ํผ๋ฐ์ค์ ์ฑ์๋๋ฅผ ํ๋ก ์ ๋ฆฌํ๋ค.
HRI ์ ๋ฐ์ ์ฑ์๋๋ Diverse Lab ์ด์์ด ๋๋ฌผ์ด, ์ฌ๋๊ณผ์ ์ํธ์์ฉ์ด ํฌํจ๋ ๋ RL ๊ฒ์ฆ์ ๋์ด๋๊ฐ ์ผ๋ง๋ ์ค๋ฅด๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
#Slide 20. Human-Robot Interaction ํต์ฌ ์์ฝ

๋จ์ผ ๋ก๋ด ์ญ๋ ๋๋น ์ฑ๊ณต ์ฌ๋ก๊ฐ ์ ๊ณ , ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ์์ฒด๊ฐ ์ด๋ ต๋ค(Non-Markovian, Limited rationality, ๋น์ฉ ้ซ).
Future directions: ์ฌ๋๊ณผ ํจ๊ปํ๋ ์์ ํ real-world ํ์ต ๊ฐ๋ฅํ, ๋ ํ์ค์ ์ธ ์ธ๊ฐ ํ๋ ์๋ฎฌ๋ ์ด์
๊ฐ๋ฐ โ ์ด ๋ ๋ฐฉํฅ์ด ํด๊ฒฐ๋์ง ์์ผ๋ฉด HRI DRL์ ํ์ฅ์ ๊ณ์ ๋งํ๋ค.
#Slide 21. Multi-Robot Interaction ๊ฐ์

Multi-Robot Collision Avoidance, Loco-Manipulation, Robot Soccer ์ธ ์ ํ์ ์ฌ์ง๊ณผ ๋ ํผ๋ฐ์ค ๋ฒํธยท์ฑ์๋๋ฅผ ์ ๋ฆฌํ๋ค.
Robot Soccer(์ฐธ์กฐ 191)๊ฐ Diverse Real์ ํด๋นํ๊ณ , Collision Avoidance๋ ์ผ๋ถ Diverse Real ์ฌ๋ก๊ฐ ์์ผ๋ ์ ๋ฐ์ ์ผ๋ก ์ฑ์๋๊ฐ ๋ฎ๋ค.
#Slide 22. Multi-Robot Interaction ํต์ฌ ์์ฝ

๋์ง์ ํ๋ ฅ ํ๊ฒฝ์์๋ ์ฑ๊ณผ๊ฐ ์์ง๋ง, ๋ณต์ก๋์ ํ์ฅ์ฑ ๋ฌธ์ ๊ฐ ์ฌ์ ํ ํฌ๋ค๋ ์ ์ ์ ๋ฆฌํ๋ค.
ํต์ฌ ๊ณผ์ ๋ ์์ด์ ํธ ๊ฐ ํต์ , ํ์ต ์๋ ด์ฑ/์์ ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋นํ์กฐ ์ผ๋ฐ ์ํฉ์ผ๋ก์ ํ์ฅ์ด๋ค.
#Slide 23. General Trends

์ฑ์ํ ์์ญ(Locomotion, ์ผ๋ถ Navigation/Manipulation)๊ณผ ๋ฏธ์ฑ์ ์์ญ(MoMa, HRI, Multi-Robot)์ ๋น๊ตํด ์ ์ฒด ์งํ์ ๋ณด์ฌ์ค๋ค.
๋ํ ์ฑ์ํ ํด๋ฒ์ ๊ณตํต์ ์ผ๋ก zero-shot sim-to-real, dense reward engineering, on-policy ํ์ต ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ค.
#Slide 24. Key Future Directions

ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ๋ณด์/ํ๋๊ณต๊ฐ์ ์๋ฆฌ์ ์ค๊ณ, ๊ณ ์ ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ์ ํตํฉ, ํ์ค ๋ฒค์น๋งํน์ ๊ฐ์กฐํ๋ค.
๋ํ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํ์ฉํ ์ผ๋ฐํ, ์ธ์ด ์กฐ๊ฑดํ, ๋ณด์/์๋ฎฌ ์์ฐ ์์ฑ ๊ฐ๋ฅ์ฑ์ ํ์ฅ ํฌ์ธํธ๋ก ์ ์ํ๋ค.
#Slide 25. Additional Table: Problem Formulation (Table 1)

์ด ์ฅ์ ๋
ผ๋ฌธ์ Table 1์ ํตํด ๋ฌธ์ ๊ณต์ํ ์ถ(action/observation/reward)์ ๊ธฐ์ค์ผ๋ก ๊ธฐ์กด ๋ฌธํ์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ ฌํ๋ค.
์ฆ, ์ด๋ค ๊ณผ์ ์์ ์ด๋ค ๋ฌธ์ ์ ์๊ฐ ๋ง์ด ์ฐ์๋์ง ํ๋์ ๋น๊ตํ ์ ์๋ ์ฐธ๊ณ ํ๋ค.
#Slide 26. Additional Table: Problem Formulation (Table 1, continued)

Slide 25์ ์ฐ์ ํ์ด์ง๋ก, ๋์ผํ ๋ถ๋ฅ ๊ธฐ์ค์ ๋ ๋ง์ ๋ฌธํ์ ํ์ฅํด ๋ณด์ฌ์ค๋ค.
๋ฐํ ์์๋ ๋ด ๊ด์ฌ ๊ณผ์ ์ ์ ์ฌํ ๋ฌธ์ ์ค์ (๋ณด์/๊ด์ธก/ํ๋๊ณต๊ฐ)์ ์ฐพ์ ๊ทผ๊ฑฐ๋ก ์ธ์ฉํ๊ธฐ ์ข๋ค.
#Slide 27. Additional Table: Problem Formulation (Table 2)

Table 2์์๋ ๋ค๋ฅธ ๊ด์ ์ ๋ฌธ์ ๊ณต์ํ ๋ถ๋ฅ๋ฅผ ๋ณด๊ฐํด, domain ๊ฐ ๊ณตํต ํจํด๊ณผ ์ฐจ์ด๋ฅผ ๋น๊ตํ๊ฒ ํด์ค๋ค.
ํนํ ์ด๋ ๋๋ฉ์ธ์ด sparse/dense reward์ ์์กดํ๋์ง, ๊ด์ธก ์ฐจ์์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ํ์ธํ๋ ์ฉ๋๋ก ์ ์ฉํ๋ค.
#Slide 28. Additional Table: Problem Formulation (Table 2, continued)

Slide 27์ ์ฐ์ฅ์ผ๋ก, ํ ๊ธฐ๋ฐ ๊ทผ๊ฑฐ๋ฅผ ์ถฉ๋ถํ ์ ์ํด ๋ฐํ ๊ฒฐ๋ก ์ ์ ๋ขฐ๋๋ฅผ ๋์ด๋ ํ์ด์ง๋ค.
์์ฝํ ๋๋ โ๋ด๊ฐ ์ ํํ ํ์คํฌ๊ฐ ์ ํด๋น ๋ฌธ์ ์ค์ ์ ํํด์ผ ํ๋์งโ๋ฅผ ์ด ํ์ ์ฐ๊ฒฐํ๋ฉด ์ข๋ค.
#Slide 29. Additional Table: Solution Approach (Table 3)

Table 3๋ solution approach(์: sim-to-real, model-free/model-based, policy optimization) ๊ด์ ์์ ๋ฌธํ์ ๋ถ๋ฅํ๋ค.
์ฑ๊ณต ์ฌ๋ก๊ฐ ์ด๋ค ํ์ต ํ์ดํ๋ผ์ธ ์กฐํฉ์์ ์ฃผ๋ก ๋์๋์ง ๊ทผ๊ฑฐ๋ฅผ ์ ์ํ๋ ํต์ฌ ๋ถ๋ก ํ๋ค.
#Slide 30. Additional Table: Solution Approach (Table 3, continued)

๋ง์ง๋ง ์ฅ์ solution approach ํ์ ์ฐ์์ผ๋ก, ๋ฆฌ๋ทฐ ์ ์ฒด์ โ๋ฐฉ๋ฒ๋ก ๋ณ ์งํ๋โ๋ฅผ ๋ง๋ฌด๋ฆฌํ๋ค.
๋ด ๊ฒฐ๋ก ์์๋ ์ด ํ๋ฅผ ๊ทผ๊ฑฐ๋ก, ๋ค์ ํ๋ก์ ํธ์์ ์ฑํํ ํ์ต ์ ๋ต(์: zero-shot sim-to-real vs real-world finetuning)์ ๋ช
ํํ ์ ์ํ๋ฉด ์ข๋ค.
#5) ๋ด ๊ฒฐ๋ก (์ด์)
- DRL์ ์ค์ ์ฑ๊ณต์ ์ด๋ฏธ ์กด์ฌํ์ง๋ง, ๋ฌธ์ ์ ํ์ ๋ฐ๋ผ ์ฑ์๋ ํธ์ฐจ๊ฐ ๋งค์ฐ ํฌ๋ค.
- ์ง๊ธ๊น์ง์ ์ฑ๊ณต ๊ณตํต์ ์ sim-to-real ๊ฐ๋ฅ ๋ฌธ์ + ์ ๊ตํ ์์ง๋์ด๋ง(๋ณด์/๋๋ฉ์ธ๋๋คํ/์ก์ ์ค๊ณ)์ด๋ค.
- ์์ผ๋ก์ ์น๋ถ์ฒ๋ ์ค์ธ๊ณ ํ์ต ์์ ํ, ์ฅ๊ธฐ๊ณผ์ ํตํฉ, ์ฌ๋/๋ค์ค์์ด์ ํธ ์ํธ์์ฉ ์ผ๋ฐํ๋ค.
#6) ์๋ฌธ/๋ฐํ/์ฐ๊ตฌ ๊ธฐ๊ด ๋งํฌ
- ๋ ผ๋ฌธ(arXiv HTML): https://arxiv.org/html/2408.03539
- ๋ ผ๋ฌธ(PDF): https://www.cs.utexas.edu/~pstone/Papers/bib2html-links/chen_tang_ARCRAS2024.pdf
- ์๋ ๋ฐํ ์ฌ๋ผ์ด๋(PDF): https://www.cs.utexas.edu/~pstone/Papers/bib2html-links/chen_tang_ARCRAS2024.slides.pdf
- Learning Agents Research Group (LARG): https://www.cs.utexas.edu/~pstone/research.shtml
- Texas Robotics: https://robotics.utexas.edu
- RoBin Lab: https://robin-lab.cs.utexas.edu