#๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
Deep Reinforcement Learning for Robotics, A Survey of Real-World Successes
์์
๊ณผ์ ์์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๊ด์ฌ ์๋ ๊ฒ์ด ์์ด์, ๊ฐ์ง๊ณ ์ค๊ฒ ๋์๋ค.
#1) ๋ ผ๋ฌธ ํ๋์ ๋ณด๊ธฐ
- ๋ ผ๋ฌธ: Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes
- ๋ฒ์ : arXiv v3 (2024-09-16)
- ํต์ฌ ์ง๋ฌธ:
- DRL์ด ์ค์ ๋ก๋ด ๋ฌธ์ ์์ ์ด๋๊น์ง ์ฑ๊ณตํ๋๊ฐ?
- ์ด๋ค ์์ญ์ ์ฑ์ํ๊ณ , ์ด๋ค ์์ญ์ ์์ง ์ด๋ ค์ด๊ฐ?
์ด ๋ ผ๋ฌธ์ ๋จ์ ์๊ณ ๋ฆฌ์ฆ ๋น๊ต๊ฐ ์๋๋ผ, ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ฑ๊ณผ๋ฅผ ๊ธฐ์ค์ผ๋ก DRL ์ฐ๊ตฌ๋ฅผ ๋ถ๋ฅํ๊ณ ์ฑ์๋๋ฅผ ํ๊ฐํ๋ค.
#2) ๋ ผ๋ฌธ ํต์ฌ ํ๋ ์์ํฌ
๋ ผ๋ฌธ์ DRL ๋ก๋ณดํฑ์ค ์ฐ๊ตฌ๋ฅผ ์๋ 4์ถ์ผ๋ก ๋ถ์ํ๋ค.
| ๋ถ์ ์ถ | ์ค๋ช |
|---|---|
| Robotic Competency | ๋ก๋ด์ด ํ์ตํ ๋ฅ๋ ฅ(์ด๋, ์กฐ์, ์ฌ๋/๋ค์ค๋ก๋ด ์ํธ์์ฉ) |
| Problem Formulation | ์ํ/๊ด์ธก/๋ณด์/ํ๋๊ณต๊ฐ์ ์ด๋ป๊ฒ RL ๋ฌธ์ ๋ก ์ ์ํ๋์ง |
| Solution Method | ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ, sim-to-real, real-world learning ๋ฑ ํ์ต ์ ๋ต |
| Level of Real-World Success | ์คํ ์ฑ๊ณผ๋ฅผ ์ค์ ์ ์ฉ ์ฑ์๋(๋ ๋ฒจ)๋ก ํ๊ฐ |
#Real-World Success ๋ ๋ฒจ (์์ฝ)
| ๋ ๋ฒจ | ์๋ฏธ |
|---|---|
| L0 | ์๋ฎฌ๋ ์ด์ ์์๋ง ๊ฒ์ฆ |
| L1 | ์ ํ๋ ์คํ์ค ํ๊ฒฝ ๊ฒ์ฆ |
| L2 | ๋ค์ํ ์คํ์ค ํ๊ฒฝ ๊ฒ์ฆ |
| L3 | ์ ํ๋ ์ค์ ํ๊ฒฝ ๊ฒ์ฆ |
| L4 | ๋ค์ํ ์ค์ ํ๊ฒฝ ๊ฒ์ฆ |
| L5 | ์์ฉ ์ ํ/์๋น์ค ์์ค ๋ฐฐํฌ |
#3) ๋ฐํ ์ฌ๋ผ์ด๋ ์ ๋ก๋ ๋ฐฉ์
์๋์ฒ๋ผ ์ฌ๋ผ์ด๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฆฐ ๋ค, ๊ฐ ์ฅ ์ค๋ช ์ ์ฑ์ ๋ฃ๋๋ค.
- ์ด๋ฏธ์ง ๊ฒฝ๋ก ์์:
/assets/slides/drl-robot-251110/slide-01.png - ํ์ผ๋ช
๊ท์น:
slide-01.png,slide-02.png, โฆ,slide-30.png - ํ ์ฌ๋ผ์ด๋๋น ๊ตฌ์ฑ:
- ์ฌ๋ผ์ด๋ ์ด๋ฏธ์ง 1๊ฐ
- ํต์ฌ ๋ฉ์์ง 2~4๋ฌธ์ฅ
- ๋ด ํด์/๋นํ 2~3๋ฌธ์ฅ
#4) ์ฌ๋ผ์ด๋๋ณ ์ค๋ช ์ด์ (30์ฅ)
#Slide 01. ์ ๋ชฉ/์ ์ ์๊ฐ

์ด ๋ฐํ๋ DRL์ด ์ค์ ๋ก๋ณดํฑ์ค์ ์ผ๋ง๋ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์๋์ง ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์๋ฒ ์ด๋ฅผ ์๊ฐํ๋ค.
์ ์์ง์ UT Austin, University of Virginia, Sony AI ์์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๋ฐํ ๋ฒ์๊ฐ ๋์ด ์ดํ ์ฌ๋ผ์ด๋์ ๋ถ๋ฅ ์ฒด๊ณ๊ฐ ์ค์ํ๋ค.
#Slide 02. Deep RL์ ๊ธฐ์กด ์ฑ๊ณต๊ณผ ๋ก๋ณดํฑ์ค ๋์

DRL์ ๊ฒ์/์ถ์ฒ ๋ฑ์์ ์ด๋ฏธ ๊ฐ๋ ฅํ ์ฑ๊ณผ๋ฅผ ๋์ง๋ง, ์ค์ ๋ก๋ด์ ๋ฐ์ดํฐ ์์ง ๋น์ฉ๊ณผ ์์ ์ฑ ์ ์ฝ์ด ํจ์ฌ ํฌ๋ค.
์ฆ, โ์๋ฎฌ๋ ์ด์
์ฑ๋ฅโ๊ณผ โํ์ฅ ์ฑ๋ฅโ ์ฌ์ด์ ๊ฐ๊ทน์ด ํต์ฌ ๋ฌธ์ ๋ผ๋ ์ ์ ๋จผ์ ์ง๋๋ค.
#Slide 03. ์๋ฒ ์ด ๋ชฉํ์ ๋ถ๋ฅ ๊ธฐ์ค

์ด ์ฐ๊ตฌ์ ๋ชฉํ๋ DRL ๋ก๋ณดํฑ์ค ์ฑ๊ณผ๋ฅผ ๋ฅ๋ ฅ/๋ฌธ์ ์ ์/ํด๊ฒฐ๋ฒ/์ค์ธ๊ณ ์ฑ์๋๋ก ๋๋ ์ข
ํฉ ํ๊ฐํ๋ ๊ฒ์ด๋ค.
๋จ์ํ SOTA๋ฅผ ๋์ดํ๋ ๋์ , ์์ญ๋ณ ์ฑ์๋ ์ฐจ์ด์ ๊ณตํต ๋ณ๋ชฉ์ ์ฐพ๋ ๋ฐ ์ด์ ์ ๋๋ค.
#Slide 04. Taxonomy: ์ค์ธ๊ณ ์ฑ๊ณต ๋ ๋ฒจ

๊ธฐ์ ์ฑ์๋(TRL)์ ์ ์ฌํ ๊ด์ ์ผ๋ก, ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ โ์ค์ฌ์ฉ ๊ฐ๋ฅ์ฑโ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ๋ค.
๊ฐ์ ์ฑ๋ฅ ์์น๋ผ๋ ์ด๋ ํ๊ฒฝ์์ ๊ฒ์ฆ๋๋์ง์ ๋ฐ๋ผ ํด์์ด ๋ฌ๋ผ์ ธ์ผ ํ๋ค๋ ๋ฉ์์ง๋ค.
#Slide 05. Taxonomy: ๋ก๋ด ๋ฅ๋ ฅ ๋ถ๋ฅ

๋ฅ๋ ฅ์ ์ด๋(Mobility), ์กฐ์(Manipulation), ํ ์์ด์ ํธ ์ํธ์์ฉ์ผ๋ก ๋ถํดํ๋ค.
์ด ๋ถ๋ฅ๋ ์ดํ ๊ฐ ์ฅ์์ ์ ์ด๋ค ์์ญ์ ๋น ๋ฅด๊ฒ ์ฑ์ํ๊ณ , ์ด๋ค ์์ญ์ ๋๋์ง๋ฅผ ๋น๊ตํ๋ ๊ธฐ์ค์ด ๋๋ค.
#Slide 06. Locomotion ๊ฐ์

์ด๋ ์ ์ด๋ DRL์ ๋ํ ์ฑ๊ณต ์์ญ์ด๋ค.
ํนํ ์ฌ์กฑ๋ณดํ์์ sim-to-real ํ์ดํ๋ผ์ธ์ด ๋น๊ต์ ์์ ์ ์ผ๋ก ์๋ํ ์ฌ๋ก๊ฐ ์ถ์ ๋์๋ค.
#Slide 07. Locomotion ํต์ฌ ์์ฝ

์ฌ์กฑ๋ณดํ์ ์ฑ์๋๊ฐ ๋์ง๋ง, ์ด์กฑ๋ณดํ์ ๋์ญํ ๋์ด๋์ ํ๋์จ์ด ์ ๊ทผ์ฑ ๋๋ฌธ์ ์๋์ ์ผ๋ก ์ด๋ ต๋ค.
๋ํ zero-shot sim-to-real๊ณผ privileged information์ด ์์ฃผ ์ฐ์๊ณ , ํฅํ ๊ณผ์ ๋ ์์ ํ๊ณ ํจ์จ์ ์ธ ์ค์ธ๊ณ ํ์ต์ด๋ค.
#Slide 08. Navigation ๊ฐ์

๋ค๋น๊ฒ์ด์
์ ์ค์ ์ ์ฉ ๋งฅ๋ฝ์ด ๋ค์ํด ํ๊ฐ๊ฐ ์ด๋ ต๋ค.
์ค๋ด ์์จ์ฃผํ, ๋๋ก , ์ฐจ๋ ๋ฑ ํ๋ซํผ๋ณ ์๊ตฌ ์์ ์ฑ์ด ํฌ๊ฒ ๋ค๋ฅด๋ค๋ ์ ์ด ์ค์ํ๋ค.
#Slide 09. Navigation ํต์ฌ ์์ฝ

์๋ฎฌ๋ ์ด์
์์๋ end-to-end RL์ด ๊ฐ๋ ฅํ์ง๋ง, ์ค์ ์์คํ
์ ๋ชจ๋ํ ๊ตฌ์กฐ๊ฐ ์ฌ์ ํ ์ฐ์ธํ๋ค.
ํนํ ์์ ์ด ์ค์ํ ๋๋ฉ์ธ(์์จ์ฃผํ ๋ฑ)์์๋ RL ๋จ๋
๋ณด๋ค ๊ณ ์ ์ ๊ธฐ๋ฒ๊ณผ์ ๊ฒฐํฉ์ด ํ์ค์ ์ด๋ค.
#Slide 10. Manipulation ๊ฐ์

์กฐ์์ ์ํ/ํ๋๊ณต๊ฐ์ด ํฌ๊ณ ์ ์ด ๋์ญํ์ด ๋ณต์กํด ํ์ต ๋์ด๋๊ฐ ๋๋ค.
๊ทธ๋๋ ๊ณผ์
์ ์ ํํ๋ฉด ์ค์ธ๊ณ ์ฑ๊ณผ๊ฐ ๋น ๋ฅด๊ฒ ์ฌ๋ผ๊ฐ๋ค๋ ์ ์ด ๊ด์ฐฐ๋๋ค.
#Slide 11. Manipulation ํต์ฌ ์์ฝ

grasping, in-hand์ฒ๋ผ ๊ณผ์
์ ์๊ฐ ๋ช
ํํ ๊ฒฝ์ฐ zero-shot sim-to-real์ด ์ ์๋ํ๋ค.
๋ฐ๋๋ก open-world pick-and-place๋ ๋ค์์ฑ๊ณผ ์ฅ๊ธฐ ์์กด์ฑ ๋๋ฌธ์ ๋ฉํฐํ์คํฌ/ํ์ํ์ต/์์จ ๋ฆฌ์
๋ฑ ์ถ๊ฐ ๊ธฐ์ ์ด ํ์ํ๋ค.
#Slide 12. Manipulation (cont.) ํตํฉ ๊ณผ์

ํ์ฌ ์ฐ๊ตฌ๋ ์กฐ์ ํ์๋ฌธ์ ๋ฅผ ๋ถ๋ฆฌํด ํธ๋ ๊ฒฝํฅ์ด ๊ฐํ๋ค.
์์ผ๋ก๋ ์ถฉ๋ํํผ, ๋์นญ์ฑ priors, ๋ค์ํ ์ก์
๊ณต๊ฐ์ ํ ์์คํ
์ผ๋ก ํตํฉํ๋ ์ค๊ณ๊ฐ ํต์ฌ ๊ณผ์ ๊ฐ ๋๋ค.
#Slide 13. MoMa(Mobile Manipulation) ๊ฐ์

MoMa๋ ์ด๋๊ณผ ์กฐ์์ ๋์์ ์๊ตฌํ๋ ๋ณตํฉ ๋ฌธ์ ๋ค.
์คํ ์ค๊ณ ์์ฒด๊ฐ ์ด๋ ค์ ๋จ์ผ ์กฐ์ ๊ณผ์ ๋๋น ์ฑ๊ณต ์ฌ๋ก๊ฐ ์ ์ ํธ์ด๋ค.
#Slide 14. MoMa ํต์ฌ ์์ฝ

์ด๊ธฐ ์ฑ๊ณต์ ์์์ง๋ง ์ฃผ๋ก ๋จ๊ธฐ ๊ณผ์
์ค์ฌ์ด๋ฉฐ, ์ก์
๊ณต๊ฐ ์ ํ์ด ์ฑ๋ฅ์ ํฐ ์ํฅ์ ์ค๋ค.
๋ฉํฐํ์คํฌ, ์ฅ๊ธฐ๊ธฐ์ต, ์์ ํ์์ด MoMa ํ์ฅ์ ํต์ฌ ๋ณ๋ชฉ์ผ๋ก ์ ์๋๋ค.
#Slide 15. HRI ๊ฐ์

HRI๋ ์ฌ๋์ด ํ๊ฒฝ์ ์ผ๋ถ๊ฐ ์๋๋ผ ์ํธ์์ฉ ์ฃผ์ฒด๋ผ๋ ์ ์์ ๋์ด๋๊ฐ ๊ธ์์นํ๋ค.
์ฌ๋ ๋ฐ์ดํฐ ์์ง ๋น์ฉ๊ณผ ์ค๋ฆฌ/์์ ๋ฌธ์ ๋๋ฌธ์ ๋๊ท๋ชจ ํ์ต์ด ์ฝ์ง ์๋ค.
#Slide 16. HRI ํต์ฌ ์์ฝ

์ฌ๋ ํ๋์ ๋น๋ง์ฝํ์ฑ, ์ ํํฉ๋ฆฌ์ฑ ๋ฑ์ผ๋ก ๋จ์ ๋ชจ๋ธ๋ง์ด ์ด๋ ต๋ค.
ํฅํ ๋ฐฉํฅ์ ์ฌ๋๊ณผ ํจ๊ปํ๋ ์์ ํ ์ค์ธ๊ณ ํ์ต, ๊ทธ๋ฆฌ๊ณ ๋ ํ์ค์ ์ธ ์ธ๊ฐํ๋ ์๋ฎฌ๋ ์ด์
๊ตฌ์ถ์ด๋ค.
#Slide 17. Multi-Robot ๊ฐ์

๋ค์ค๋ก๋ด์ ์ํธ์์ฉ์ผ๋ก ์ธํด ๋ฌธ์ ๋ณต์ก๋๊ฐ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ค.
๊ฐ๋ณ ์ ์ฑ
์ต์ ํ๋ฟ ์๋๋ผ ํ ๋จ์ ์์ ์ฑ๊ณผ ํ์ฅ์ฑ์ด ๋์์ ์๊ตฌ๋๋ค.
#Slide 18. Multi-Robot ํต์ฌ ์์ฝ

๋์ง์ ํ์
ํ๊ฒฝ(์: ์ถฉ๋ํํผ)์์๋ ์ฑ๊ณต์ด ์์ผ๋, ์ผ๋ฐ์ ๋นํ์กฐ ํ๊ฒฝ์ ์์ง ๋ฏธ์ฑ์ํ๋ค.
ํต์ ์ค๊ณ, ํ์ต ์๋ ด์ฑ, ํ์ฅ ๊ฐ๋ฅํ ํ์
์ ๋ต์ด ํต์ฌ ๊ณผ์ ๋ค.
#Slide 19. General Trends

์ฑ์ํ ์์ญ์ locomotion๊ณผ ์ผ๋ถ navigation/manipulation์ด๋ฉฐ, MoMa/HRI/multi-robot์ ์๋์ ์ผ๋ก ๋ ์ฑ์ํ๋ค.
์ฑ๊ณต ์ฌ๋ก ๋ค์๋ ์๋ฎฌ๋ ์ด์
๊ตฌ์ถ์ด ๋น๊ต์ ์ฌ์ด ๋ฌธ์ ์์์ sim-to-real + ์น๋ฐํ ๋ณด์์ค๊ณ๋ผ๋ ๊ณตํต์ ์ ๋ณด์ธ๋ค.
#Slide 20. Future Directions I

ํฅํ 1์์๋ ํ์ต ์์ ์ฑ/์ํ ํจ์จ ๊ฐ์ ๊ณผ ์ค์ธ๊ณ ํ์ต ๊ฐ๋ฅ์ฑ ํ๋๋ค.
ํนํ ์ฅ๊ธฐ ๊ณผ์
์์ โ์ด๋ค ์คํฌ์ ํ์ตํด ์ด๋ป๊ฒ ์กฐํฉํ ์งโ๊ฐ ์์คํ
์ค๊ณ์ ํต์ฌ ์ง๋ฌธ์ผ๋ก ์ ์๋๋ค.
#Slide 21. Future Directions II

๋ณด์์ค๊ณ, ์ก์
๊ณต๊ฐ, ๊ณ ์ ์ ์ด์์ ๊ฒฐํฉ์ ์๋ฆฌ์ ์ผ๋ก ๋ค๋ฃจ๋ ์ ๊ทผ์ด ํ์ํ๋ค.
๋ํ ํ์ค ๋ฒค์น๋งํฌ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ํ์ฉ(์ผ๋ฐํ, ์ธ์ด์กฐ๊ฑด, ๋ฐ์ดํฐ/์๋ฎฌ ์์ฑ)์ด ์ค์ํ ํ์ฅ ๋ฐฉํฅ์ด๋ค.
#Slide 22. Multi-Robot Interaction ํต์ฌ ์์ฝ

๋์ง์ ํ๋ ฅ ํ๊ฒฝ์์๋ ์ฑ๊ณผ๊ฐ ์์ง๋ง, ๋ณต์ก๋์ ํ์ฅ์ฑ ๋ฌธ์ ๊ฐ ์ฌ์ ํ ํฌ๋ค๋ ์ ์ ์ ๋ฆฌํ๋ค.
ํต์ฌ ๊ณผ์ ๋ ์์ด์ ํธ ๊ฐ ํต์ , ํ์ต ์๋ ด์ฑ/์์ ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋นํ์กฐ ์ผ๋ฐ ์ํฉ์ผ๋ก์ ํ์ฅ์ด๋ค.
#Slide 23. General Trends

์ฑ์ํ ์์ญ(Locomotion, ์ผ๋ถ Navigation/Manipulation)๊ณผ ๋ฏธ์ฑ์ ์์ญ(MoMa, HRI, Multi-Robot)์ ๋น๊ตํด ์ ์ฒด ์งํ์ ๋ณด์ฌ์ค๋ค.
๋ํ ์ฑ์ํ ํด๋ฒ์ ๊ณตํต์ ์ผ๋ก zero-shot sim-to-real, dense reward engineering, on-policy ํ์ต ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ค.
#Slide 24. Key Future Directions

ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ๋ณด์/ํ๋๊ณต๊ฐ์ ์๋ฆฌ์ ์ค๊ณ, ๊ณ ์ ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ์ ํตํฉ, ํ์ค ๋ฒค์น๋งํน์ ๊ฐ์กฐํ๋ค.
๋ํ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํ์ฉํ ์ผ๋ฐํ, ์ธ์ด ์กฐ๊ฑดํ, ๋ณด์/์๋ฎฌ ์์ฐ ์์ฑ ๊ฐ๋ฅ์ฑ์ ํ์ฅ ํฌ์ธํธ๋ก ์ ์ํ๋ค.
#Slide 25. Additional Table: Problem Formulation (Table 1)

์ด ์ฅ์ ๋
ผ๋ฌธ์ Table 1์ ํตํด ๋ฌธ์ ๊ณต์ํ ์ถ(action/observation/reward)์ ๊ธฐ์ค์ผ๋ก ๊ธฐ์กด ๋ฌธํ์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ ฌํ๋ค.
์ฆ, ์ด๋ค ๊ณผ์ ์์ ์ด๋ค ๋ฌธ์ ์ ์๊ฐ ๋ง์ด ์ฐ์๋์ง ํ๋์ ๋น๊ตํ ์ ์๋ ์ฐธ๊ณ ํ๋ค.
#Slide 26. Additional Table: Problem Formulation (Table 1, continued)

Slide 25์ ์ฐ์ ํ์ด์ง๋ก, ๋์ผํ ๋ถ๋ฅ ๊ธฐ์ค์ ๋ ๋ง์ ๋ฌธํ์ ํ์ฅํด ๋ณด์ฌ์ค๋ค.
๋ฐํ ์์๋ ๋ด ๊ด์ฌ ๊ณผ์ ์ ์ ์ฌํ ๋ฌธ์ ์ค์ (๋ณด์/๊ด์ธก/ํ๋๊ณต๊ฐ)์ ์ฐพ์ ๊ทผ๊ฑฐ๋ก ์ธ์ฉํ๊ธฐ ์ข๋ค.
#Slide 27. Additional Table: Problem Formulation (Table 2)

Table 2์์๋ ๋ค๋ฅธ ๊ด์ ์ ๋ฌธ์ ๊ณต์ํ ๋ถ๋ฅ๋ฅผ ๋ณด๊ฐํด, domain ๊ฐ ๊ณตํต ํจํด๊ณผ ์ฐจ์ด๋ฅผ ๋น๊ตํ๊ฒ ํด์ค๋ค.
ํนํ ์ด๋ ๋๋ฉ์ธ์ด sparse/dense reward์ ์์กดํ๋์ง, ๊ด์ธก ์ฐจ์์ด ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋์ง ํ์ธํ๋ ์ฉ๋๋ก ์ ์ฉํ๋ค.
#Slide 28. Additional Table: Problem Formulation (Table 2, continued)

Slide 27์ ์ฐ์ฅ์ผ๋ก, ํ ๊ธฐ๋ฐ ๊ทผ๊ฑฐ๋ฅผ ์ถฉ๋ถํ ์ ์ํด ๋ฐํ ๊ฒฐ๋ก ์ ์ ๋ขฐ๋๋ฅผ ๋์ด๋ ํ์ด์ง๋ค.
์์ฝํ ๋๋ โ๋ด๊ฐ ์ ํํ ํ์คํฌ๊ฐ ์ ํด๋น ๋ฌธ์ ์ค์ ์ ํํด์ผ ํ๋์งโ๋ฅผ ์ด ํ์ ์ฐ๊ฒฐํ๋ฉด ์ข๋ค.
#Slide 29. Additional Table: Solution Approach (Table 3)

Table 3๋ solution approach(์: sim-to-real, model-free/model-based, policy optimization) ๊ด์ ์์ ๋ฌธํ์ ๋ถ๋ฅํ๋ค.
์ฑ๊ณต ์ฌ๋ก๊ฐ ์ด๋ค ํ์ต ํ์ดํ๋ผ์ธ ์กฐํฉ์์ ์ฃผ๋ก ๋์๋์ง ๊ทผ๊ฑฐ๋ฅผ ์ ์ํ๋ ํต์ฌ ๋ถ๋ก ํ๋ค.
#Slide 30. Additional Table: Solution Approach (Table 3, continued)

๋ง์ง๋ง ์ฅ์ solution approach ํ์ ์ฐ์์ผ๋ก, ๋ฆฌ๋ทฐ ์ ์ฒด์ โ๋ฐฉ๋ฒ๋ก ๋ณ ์งํ๋โ๋ฅผ ๋ง๋ฌด๋ฆฌํ๋ค.
๋ด ๊ฒฐ๋ก ์์๋ ์ด ํ๋ฅผ ๊ทผ๊ฑฐ๋ก, ๋ค์ ํ๋ก์ ํธ์์ ์ฑํํ ํ์ต ์ ๋ต(์: zero-shot sim-to-real vs real-world finetuning)์ ๋ช
ํํ ์ ์ํ๋ฉด ์ข๋ค.
#5) ๋ด ๊ฒฐ๋ก (์ด์)
- DRL์ ์ค์ ์ฑ๊ณต์ ์ด๋ฏธ ์กด์ฌํ์ง๋ง, ๋ฌธ์ ์ ํ์ ๋ฐ๋ผ ์ฑ์๋ ํธ์ฐจ๊ฐ ๋งค์ฐ ํฌ๋ค.
- ์ง๊ธ๊น์ง์ ์ฑ๊ณต ๊ณตํต์ ์ sim-to-real ๊ฐ๋ฅ ๋ฌธ์ + ์ ๊ตํ ์์ง๋์ด๋ง(๋ณด์/๋๋ฉ์ธ๋๋คํ/์ก์ ์ค๊ณ)์ด๋ค.
- ์์ผ๋ก์ ์น๋ถ์ฒ๋ ์ค์ธ๊ณ ํ์ต ์์ ํ, ์ฅ๊ธฐ๊ณผ์ ํตํฉ, ์ฌ๋/๋ค์ค์์ด์ ํธ ์ํธ์์ฉ ์ผ๋ฐํ๋ค.
#6) ์๋ฌธ/๋ฐํ/์ฐ๊ตฌ ๊ธฐ๊ด ๋งํฌ
- ๋ ผ๋ฌธ(arXiv HTML): https://arxiv.org/html/2408.03539
- ๋ ผ๋ฌธ(PDF): https://www.cs.utexas.edu/~pstone/Papers/bib2html-links/chen_tang_ARCRAS2024.pdf
- ์๋ ๋ฐํ ์ฌ๋ผ์ด๋(PDF): https://www.cs.utexas.edu/~pstone/Papers/bib2html-links/chen_tang_ARCRAS2024.slides.pdf
- Learning Agents Research Group (LARG): https://www.cs.utexas.edu/~pstone/research.shtml
- Texas Robotics: https://robotics.utexas.edu
- RoBin Lab: https://robin-lab.cs.utexas.edu