#์ฃผ์
- ์ฌ๋์ **3D ํฌ์ฆ ์ถ์ (HPE, Human Pose Forecasting)**๊ณผ **Trajectory Prediction(์ฌ๋์ ์ด๋ ๊ฒฝ๋ก ์์ธก)**์ ์ฐจ์ด๊ฐ ํฌ๋ค๋ ๊ฒ์ ์๊ฒ ๋์์ต๋๋ค.
- ๊ด๋ จ ๋ณด๊ณ ์์ด๋ค. Google gemini Deep Search ๊ธฐ๋ฅ์ ํตํ ๋ณด๊ณ ์์ด๋ค.
#์ต์ ์ธ๊ฐ ์์ธ ์์ธก ๋น๊ต ์ฐ๊ตฌ ๋ํฅ ๋ถ์ ๋ณด๊ณ ์
#I. ์๋ก
**์ธ๊ฐ ์์ธ ์์ธก(Human Pose Forecasting/Prediction)**์ ๊ณผ๊ฑฐ์ ๊ด์ฐฐ๋ ์ธ๊ฐ ๋์ ์ํ์ค๋ฅผ ๋ฐํ์ผ๋ก ๋ฏธ๋์ ์ธ๊ฐ ์์ธ ๋๋ ๋์์ ์์ธกํ๋ ์ปดํจํฐ ๋น์ ๋ฐ ๊ทธ๋ํฝ์ค ๋ถ์ผ์ ํต์ฌ ์ฐ๊ตฌ ์ฃผ์ ์ ๋๋ค.1
์ธ๊ฐ์ ๋ณธ๋ฅ์ ์ผ๋ก ํ์ธ์ ์์ง์์ ์์ธกํ์ฌ ๋ณต์กํ ํ๊ฒฝ ์์์ ์์ฐ์ค๋ฝ๊ฒ ์ด๋ํ๊ณ ์ ์ฌ์ ์ํ์ ํํผํ์ง๋ง, ๊ธฐ๊ณ๊ฐ ์ด๋ฌํ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋ ๊ฒ์ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.1 ํนํ ๋ก๋ด ๊ณตํ, ์์จ ์ฃผํ ์๋์ฐจ, ์ธ๊ฐ-์ปดํจํฐ ์ํธ์์ฉ(HCI), ๊ฐ์/์ฆ๊ฐ ํ์ค(VR/AR), ์คํฌ์ธ ๋ถ์, ์๋ฃ ๋ฐ ํฌ์ค์ผ์ด ๋ฑ์์ ๊ทธ ์ค์์ฑ์ด ๋ถ๊ฐ๋๊ณ ์์ต๋๋ค.2
์ด๊ธฐ ์ฐ๊ตฌ๋ ์ฃผ๋ก ๋จ์ผ ์ธ๋ฌผ์ ์งง์ ์๊ฐ(์ฝ 1์ด ์ด๋ด) ๋์์ ๋์ ์์ธก์ ์ด์ ์ ๋ง์ถ์์ผ๋1, ์ต๊ทผ ์ฐ๊ตฌ ๋ํฅ์ ๋ณด๋ค ํ์ค์ ์ด๊ณ ๋ณต์กํ ์๋๋ฆฌ์ค๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉํฅ์ผ๋ก ํ์ฅ๋๊ณ ์์ต๋๋ค. ์ด๋ ์์ธก ์๊ฐ ์งํ์ ์ ์ด ์ด์์ผ๋ก ๋๋ฆฌ๋ ์ฅ๊ธฐ ์์ธก(Long-term Prediction)1, ์ฌ๋ฌ ์ฌ๋์ ์ํธ์์ฉ์ ๊ณ ๋ คํ๋ ๋ค์ค ์์ด์ ํธ ์์ธก(Multi-agent Prediction)1, ์์ธก์ ๋ถํ์ค์ฑ์ ๋ชจ๋ธ๋งํ๋ ํ๋ฅ ๋ก ์ ์์ธก(Probabilistic Prediction)2, ๊ทธ๋ฆฌ๊ณ ํน์ ๊ฐ์ธ์ ๊ณ ์ ํ ์์ง์ ํจํด์ ์ ์ํ๋ ๊ฐ์ธํ ์์ธก(Personalized Prediction)3 ๋ฑ์ผ๋ก ๋ํ๋๊ณ ์์ต๋๋ค.
์ด๋ฌํ ์ฐ๊ตฌ ๋ํฅ์ ๋ณํ๋ ๋ ์ ํํ๊ณ ํ์ค์ ์ธ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐ์ ์ด์งํ๋ ๋์์, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค์ ์ฑ๋ฅ์ ๊ฐ๊ด์ ์ผ๋ก ๋น๊ตํ๊ณ ํ๊ฐํ ํ์์ฑ์ ์ฆ๋์ํต๋๋ค.
๋ณธ ๋ณด๊ณ ์๋ 2020๋ ๋ถํฐ 2025๋ ์ฌ์ด ๋ฐํ๋ ์ต์ ์ฐ๊ตฌ, ํนํ ๋ค์ํ ์์ธก ๋ฐฉ๋ฒ๋ก ๋ค์ ์ง์ ์ ์ผ๋ก ๋น๊ต, ๋ถ์, ํ๊ฐํ ๋ ผ๋ฌธ๋ค์ ์ค์ฌ์ผ๋ก ์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ์ ์ฐ๊ตฌ ๋ํฅ์ ์ฌ์ธต์ ์ผ๋ก ๊ฒํ ํ๊ณ ๋ถ์ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฃผ์ ์์ธก ๋ชจ๋ธ, ํ๊ฐ ๋ฐ์ดํฐ์ ๋ฐ ์งํ, ๋น๊ต ์คํ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ ์ฐ๊ตฌ์ ๊ฐ์ ๊ณผ ํ๊ณ์ ์ ์ข ํฉ์ ์ผ๋ก ์ดํด๋ณด๊ณ , ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๊ณ ์ ํฉ๋๋ค.
#II. ์ธ๊ฐ ์์ธ ์์ธก ๋ฐฉ๋ฒ๋ก ๊ฐ์
์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ๋ ๋ค์ํ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ ํด์์ต๋๋ค. ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ธ๊ฐ ๋์์ ์๊ณต๊ฐ์ ํน์ฑ์ ํฌ์ฐฉํ๊ณ ๋ฏธ๋๋ฅผ ์์ธกํ๊ธฐ ์ํด ๊ณ ์ ํ ์ ๊ทผ ๋ฐฉ์์ ์ฑํํฉ๋๋ค.
-
์ํ ์ ๊ฒฝ๋ง (Recurrent Neural Networks, RNNs):
- LSTM(Long Short-Term Memory)๊ณผ ๊ฐ์ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ๊ฐ์ ์ ๋ณด์ฌ ์ด๊ธฐ ์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ์์ ๋๋ฆฌ ์ฌ์ฉ๋์์ต๋๋ค.2
- ์ด ๋ชจ๋ธ๋ค์ ๊ณผ๊ฑฐ ๋์์ ์๊ฐ์ ๋งฅ๋ฝ์ ์ธ์ฝ๋ฉํ์ฌ ๋ค์ ํ๋ ์์ ์์ธ๋ฅผ ์์ธกํฉ๋๋ค.
- ๊ทธ๋ฌ๋ ๊ธด ์ํ์ค์ ๋ํ ์์กด์ฑ ํ์ต์ ์ด๋ ค์์ ๊ฒช๊ณ ์ค์ฐจ๊ฐ ๋์ ๋๋ ๊ฒฝํฅ์ด ์์ด ์ฅ๊ธฐ ์์ธก์๋ ํ๊ณ๋ฅผ ๋ณด์ ๋๋ค.4
-
๊ทธ๋ํ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ (Graph Convolutional Networks, GCNs):
- ์ธ๊ฐ ๊ณจ๊ฒฉ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ํ๋ก ๊ฐ์ฃผํ๊ณ , ๊ด์ ๊ฐ์ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๊ธฐ ์ํด GCN์ด ๋์ ๋์์ต๋๋ค.2
- GCN์ ์ ์ฒด ๋ถ์ ๊ฐ์ ์ํธ์์ฉ์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์์ผ๋ฉฐ, RNN๊ณผ ๊ฒฐํฉ๋์ด ์๊ณต๊ฐ์ ํน์ง์ ํจ๊ป ํ์ตํ๋ ๋ชจ๋ธ(์: DMST-GRNN4)๋ ์ ์๋์์ต๋๋ค.
-
ํธ๋์คํฌ๋จธ (Transformers):
- ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์ ์ฑ๊ณต์ ๊ฑฐ๋ ํธ๋์คํฌ๋จธ๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์ํ์ค ๋ด์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์๋ค๋ ์ฅ์ ๋๋ฌธ์ ์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ์์๋ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.4
- ํธ๋์คํฌ๋จธ๋ ์๊ฐ์ , ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ๋์์ ํ์ตํ๋ฉฐ, ํนํ ์ฅ๊ธฐ ์์ธก์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- MotionBERT5์ ๊ฐ์ ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ๋ จ๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ํ์ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
-
๋ณ์ดํ ์คํ ์ธ์ฝ๋ (Variational Autoencoders, VAEs) ๋ฐ ์์ฑ์ ์ ๋ ์ ๊ฒฝ๋ง (Generative Adversarial Networks, GANs):
- ๋ฏธ๋ ๋์์ ๋ถํ์ค์ฑ๊ณผ ๋ค์ค ๋ชจ๋(multi-modal) ํน์ฑ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด VAE๋ GAN๊ณผ ๊ฐ์ ์์ฑ ๋ชจ๋ธ์ด ํ์ฉ๋ฉ๋๋ค.2
- ์ด ๋ชจ๋ธ๋ค์ ๋จ์ผ ์์ธก ๋์ ๊ฐ๋ฅํ ์ฌ๋ฌ ๋ฏธ๋ ๋์์ ๋ถํฌ๋ฅผ ํ์ตํ์ฌ ๋ณด๋ค ํ์ค์ ์ด๊ณ ๋ค์ํ ์์ธก์ ์์ฑํ ์ ์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, Parsaeifard ๋ฑ์ VAE๋ฅผ ์ฌ์ฉํ์ฌ ์ง์ญ์ ์์ธ ๋์ญํ์ ์ํ ์์ฑ์ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ์ต๋๋ค.2
-
ํ์ฐ ๋ชจ๋ธ (Diffusion Models):
- ์ต๊ทผ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์์ฑ ๋ถ์ผ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ ํ์ฐ ๋ชจ๋ธ์ด ์ธ๊ฐ ๋์ ์์ธก ๋ฐ ์์ฑ ๋ถ์ผ์๋ ํ๋ฐํ ์ ์ฉ๋๊ณ ์์ต๋๋ค.6
- ํ์ฐ ๋ชจ๋ธ์ ๋ณต์กํ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ณ ๊ณ ํ์ง์ ๋ค์ํ ์ํ์ ์์ฑํ ์ ์๋ ๋ฅ๋ ฅ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.
- MDM7, PhysDiff8, AAMDM9 ๋ฑ์ด ๋ํ์ ์ธ ์์์ ๋๋ค.
-
ํ์ด๋ธ๋ฆฌ๋ ๋ฐ ๋ถ๋ฆฌ ๋ชจ๋ธ (Hybrid & Decoupled Models):
- ์ ์ญ์ ์ธ ์ด๋ ๊ฒฝ๋ก(trajectory) ์์ธก๊ณผ ์ง์ญ์ ์ธ ์์ธ(local pose) ์์ธก์ ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํ๋ ์ ๊ทผ ๋ฐฉ์๋ ์ ์๋์์ต๋๋ค.1
- ์ด๋ ํนํ ์ฅ๊ธฐ ์์ธก์ด๋ ๋ค์ค ์์ด์ ํธ ์๋๋ฆฌ์ค์์ ๋ณต์ก์ฑ์ ๊ด๋ฆฌํ๊ณ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
- T2P10 ๋ชจ๋ธ์ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ์ต๋๋ค.
์ด๋ฌํ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค์ ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ ๊ฐ์ง๋ฉฐ, ์์ธกํ๋ ค๋ ๋์์ ํน์ฑ(๋จ๊ธฐ/์ฅ๊ธฐ, ๋จ์ผ/๋ค์ค ์์ด์ ํธ, ๊ฒฐ์ ๋ก ์ /ํ๋ฅ ๋ก ์ )๊ณผ ์์ฉ ๋ถ์ผ์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฌ์ฉ๋๊ฑฐ๋ ๊ฒฐํฉ๋๊ณ ์์ต๋๋ค.
#III. ๋ฒค์น๋งํน ๋ฐ์ดํฐ์ ๋ฐ ํ๊ฐ ์งํ
์ธ๊ฐ ์์ธ ์์ธก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ๊ด์ ์ผ๋ก ํ๊ฐํ๊ณ ๋น๊ตํ๊ธฐ ์ํด์๋ ํ์คํ๋ ๋ฒค์น๋งํน ๋ฐ์ดํฐ์ ๊ณผ ์ ์ ํ ํ๊ฐ ์งํ๊ฐ ํ์์ ์ ๋๋ค.
#A. ์ฃผ์ ๋ฒค์น๋งํน ๋ฐ์ดํฐ์
๋ค์ํ ๋ฐ์ดํฐ์ ์ด ์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ์ ํ์ฉ๋๊ณ ์์ผ๋ฉฐ, ๊ฐ ๋ฐ์ดํฐ์ ์ ์์ง ํ๊ฒฝ, ์ธ์์, ๋์ ์ ํ, ์ฃผ์ ์ ํ๋ ๋ฑ์์ ํน์ง์ ๊ฐ์ง๋ค.
-
Human3.6M (H3.6M)3:
- 3D ์ธ๊ฐ ์์ธ ์์ธก ๋ฐ ๊ด๋ จ ์์ ์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ค๋ด ๋ฐ์ดํฐ์ ์ค ํ๋.3
- ๋ง์ปค ๊ธฐ๋ฐ ๋ชจ์ ์บก์ฒ ์์คํ ์ผ๋ก 360๋ง ๊ฐ์ ์ ํํ 3D ์์ธ ์ฃผ์ ์ ๊ณต.
- ์ฃผ๋ก ๋จ์ผ ์ธ๋ฌผ์ ๋ค์ํ ์ผ์ ํ๋ ํฌํจ, ์งง์ ์๊ฐ ์์ธก(์: ๊ณผ๊ฑฐ 0.4์ด ๊ด์ฐฐ ํ ๋ฏธ๋ 1์ด ์์ธก)3 ๋ฒค์น๋งํฌ์ ์ฃผ๋ก ์ฌ์ฉ.
- ํ๊ณ: ํต์ ๋ ํ๊ฒฝ, ๋์ ๋ค์์ฑ ์ ํ, ํ๊ท ์ ์์ง์ ์ด์ .3
-
CMU Motion Capture (CMU MoCap)3:
-
HumanEva3:
- H3.6M๊ณผ ์ ์ฌํ๊ฒ ์ค๋ด ํ๊ฒฝ์์ ์์ง, ๋น๋์ค์ ๋๊ธฐํ๋ 3D ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ ์ ๊ณต.3
-
AMASS (Archive of Motion Capture as Surface Shapes)5:
-
3DPW (3D Poses in the Wild)1:
-
MuPoTS-3D (Multi-Person Pose Tracking in 3D)1:
-
JRDB-GMP (JRDB-GlobMultiPose)1:
-
THรR13:
๊ธฐ์กด์ H3.6M, CMU MoCap๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ํต์ ๋ ํ๊ฒฝ์์ ์์ง๋์ด ๋์ ๋ค์์ฑ์ด ๋ถ์กฑํ๊ณ , ์ฃผ๋ก ์งง์ ์๊ฐ ์งํ์ ํ๊ท ์ ์ธ ์์ง์์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค.1 ์ด๋ ๋ก๋ด ๊ณตํ์ด๋ HCI์ ๊ฐ์ด ์ฅ๊ธฐ๊ฐ, ๋ค์์ ์ฌ๋๋ค๊ณผ ์ํธ์์ฉํ๋ฉฐ ๊ฐ์ธํ๋ ์์ธก์ด ํ์ํ ์ค์ ์์ฉ ์๋๋ฆฌ์ค์ ์๊ตฌ์ฌํญ์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํฉ๋๋ค.1
์ด๋ฌํ ํ๊ณ๋ฅผ ์ธ์ํ๊ณ JRDB-GMP1๋ THรR13๊ณผ ๊ฐ์ด ๋ณด๋ค ํ์ค์ ์ด๊ณ ๋์ ์ ์ธ ์๋๋ฆฌ์ค๋ฅผ ํฌํจํ๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ ค๋ ๋ ธ๋ ฅ์ด ์ด๋ฃจ์ด์ง๊ณ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ค์ํ ์ง์ ์ ์๋ฏธํฉ๋๋ค.
ํ 1: ์ธ๊ฐ ์์ธ ์์ธก ์ฃผ์ ๋ฒค์น๋งํน ๋ฐ์ดํฐ์ ๊ฐ์
| ๋ฐ์ดํฐ์ | ์ ํ | ์ฃผ์ ํน์ง | ์์ธก ์๊ฐ ์งํ | ์ฃผ์ ํ๊ณ์ | ๊ด๋ จ Snippet |
|---|---|---|---|---|---|
| Human3.6M | ์ค๋ด, ๋ง์ปค ๊ธฐ๋ฐ Mocap | 3.6M 3D ์์ธ, ๋จ์ผ ์ธ๋ฌผ ์์ฃผ, ๋ค์ํ ํ๋ | ๋จ๊ธฐ ์์ฃผ (~1s) | ํต์ ๋ ํ๊ฒฝ, ๋์ ๋ค์์ฑ ๋ถ์กฑ, ํ๊ท ์ ์์ง์ ์ด์ | 3 |
| CMU MoCap | ์ค๋ด, ๋ง์ปค ๊ธฐ๋ฐ Mocap | ๋๊ท๋ชจ, ๋ค์ํ ๋์ ์ ํ (์ผ์, ์คํฌ์ธ ๋ฑ) | ๋จ๊ธฐ/์ฅ๊ธฐ | ํต์ ๋ ํ๊ฒฝ | 3 |
| HumanEva | ์ค๋ด, ๋ง์ปค ๊ธฐ๋ฐ Mocap | ๋น๋์ค์ ๋๊ธฐํ๋ 3D Mocap ๋ฐ์ดํฐ | ๋จ๊ธฐ ์์ฃผ | ํต์ ๋ ํ๊ฒฝ | 3 |
| AMASS | Mocap ๋ฐ์ดํฐ ํตํฉ | SMPL ํ๋ผ๋ฏธํฐ, ๋ค์ํ ๋์ ๋ฐ ์ ์ฒด ํํ | ๋ค์ | Mocap ๋ฐ์ดํฐ ๊ธฐ๋ฐ (์ง์ ์์ง ์๋) | 5 |
| 3DPW | ์ผ์ธ, ๋น๋์ค+IMU | ์ค์ ์ผ์ธ ํ๊ฒฝ, โin-the-wildโ | ๋จ๊ธฐ ์์ฃผ | ์ต๋ 2๋ช , IMU ๊ธฐ๋ฐ ์์ธ ์ ํ๋ ์ด์ ๊ฐ๋ฅ์ฑ | 1 |
| MuPoTS-3D | ์ค๋ด/์ธ, ๋ง์ปค๋ฆฌ์ค Mocap | ๋ค์ค ์์ , ๋ค์ค ์ธ๋ฌผ(์ต๋ 20๋ช ), ๊ฐ๋ ค์ง/์กฐ๋ช ๋ณํ ํฌํจ | ๋จ๊ธฐ ์์ฃผ | ๋ง์ปค๋ฆฌ์ค ๊ธฐ๋ฐ ์์ธ ์ ํ๋ ์ด์ ๊ฐ๋ฅ์ฑ | 1 |
| JRDB-GMP | ์ค์ ํ๊ฒฝ, ๋น๋์ค ๊ธฐ๋ฐ | ์ฅ๊ธฐ(์ต๋ 5์ด), ๋ค์ค ์์ด์ ํธ(์ต๋ 24๋ช ), ์ค์ ์ํธ์์ฉ | ์ฅ๊ธฐ | ์๋ก์ด ๋ฐ์ดํฐ์ , ํ์คํ/๊ฒ์ฆ ํ์ | 1 |
| THรR | ์ค๋ด, ๊ณ ์ ๋ฐ Mocap | ๋ก๋ด ํฌํจ ํ๊ฒฝ, ๋์ ์์ ํ ๋น, ๋ค์ํ ์ํธ์์ฉ (์ถ์, ์ ์ง ๋ฑ) ์์ฑ ์๋ | ๋ค์ | ํน์ ํ๊ฒฝ(รrebro ๋ํ), ๋ฐ์ดํฐ ๊ท๋ชจ ํ์ฅ ํ์ | 13 |
| LaFAN1 | ์ค๋ด, Mocap | Ubisoft ๊ฐ๋ฐ, ๊ฒ์ ์ ๋๋ฉ์ด์ ๋ชฉ์ , ์ํธ์์ฉ ํฌํจ | ๋ค์ | ํน์ ๊ฒ์/์ ๋๋ฉ์ด์ ๋๋ฉ์ธ ํธํฅ ๊ฐ๋ฅ์ฑ | 9 |
| KIT-ML | ์ค๋ด, Mocap | ํ ์คํธ-๋์ ์ ๋ฐ์ดํฐ์ | ๋ค์ | ํ ์คํธ ์ฃผ์ ๊ธฐ๋ฐ, ์ธ์ด-๋์ ๋งคํ ์ด์ | 8 |
| HumanAct12 | Mocap ๋ฐ์ดํฐ ๊ธฐ๋ฐ | 12๊ฐ ์ก์ ์นดํ ๊ณ ๋ฆฌ ๋ถ๋ฅ | ๋ค์ | ์ก์ ๋ถ๋ฅ ๊ธฐ๋ฐ, ํน์ ์ก์ ํธํฅ ๊ฐ๋ฅ์ฑ | 8 |
| UESTC | ์ค๋ด, Mocap | 40๊ฐ ์ก์ ํด๋์ค, 40๋ช ํผํ์ | ๋ค์ | ์ก์ ๋ถ๋ฅ ๊ธฐ๋ฐ, ํน์ ์ก์ ํธํฅ ๊ฐ๋ฅ์ฑ | 8 |
| HumanML3D | Mocap ๋ฐ์ดํฐ + ํ ์คํธ | AMASS/HumanAct12 ๊ธฐ๋ฐ, ํ ์คํธ ์ฃผ์ ์ฌ์์ | ๋ค์ | ํ ์คํธ ์ฃผ์ ํ์ง/์ผ๊ด์ฑ ์ด์ ๊ฐ๋ฅ์ฑ | 8 |
#IV. ๋น๊ต ์ฐ๊ตฌ ๊ฒฐ๊ณผ ๋ฐ ์ฑ๋ฅ ๋ถ์
์ต๊ทผ ๋น๊ต ์ฐ๊ตฌ๋ค์ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค์ ์ฑ๋ฅ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ๊ณผ ํ๊ฐ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ์ํ๊ณ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ์ ๊ณผ ์ฝ์ , ๊ทธ๋ฆฌ๊ณ ํน์ ์กฐ๊ฑด์์์ ์ฐ์์ฑ์ ํ์ ํ ์ ์์ต๋๋ค.
#A. ๋ฐฉ๋ฒ๋ก ๋ณ ์ฑ๋ฅ ๋ถ์
-
RNNs/LSTMs:
- ์ข ์ข ๋น๊ต ์ฐ๊ตฌ์์ **๊ธฐ์ค์ (baseline)**์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ๋จ๊ธฐ ์์ธก์์๋ ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ฅ๊ธฐ ์์ธก์์๋ ์ค์ฐจ ๋์ ๊ณผ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต์ ์ด๋ ค์์ผ๋ก ์ธํด ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒฝํฅ์ด ์์ต๋๋ค.4
- GCN๊ณผ ๊ฒฐํฉ๋ DMST-GRNN ๋ชจ๋ธ์ H3.6M ๋ฐ CMU MoCap ๋ฐ์ดํฐ์ ์์ ๋จ์ RNN๋ณด๋ค ๋จ๊ธฐ ๋ฐ ์ฅ๊ธฐ ์์ธก ๋ชจ๋์์ ๊ฐ์ ๋ ํ๊ท ๊ฐ๋ ์ค์ฐจ(MAE)๋ฅผ ๋ณด์์ต๋๋ค.4
-
GCNs:
- ๊ณจ๊ฒฉ ๊ตฌ์กฐ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ์ ํฌ์ฐฉํ๋ฉฐ, ํนํ ๊ตฌ์กฐ ์ ๋ณด๊ฐ ์ค์ํ ์์ธก ์์ ์์ ๊ฐ์ ์ ๋ณด์ ๋๋ค.4
- ํ์ง๋ง ์์ํ๊ฒ ์๊ฐ์ ์ธ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํฌ์ฐฉ์๋ ํธ๋์คํฌ๋จธ๋ณด๋ค ์ฝํ ์ ์์ต๋๋ค.
- ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ธ MotionBERT๊ฐ GCN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค(ST-GCN, 2s-AGCN)๋ณด๋ค ์ก์ ์ธ์ ์์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ ์ 5์ ํธ๋์คํฌ๋จธ๊ฐ ์๊ณต๊ฐ์ ํน์ง์ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์์ ์์ฌํฉ๋๋ค.
-
Transformers:
- ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๋ฅ๋ ฅ ๋๋ถ์ ์์ธ ์ถ์ , ๋์ ์์ฑ ๋ฑ ๊ด๋ จ ๋ถ์ผ์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๊ณ ์์ผ๋ฉฐ8, ์ด๋ ์์ธ ์์ธก ๋ถ์ผ์์๋ ๋์ ์ ์ฌ๋ ฅ์ ๋ํ๋ ๋๋ค.
- MotionBERT๋ H3.6M ๋ฐ์ดํฐ์ ์์ 3D ์์ธ ์ถ์ (MPJPE ๊ธฐ์ค) SOTA๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ5, MDM์ HumanML3D, KIT, HumanAct12, UESTC ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ์ ์์ ํ ์คํธ/์ก์ ์กฐ๊ฑด๋ถ ๋์ ์์ฑ ๊ด๋ จ ์งํ(FID, R-Precision, Diversity ๋ฑ)์์ SOTA ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.7
- ์ด๋ ํธ๋์คํฌ๋จธ๊ฐ ๋ณต์กํ ์๊ณต๊ฐ์ ํจํด ํ์ต์ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค.4
-
Diffusion Models:
- ๋น๊ต ์ฐ๊ตฌ๋ ์ฃผ๋ก ๋์ โ์์ฑโ ์์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ง๋ง, ๊ทธ ๊ฒฐ๊ณผ๋ โ์์ธกโ ์ฑ๋ฅ์ ๋ํ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
- Diffusion ๋ชจ๋ธ์ ์์ฑ ํ์ง๊ณผ ๋ค์์ฑ ์ธก๋ฉด์์ SOTA ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.8
- ํนํ PhysDiff๋ MDM์ด๋ MotionDiffuse์ ๊ฐ์ ๊ธฐ์กด ํ์ฐ ๋ชจ๋ธ ๋๋น ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ๋ฉด์๋ FID๋ ๊ด๋ จ์ฑ ์ ์๋ ๊ฒฝ์๋ ฅ ์๊ฒ ์ ์งํ๊ฑฐ๋ ํฅ์์์ผฐ์ต๋๋ค.8
- AAMDM์ ๋๋ฆฐ ์ํ๋ง ์๋๋ผ๋ ํ์ฐ ๋ชจ๋ธ์ ๋จ์ ์ ๊ฐ์ ํ์ฌ, AMDM200๊ณผ ์ ์ฌํ ํ์ง๊ณผ ๋ค์์ฑ์ ํจ์ฌ ๋์ FPS๋ก ๋ฌ์ฑํ์ต๋๋ค.9
- ์ด๋ ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์์ธก์ด ๋์ ์ถฉ์ค๋์ ๋ค์์ฑ์ ์ ๊ณตํ ์ ์์ง๋ง, ํจ์จ์ฑ๊ณผ ์ ์ด ๊ฐ๋ฅ์ฑ์ ์ฌ์ ํ ์ฐ๊ตฌ๊ฐ ํ์ํ ์์ญ์์ ์์ฌํฉ๋๋ค.
-
Decoupled/Hierarchical Models:
- ์ ์ญ ๊ฒฝ๋ก์ ์ง์ญ ์์ธ๋ฅผ ๋ถ๋ฆฌํ๋ ๋ชจ๋ธ๋ค์ ํนํ ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ ์๋๋ฆฌ์ค์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค.1
- T2P ๋ชจ๋ธ์ JRDB-GMP ๋ฐ ์ด์ ๋ฐ์ดํฐ์ ์์ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ผ๋ก SOTA ์ฑ๋ฅ์ ์ฃผ์ฅํ์ผ๋ฉฐ10, Parsaeifard ๋ฑ์ VAE ๊ธฐ๋ฐ ๋ถ๋ฆฌ ๋ชจ๋ธ๋ ๊ธฐ์ค ๋ชจ๋ธ ๋๋น ์ฐ์์ฑ์ ์ฃผ์ฅํ์ต๋๋ค.2
- ์ด๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ถํดํ์ฌ ๋ค๋ฃจ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
#B. ๋น๊ต ๋ฌธํ์์ ํ์ธ๋ ๊ฐ์ ๊ณผ ์ฝ์
- RNNs:
- ๊ฐ์ : ๊ตฌํ ์ฉ์ด์ฑ, ์งง์ ์ํ์ค์ ์ ํฉ.
- ์ฝ์ : ๊ทธ๋๋์ธํธ ์์ค, ์ค์ฐจ ๋์ , ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๋ชจ๋ธ๋ง ์ทจ์ฝ.4
- GCNs:
- ๊ฐ์ : ๊ณจ๊ฒฉ ๊ตฌ์กฐ ๋ช ์์ ๋ชจ๋ธ๋ง.
- ์ฝ์ : ์์ ์๊ฐ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต์ ํธ๋์คํฌ๋จธ๋ณด๋ค ์ฝํ ์ ์์.
- Transformers:
- ๊ฐ์ : ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๋ชจ๋ธ๋ง ํ์, ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅ.
- ์ฝ์ : ๊ณ์ฐ ๋น์ฉ ๋์, ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ ๊ฐ๋ฅ์ฑ, GCN ๋๋น ๋ด์ฌ์ ๊ตฌ์กฐ ํธํฅ ๋ถ์กฑ.
- VAEs/GANs:
- ๊ฐ์ : ๋ถํ์ค์ฑ/๋ค์ค ๋ชจ๋ ๋ชจ๋ธ๋ง.
- ์ฝ์ : ํ์ต ๋ถ์์ ์ฑ(GANs), ํ์ฐ ๋ชจ๋ธ ๋๋น ํํ๋ ฅ ์ ํ ๋๋ ๋ชจ๋ ๋ถ๊ดด ๊ฐ๋ฅ์ฑ.
- Diffusion Models:
- Deterministic Models:
- ๊ฐ์ : ํ์ต ๋ฐ ํ๊ฐ ์ฉ์ด(MPJPE ์ฌ์ฉ).
- ์ฝ์ : ๋ฏธ๋ ๋ถํ์ค์ฑ ํฌ์ฐฉ ์คํจ, ์ง๋์น๊ฒ ๋ถ๋๋ฝ๊ฑฐ๋ ํ๊ท ์ ์ธ ์์ธก ์์ฑ ๊ฒฝํฅ.4
- Stochastic Models:
- ๊ฐ์ : ๋ค์ํ ๋ฏธ๋๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ํ์ค์ฑ ๋์.
- ์ฝ์ : ํ๊ฐ ์ด๋ ค์(๋ถํฌ ์งํ ํ์), ์ ์ด ์ด๋ ค์ธ ์ ์์.
#C. ์ต๊ทผ ๋น๊ต ์ฐ๊ตฌ์ ์ต์ฒจ๋จ ์ฑ๋ฅ ํ์ด๋ผ์ดํธ
- ๋จ๊ธฐ ์์ธก (H3.6M/CMU): GCN ๊ธฐ๋ฐ(์: DMST-GRNN4) ๋ฐ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ์ผ๋ฐ์ ์ผ๋ก ์ด์ RNN ์ ๊ทผ ๋ฐฉ์๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๊ตฌ์ฒด์ ์ธ SOTA MPJPE ๊ฐ์ ์ ํํ ์๊ฐ ๋ฒ์์ ํ๊ฐ ํ๋กํ ์ฝ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.
- ์ฅ๊ธฐ ์์ธก (H3.6M/CMU/JRDB-GMP): ๋์ ๋งฅ๋ฝ4, ์ํธ์์ฉ ์ธ์1, ๋ชฉํ ์กฐ๊ฑดํ1, ๋๋ ๋ถ๋ฆฌ ๊ธฐ๋ฒ1์ ํตํฉํ ๋ชจ๋ธ๋ค์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. T2P ๋ชจ๋ธ์ ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ ๋ฐ์ดํฐ์ ์ธ JRDB-GMP์์ SOTA ์ฑ๋ฅ์ ์ฃผ์ฅํ์ต๋๋ค.10
- ์์ฑ ํ์ง/๋ค์์ฑ (HumanML3D/KIT): MDM7 ๋ฐ PhysDiff8์ ๊ฐ์ ํ์ฐ ๋ชจ๋ธ์ ํ ์คํธ/์ก์ ์กฐ๊ฑด๋ถ โ์์ฑโ ์์ ์์ SOTA ์์ค์ FID, ๋ค์์ฑ, ๋ค์ค ๋ชจ๋ ์ ์๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ๊ณ ํ์ง ํ๋ฅ ๋ก ์ โ์์ธกโ์ ๋ํ ๊ฐ๋ ฅํ ์ ์ฌ๋ ฅ์ ์์ฌํฉ๋๋ค.
- ๋ฌผ๋ฆฌ์ ํ๋น์ฑ: PhysDiff8๋ ์ฌ๋ฌ ๋ฐ์ดํฐ์ (HumanML3D, HumanAct12, UESTC)์์ ๊ธฐ์ค ํ์ฐ ๋ชจ๋ธ(MDM, MotionDiffuse) ๋๋น ๋ฌผ๋ฆฌ์ ์ค๋ฅ(๋ฐ ๋ฏธ๋๋ฌ์ง, ์ง๋ฉด ํต๊ณผ, ๊ณต์ค ๋ถ์)๋ฅผ 78%~94%๊น์ง ํฌ๊ฒ ๊ฐ์์์ผฐ์ต๋๋ค.
- ํจ์จ์ฑ: AAMDM9์ LaFAN1 ๋ฐ์ดํฐ์ ์์ ํ์ค ์๊ธฐํ๊ท ํ์ฐ ๋ชจ๋ธ(AMDM200) ๋๋น ํ์ง/๋ค์์ฑ์ ์ ์งํ๋ฉด์ ์ฝ **40๋ฐฐ ๋น ๋ฅธ ์๋ ํฅ์(173 FPS)**์ ๋ณด์ฌ ์ค์๊ฐ ์ํธ์์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํ์ต๋๋ค. EMDM14 ์ญ์ ์ค์๊ฐ ์์ฑ์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ด๋ฌํ ๋น๊ต ๊ฒฐ๊ณผ๋ค์ ์ข ํฉํด ๋ณผ ๋, ํธ๋์คํฌ๋จธ๊ฐ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํฌ์ฐฉ์ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ์ ๋ณด์ด์ง๋ง4, ํนํ ๋ณต์กํ ์ฅ๊ธฐ ์์ธก์ด๋ ์ํธ์์ฉ ์๋๋ฆฌ์ค์์๋ GCN์ ํตํ ๊ตฌ์กฐ ์ ๋ณด ํ์ฉ4, ๋ช ์์ ์ธ ์ ์ญ/์ง์ญ ๋ถ๋ฆฌ1, ๋๋ ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ด8์ ๊ฐ์ด ๋๋ฉ์ธ ์ง์์ ํตํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ ๋ฐฉ์์ด ์ข ์ข ์ต์์ ์ฑ๋ฅ์ ์ด๋์ด๋ธ๋ค๋ ์ ์ ์ ์ ์์ต๋๋ค.
์ด๋ ๊ฐ๋ ฅํ ํํ๋ ฅ์ ๊ฐ์ง ์ํคํ ์ฒ์ ๋ช ์์ ์ธ ๊ตฌ์กฐ์ ๋๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ๊ฒฐํฉํ๋ ๊ฒ์ด ์ธ๊ฐ ๋์ ์์ธก์ ๋ฏธ๋ฌํ ์ธก๋ฉด์ ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ฐ ์ค์ํจ์ ์์ฌํฉ๋๋ค. ๋ํ, ํ์ฐ ๋ชจ๋ธ์์ ๋ํ๋๋ ์์ธก ํ์ง/๋ค์์ฑ๊ณผ ํจ์จ์ฑ ๊ฐ์ ๋ช ๋ฐฑํ ์์ถฉ ๊ด๊ณ14๋ ์ค์๊ฐ ์์ธก ์์ฉ์ ์ํ ๊ฐ์ํ ๊ธฐ์ ์ฐ๊ตฌ์ ํ์์ฑ์ ๋ถ๊ฐ์ํจ๋ค. ๋ง์ง๋ง์ผ๋ก, ์์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ์ ์ฃผ์ ์คํจ ๋ชจ๋ ์ค ํ๋์ธ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ๋ฌธ์ 8๋ PhysDiff8์ ๊ฐ์ ๋ช ์์ ํด๊ฒฐ์ฑ ์ ํตํด ๋ค๋ฅธ ์งํ์ ํฐ ์์ ์์ด ํฌ๊ฒ ๊ฐ์ ๋ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ฌผ๋ฆฌ ๋ฒ์น์ ๊ณ ๋ คํ ๋ชจ๋ธ๋ง์ด ํ์ค์ ์ธ ๊ณ ๋ ค ์ฌํญ์ด ๋์ด์ผ ํจ์ ์์ํฉ๋๋ค.
ํ 3: ์ฃผ์ ๋ฒค์น๋งํฌ์์์ ๋ชจ๋ธ ๊ณ์ด๋ณ ๋น๊ต ์ฑ๋ฅ ์์ฝ
| ๋ชจ๋ธ ๊ณ์ด | ์ฃผ์ ์์ ๋ชจ๋ธ/๋ ผ๋ฌธ | ๊ฐ์ (๋น๊ต ๊ธฐ๋ฐ) | ์ฝ์ (๋น๊ต ๊ธฐ๋ฐ) | ์ฃผ์ ๋ฒค์น๋งํฌ/์์ ์ฑ๋ฅ ์์ฝ (์์) | ๊ด๋ จ Snippet |
|---|---|---|---|---|---|
| RNN ๊ธฐ๋ฐ | LSTM2, DMST-GRNN (GCN+RNN)4 | ๋จ์์ฑ, ๋จ๊ธฐ ์ํ์ค ์ฒ๋ฆฌ | ์ฅ๊ธฐ ์์กด์ฑ ์ฝํจ, ์ค์ฐจ ๋์ | DMST-GRNN: H3.6M/CMU ๋จ๊ธฐ/์ฅ๊ธฐ MAE ๊ฐ์ (vs RNN) | 2 |
| GCN ๊ธฐ๋ฐ | ST-GCN, 2s-AGCN5, DMST-GRNN4 | ๊ณจ๊ฒฉ ๊ตฌ์กฐ ๋ช ์์ ๋ชจ๋ธ๋ง | ์์ ์๊ฐ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ์ฝํ ์ ์์ | DMST-GRNN: H3.6M/CMU MAE SOTA (๋น์) | 2 |
| Transformer ๊ธฐ๋ฐ | MotionBERT5, MDM7, T2P10 | ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๋ชจ๋ธ๋ง ํ์ | ๊ณ์ฐ ๋น์ฉ ๋์, ๊ตฌ์กฐ ํธํฅ ๋ถ์กฑ | MotionBERT: H3.6M 3D ์ถ์ MPJPE SOTA. MDM: HumanML3D/KIT/HumanAct12/UESTC ์์ฑ FID/Diversity SOTA. T2P: JRDB-GMP ์์ธก SOTA ์ฃผ์ฅ. | 4 |
| VAE/GAN ๊ธฐ๋ฐ | Parsaeifard et al.2 | ๋ถํ์ค์ฑ/๋ค์ค ๋ชจ๋ ๋ชจ๋ธ๋ง | ํ์ต ๋ถ์์ ์ฑ, ํํ๋ ฅ ์ ํ ๊ฐ๋ฅ์ฑ | Parsaeifard: ๋ถ๋ฆฌ ๋ชจ๋ธ ๊ธฐ์ค์ ๋๋น ์ฐ์ ์ฃผ์ฅ | 2 |
| Diffusion ๊ธฐ๋ฐ | MDM7, MotionDiffuse8, PhysDiff8, AAMDM9 | ์์ฑ ํ์ง/๋ค์์ฑ SOTA, ์ ์ฐํ ์กฐ๊ฑด ๋ถ์ฌ | ๋๋ฆฐ ์ํ๋ง, ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ํ๋ณด ์ด๋ ค์ | PhysDiff: ๋ฌผ๋ฆฌ์ ์ค๋ฅ ๋ํญ ๊ฐ์ (vs MDM/MD). AAMDM: AMDM200 ๋๋น ~40๋ฐฐ ๋น ๋ฆ (FPS) | 6 |
| Decoupled/Hierarchical | T2P10, Parsaeifard et al.2 | ๋ณต์ก์ฑ ๊ด๋ฆฌ ์ฉ์ด (ํนํ ์ฅ๊ธฐ/๋ค์ค ์์ด์ ํธ) | ๋ถ๋ฆฌ ๊ณผ์ ์์์ ์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ | T2P: JRDB-GMP ๋ฐ ์ด์ ๋ฐ์ดํฐ์ SOTA ์ฃผ์ฅ | 1 |
#V. ์ฃผ์ ์ฐ๊ตฌ ๋ํฅ ๋ฐ ์ง์์ ์ธ ๊ณผ์
์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ๋ ์์ฉ ๋ถ์ผ์ ์๊ตฌ์ฌํญ ์ฆ๊ฐ์ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ๋ฐ์ ์ ํ์ ์ด ๋น ๋ฅด๊ฒ ์งํํ๊ณ ์์ต๋๋ค. ๋ช ๊ฐ์ง ์ฃผ์ ์ฐ๊ตฌ ๋ํฅ๊ณผ ํจ๊ป ์ฌ์ ํ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ค์ด ์กด์ฌํฉ๋๋ค.
#A. ๋ถ์ผ๋ฅผ ํ์ฑํ๋ ์ฃผ์ ๋ํฅ
- ์ฅ๊ธฐ ์์ธก (Long-Term Prediction): ์์ธก ์๊ฐ ์งํ์ 1์ด ์ด๋ด์์ ์ ์ด ์ด์์ผ๋ก ํ์ฅํ๋ ค๋ ๋ ธ๋ ฅ.1 ์ด๋ ๋ถํ์ค์ฑ ์ฒ๋ฆฌ์ ๋ ๋์ ์์ค์ ๊ณํ ๋ฐ ์๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์๊ตฌํฉ๋๋ค.
- ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ (Multi-Agent Interaction): ์ฌ๋ฌ ์ฌ๋์ด ๋์์ ์ํธ์์ฉํ๋ ์ํฉ์์์ ์์ง์์ ๋ชจ๋ธ๋งํ๊ณ ์์ธก.1 ํ์ค์ ์ธ ์ฅ๋ฉด ์ดํด์ ํ์์ ์ด๋ฉฐ, ์ ํฉํ ๋ฐ์ดํฐ์ 1๊ณผ ์ํธ์์ฉ ์ธ์ ๋ชจ๋ธ์ด ํ์ํฉ๋๋ค.
- ํ๋ฅ ๋ก ์ /๋ค์ํ ์์ธก (Probabilistic/Diverse Forecasting): ๊ฒฐ์ ๋ก ์ ๋จ์ผ ์์ธก ๋์ , ๋ฏธ๋์ ๋ณธ์ง์ ์ธ ๋ถํ์ค์ฑ์ ๋ฐ์ํ์ฌ ๊ฐ๋ฅํ ์ฌ๋ฌ ๋ฏธ๋๋ฅผ ์์ฑ.1 VAE, GAN, ํ์ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ์์ฑ ๋ชจ๋ธ์ ์ํด ์ฃผ๋๋ฉ๋๋ค.
- ๊ฐ์ธํ (Personalization): ํนํ ์ฅ๊ธฐ๊ฐ์ HCI ์๋๋ฆฌ์ค์์ ๊ฐ์ธ์ ๊ณ ์ ํ ์์ง์ ์คํ์ผ, ์ ์ฒด ๋น์จ, ํ๋ ํน์ฑ ๋ฑ์ ์์ธก ๋ชจ๋ธ์ ์ ์์ํค๋ ์ฐ๊ตฌ.3 ์จ๋ผ์ธ ์ ์ ๋๋ ๊ฐ์ธ๋ณ ๋ชจ๋ธ ํ์ต์ด ํ์ํฉ๋๋ค.
- ์ฅ๋ฉด/๋งฅ๋ฝ/๋ฌผ๋ฆฌ ์ธ์ (Scene/Context/Physics Awareness): 3D ํ๊ฒฝ ์ ๋ณด15, ๋ฌผ์ฒด์์ ์ํธ์์ฉ16, ๋๋ ๋ฌผ๋ฆฌ ๋ฒ์น8์ ํตํฉํ์ฌ ๋ณด๋ค ํ์ค์ ์ด๊ณ ํ๊ฒฝ์ ์ ํฉํ ์์ธก์ ์์ฑํ๋ ค๋ ์๋.
- ์กฐ๊ฑด๋ถ ์์ธก (Conditioned Prediction): ํ ์คํธ8, ์ก์ 8, ๊ฒฝ๋ก1, ์ด๋ฏธ์ง17 ๋ฑ ๋ค์ํ ์ ๋ ฅ ์กฐ๊ฑด์ ๋ฐ๋ผ ๋์์ ์์ฑ/์์ธก. ์กฐ๊ฑด๋ถ ์์ฑ๊ณผ ๊ฒฝ๊ณ๊ฐ ๋ชจํธํ์ง๋ง ์ ์ด ๊ฐ๋ฅํ ์์ธก๊ณผ ๊ด๋ จ์ด ๊น์ต๋๋ค.
- ํฅ์๋ ์ํคํ ์ฒ (Improved Architectures): GCN, ํธ๋์คํฌ๋จธ, ํ์ฐ ๋ชจ๋ธ์ ์ง์์ ์ธ ํ๊ตฌ ๋ฐ ์ด๋ค์ ๊ฐ์ ๊ฒฐํฉ ๋๋ ๋๋ฉ์ธ ์ง์(์: ๋ถ๋ฆฌ, ๋ฌผ๋ฆฌ) ํตํฉ. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ ์ฌ์ ํ๋ จ.5
์ด๋ฌํ ์ฃผ์ ๋ํฅ๋ค(์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ, ํ๋ฅ ๋ก ์ , ๋งฅ๋ฝ ์ธ์)์ ์๋ก ๋ฐ์ ํ๊ฒ ์ฐ๊ด๋์ด ์์ผ๋ฉฐ, ๋ณต์กํ๊ณ ์ํธ์์ฉ์ ์ธ ํ๊ฒฝ์์ ๋ณด๋ค ํ์ค์ ์ด๊ณ ์ ์ฉํ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ ค๋ ๊ณต๋์ ๋ชฉํ๋ฅผ ํฅํด ๋์๊ฐ๊ณ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์ฅ๊ธฐ ์์ธก์ ํ์ฐ์ ์ผ๋ก ๋งฅ๋ฝ๊ณผ ์ํธ์์ฉ์ ๋ํ ์ดํด๋ฅผ ์๊ตฌํ๋ฉฐ, ์ค์ ์ํธ์์ฉ์ ์ฌ๋ฌ ์์ด์ ํธ๋ฅผ ํฌํจํ๊ณ ๋ฏธ๋๋ ๋ถํ์คํ๋ฏ๋ก ํ๋ฅ ๋ก ์ ์ ๊ทผ์ด ํ์ํฉ๋๋ค. ์ด์ฒ๋ผ ๊ฐ ๋ํฅ์ ๋จํธ์ ์ธ ๋ฐ์ ์ด ์๋๋ผ, ํต์ ๋ ํ๊ฒฝ์์์ ๋จ์ํ ๊ธฐ๊ตฌํ์ ์ธ์ฝ์ ๋์ด์๋ ค๋ ํฌ๊ด์ ์ธ ๋ชฉํ์ ์ฌ๋ฌ ์ธก๋ฉด์ ๋ํ๋ ๋๋ค.
#B. ๋น๊ต ๋ฆฌ๋ทฐ์์ ๊ฐ์กฐ๋ ์ฃผ์ ์ฅ์ ๋ฌผ
- ๋ฐ์ดํฐ ํ์ง, ์, ํธํฅ (Data Quality, Quantity, and Bias): ํนํ ๋ค์ค ์์ด์ ํธ, ์ฅ๊ธฐ, ์ค์ ํ๊ฒฝ ์๋๋ฆฌ์ค๋ฅผ ์ํ ๋ ํฌ๊ณ , ๋ค์ํ๋ฉฐ, ์ ํํ๊ฒ ์ฃผ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ ํ์์ฑ.1 ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ฉฐ1, ์ค์ ๋ฐ์ดํฐ(ground truth) ์ ํ๋๋ ๋ฌธ์ ๊ฐ ๋ ์ ์์ต๋๋ค.13
- ํ๊ฐ์ ์๋ฐ์ฑ (Evaluation Rigor): MPJPE์ ๊ฐ์ ๋จ์ ์งํ์ ๋ํ ๊ณผ๋ํ ์์กด.18 ์ ํ๋, ๋ค์์ฑ, ํ๋น์ฑ, ๊ด๋ จ์ฑ, ํจ์จ์ฑ์ ํฌ๊ดํ๋ ์ข ํฉ์ ์ธ ํ๊ฐ ์ฒด๊ณ์ ํ์์ฑ.12 ๋ฒค์น๋งํน ํ๋กํ ์ฝ์ ๋ฐ์ ํ์.3
- ์ผ๋ฐํ (Generalization): ํน์ ๋ฐ์ดํฐ์ (์ฃผ๋ก ๋ชจ์ ์บก์ฒ)์์ ํ๋ จ๋ ๋ชจ๋ธ์ด ๋ค์ํ ์ค์ ํ๊ฒฝ ์๋๋ฆฌ์ค(โin-the-wildโ)๋ก ์ ์ผ๋ฐํ๋์ง ์์ ์ ์์. ๋๋ฉ์ธ ๊ฐ๊ทน ๋ฌธ์ .19
- ๋ฌผ๋ฆฌ์ ํ๋น์ฑ (Physical Plausibility): ํนํ ์์ฑ ๋ชจ๋ธ๊ณผ ์ฅ๊ธฐ ์์ธก์์ ์์ธก ๊ฒฐ๊ณผ๊ฐ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ค์ํ๊ณ ์ธ๊ณต์ ์ธ ์ค๋ฅ(artifact)๋ฅผ ํํผํ๋๋ก ๋ณด์ฅํ๋ ๊ฒ์ด ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ .8
- ์ ์ด ๊ฐ๋ฅ์ฑ (Controllability): ์์ฑ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ์ฌ ํน์ ์ํ๋ ๋์(์กฐ๊ฑด๋ถ ์์ธก ๊ด๋ จ)์ ์์ฑํ๋ ๊ฒ์ ์ด๋ ค์.7
- ๊ณ์ฐ ๋น์ฉ / ์ค์๊ฐ ์ ์ฝ (Computational Cost / Real-time Constraints): ํธ๋์คํฌ๋จธ, ํนํ ํ์ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ๋ณต์กํ ๋ชจ๋ธ์ ๊ณ์ฐ ๋น์ฉ์ด ๋์ ์ค์๊ฐ ์์ฉ์ ์ ํดํ ์ ์์.7
- ๊ฐ๋ ค์ง ๋ฐ ๋ ธ์ด์ฆ ์ฒ๋ฆฌ (Handling Occlusion and Noise): ์ค์ ์ ๋ ฅ ๋ฐ์ดํฐ(์์ธ ์ถ์ ๊ฒฐ๊ณผ)๋ ๊ฐ๋ ค์ง์ผ๋ก ์ธํด ์ข ์ข ๋ ธ์ด์ฆ๊ฐ ์๊ฑฐ๋ ๋ถ์์ ํจ.6 ์์ธก ๋ชจ๋ธ์ ์ด๋ฌํ ๋ถ์์ ์ฑ์ ๊ฐ์ธํด์ผ ํ๋ค.
์ง์์ ์ธ ๊ณผ์ ์ค ์๋น์๊ฐ ๋ฐ์ดํฐ ๋ฐ ํ๊ฐ์ ๊ด๋ จ๋์ด ์๋ค๋ ์ 1์ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ์ด๋ ์ฐ๊ตฌ ๋ฐ์ ์ด ๋ชจ๋ธ ์ํคํ ์ฒ๋ฟ๋ง ์๋๋ผ ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ํ๊ณ์ ์ํด์๋ ์ ์ฝ์ ๋ฐ์ ์ ์์์ ์์ฌํฉ๋๋ค. ๋ง์ฝ ๋ฐ์ดํฐ์ ์ ๋ค์์ฑ์ด ๋ถ์กฑํ๊ฑฐ๋ ํ๊ฐ ์งํ๊ฐ ํ๋น์ฑ ๋๋ ์ํธ์์ฉ ํ์ง๊ณผ ๊ฐ์ ์ค์ํ ์ธก๋ฉด์ ํฌ์ฐฉํ์ง ๋ชปํ๋ค๋ฉด, ์ ๊ตํ ๋ชจ๋ธ์ด๋ผ ํ ์ง๋ผ๋ ์ค์ ์ ์ฉ์ฑ์ ์ํด ํจ๊ณผ์ ์ผ๋ก ๊ฐ๋ฐ๋๊ฑฐ๋ ํ๊ฐ๋์ง ๋ชปํ ์ ์์ต๋๋ค. ์๋ก์ด ๋ฐ์ดํฐ์ 1๊ณผ ์งํ8 ๊ฐ๋ฐ์ ๋ํ ๊ฐ์กฐ๋ ์ด๋ฌํ ๋ฌธ์ ์ธ์์ ๋ฐ์ํฉ๋๋ค.
๋ํ, ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ๋ฌธ์ 8๋ ์ ์ฐํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ๊ณผ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ์๊ฒฉํ ์ ์ฝ ์ฌ์ด์ ๊ทผ๋ณธ์ ์ธ ๊ธด์ฅ์ ๋๋ฌ๋ ๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฐ๋ ๋ฅ์ํ์ง๋ง, ๋ช ์์ ์ผ๋ก ํํ๋์ง ์์ ์๊ฒฉํ ์ ์ฝ์ ๊ฐ์ ํ๋ ๋ฐ๋ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ๋ฌผ๋ฆฌ ์์ง์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ํ ๊ธฐ์ค ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ํตํฉ ์๋ฎฌ๋ ์ด์ 8์ด๋ ๋ฌผ๋ฆฌ ์ ๋ณด ๊ธฐ๋ฐ ์์ค/๊ฐํํ์ต16 ๋ฑ์ ํตํด ์ด ๋์ ๊ฒฐํฉํ๋ ๊ฒ์ด ์ง์ ์ผ๋ก ํ์ค์ ์ธ ๋์์ ์์ฑํ๋ ๋ฐ ํ์ํ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ๋ณด์ ๋๋ค.
#VI. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ๋ฐ ๊ฒฐ๋ก
์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ์ ๋น๊ต ์ฐ๊ตฌ๋ค์ ํ์ฌ ๊ธฐ์ ์์ค์ ์กฐ๋ช ํ๊ณ ํฅํ ์ฐ๊ตฌ๊ฐ ๋์๊ฐ์ผ ํ ๋ฐฉํฅ์ ๋ํ ์ค์ํ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
#A. ๋ฆฌ๋ทฐ์์ ์ข ํฉ๋ ํฅํ ์ฐ๊ตฌ ๊ธฐํ
- ๋ ๋์ ๋ฒค์น๋งํฌ ๊ตฌ์ถ: ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ, ์ํธ์์ฉ, ์ค์ ํ๊ฒฝ ์์ธก์ ์ํ ๋ ๋ค์ํ๊ณ , ๋๊ท๋ชจ์ด๋ฉฐ, ์ ํํ๊ฒ ์ฃผ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์ ๊ฐ๋ฐ.1 ์ ํ๋, ๋ค์์ฑ, ํ๋น์ฑ, ํจ์จ์ฑ, ์์ ๊ด๋ จ์ฑ์ ํฌ๊ดํ๋ ์ ์ฒด๋ก ์ ์ฑ๋ฅ์ ์ด์ ์ ๋ง์ถ ํ์คํ๋ ํ๊ฐ ํ๋กํ ์ฝ ์ ๋ฆฝ. ๊ฐ์ธํ ์์ธก์ ์ํ ํน์ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ.3
- ์ฅ๊ธฐ ๋ฐ ์ํธ์์ฉ ๋ชจ๋ธ ๊ฐ์ : ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ, ๋ชฉํ ์งํฅ์ ํ๋, ๋ณต์กํ ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ์ ๋ ์ ๋ชจ๋ธ๋งํ ์ ์๋ ์ํคํ ์ฒ ๊ฐ๋ฐ.1 ๊ณ์ธต์ ๋ชจ๋ธ, ๋ฉ๋ชจ๋ฆฌ ๋ฉ์ปค๋์ฆ, ์ฌํ์ ์ํธ์์ฉ ์ฌ์ ์ง์ ํ๊ตฌ.
- ํจ์จ์ ์ด๊ณ ์ ์ด ๊ฐ๋ฅํ ์์ฑ ๋ชจ๋ธ: ํ์ฐ ๋ชจ๋ธ์ ๋ ๋น ๋ฅธ ์ํ๋ง ๋ฐฉ๋ฒ ์ฐ๊ตฌ14 ๋ฐ ์กฐ๊ฑด๋ถ ์์ธก์ ์ํ ์์ฑ ์ถ๋ ฅ ์ ์ด ๋ฅ๋ ฅ ํฅ์.20 ํ๋ก์ฐ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ๋์ ํ์.6
- ํฅ์๋ ๋ฌผ๋ฆฌ์ ํ์ค์ฑ: ๋ฌผ๋ฆฌ์ ์ฌ์ ์ง์์ ๋ชจ๋ธ์ ๋ ๊น๊ณ ํจ์จ์ ์ผ๋ก ํตํฉํ์ฌ, ์ฌํ ๋ณด์ ์ด๋ ๋น์ฉ์ด ๋ง์ด ๋๋ ์๋ฎฌ๋ ์ด์ ๋จ๊ณ๋ฅผ ๋์ด์๋ ๋ฐฉ์ ๋ชจ์.8 ๋ฌผ๋ฆฌํ์ ์์์ ์ผ๋ก ํ์ตํ๊ฑฐ๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌํ ํ์ฉ ํ๊ตฌ.
- ๊ฐ์ธํ ๋ฐ ์ ์: ์ ํ๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฐ์ธํ ๊ฐ์ธํ ๋ชจ๋ธ์ ํ์ตํ๊ฑฐ๋ ์จ๋ผ์ธ์์ ๊ฐ๋ณ ์ฌ์ฉ์์๊ฒ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ๋ฐฉ๋ฒ ๊ฐ๋ฐ.3
- ์ค๋ช ๊ฐ๋ฅ์ฑ ๋ฐ ์ ๋ขฐ์ฑ (Explainability and Trustworthiness): ๋ชจ๋ธ์ด ๋ณต์กํด์ง์ ๋ฐ๋ผ, ํนํ ์์ ์ด ์ค์ํ ์์ฉ ๋ถ์ผ์์ ํน์ ์์ธก์ด ์ด๋ฃจ์ด์ง ์ด์ ๋ฅผ ์ดํดํ๋ ๊ฒ์ด ์ค์ํด์ง.21
- ๊ต์ฐจ ๋ชจ๋ฌ ์์ธก (Cross-Modal Forecasting): ๊ณผ๊ฑฐ ์์ธ ์ธ์ ์ฅ๋ฉด ์ ๋ณด(์ด๋ฏธ์ง17, 3D ์ค์บ15), ์ค๋์ค, ํ ์คํธ ์ง์นจ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์์(modalities)์ ์์ธก ํ๋ก์ธ์ค์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ํตํฉ.
์ฃผ๋ชฉํ ์ ์, ์ ์๋ ๋ง์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๋ค์ด ์์ ์๋ณ๋ ์ง์์ ์ธ ๊ณผ์ ๋ค(์: ๋ฐ์ดํฐ ํ๊ณ๋ฅผ ์ํ ๋ ๋์ ๋ฒค์น๋งํฌ, ํ๋น์ฑ ๋ฌธ์ ๋ฅผ ์ํ ๋ฌผ๋ฆฌ ํตํฉ, ํ์ฐ ๋ชจ๋ธ์ ํจ์จ์ฑ ๋ฌธ์ ํด๊ฒฐ)์ ์ง์ ์ ์ผ๋ก ๋ค๋ฃจ๊ณ ์๋ค๋ ๊ฒ์ ๋๋ค.1 ์ด๋ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ ๋ด์์ ํ์ฌ์ ๋ณ๋ชฉ ํ์์ ๋ํ ๊ฐํ ์ธ์์ด ์์ผ๋ฉฐ, ์ฐ๊ตฌ๊ฐ ์๋ ค์ง ์ฝ์ ์ ์ ๊ทน์ ์ผ๋ก ๋ชฉํ๋ก ํ๊ณ ์์์ ๋ํ๋ ๋๋ค. ์ด๋ ํฅํ ๋ช ๋ ์์ ์๋นํ ๋ฐ์ ์ด ์ด๋ฃจ์ด์ง ๊ฐ๋ฅ์ฑ์ด ์๋ ์์ญ์ ์์ฌํฉ๋๋ค.
๋ํ, ๊ฐ์ธํ3์ ์ค๋ช ๊ฐ๋ฅ์ฑ21์ ๋ํ ๊ด์ฌ ์ฆ๊ฐ๋ ์์ธก ๋ชจ๋ธ์ด ํ๊ท ์ ์ผ๋ก ์ ํํ ๋ฟ๋ง ์๋๋ผ ํน์ ์ธ๊ฐ ์ค์ฌ ์์ฉ ๋ถ์ผ์ ๋ง๊ฒ ์กฐ์ ๋๊ณ ์ ๋ขฐํ ์ ์์ด์ผ ํ๋ ๋ฏธ๋๋ฅผ ์์ํฉ๋๋ค. AI ์์คํ ์ด ์ธ๊ฐ๊ณผ ๋ ๊ธด๋ฐํ๊ฒ ์ํธ์์ฉํจ์ ๋ฐ๋ผ, ์ผ๋ฐ์ ์ด๊ณ ๋ธ๋๋ฐ์ค์ ์ธ ๋ชจ๋ธ์ ๋ ์์ฉ ๊ฐ๋ฅํด์ง ๊ฒ์ด๋ฉฐ, ๊ฐ์ธ์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ์ดํดํ๊ณ ๊ทธ ํ๋์ ์ดํดํ๊ฑฐ๋ ์์ธกํ ์ ์๋ ๋ชจ๋ธ์ ๋ํ ์๊ตฌ๊ฐ ์ฆ๊ฐํ์ฌ ์ฐ๊ตฌ๊ฐ ๋จ์ํ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ๋์ด์๋๋ก ์ด๋ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
#B. ์ข ํฉ ๊ฒฐ๋ก
์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ๋ ๋จ๊ธฐ ๊ฒฐ์ ๋ก ์ ์์ธก์์ ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ, ํ๋ฅ ๋ก ์ ์๋๋ฆฌ์ค๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉํฅ์ผ๋ก ํฌ๊ฒ ๋ฐ์ ํ์ต๋๋ค. RNN, GCN, ํนํ ํธ๋์คํฌ๋จธ๋ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ํฅ์์์ผฐ์ต๋๋ค. ์์ฑ ๋ชจ๋ธ, ํนํ (์์ฑ ์์ ์์ ์ฐจ์ฉ๋) ํ์ฐ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ๊ณผ ๋ค์์ฑ์ ์ฒ๋ฆฌํ๋ ๋ฐ ์ ๋งํจ์ ๋ณด์ด์ง๋ง ํจ์จ์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ์ธก๋ฉด์์ ๊ณผ์ ๋ฅผ ์๊ณ ์์ต๋๋ค.
๋น๊ต ์ฐ๊ตฌ๋ค์ ํต์ฌ ๋ฉ์์ง๋ ๋ชจ๋ ์ธก๋ฉด์์ ๋จ์ผ ๋ฐฉ๋ฒ๋ก ์ด ์ง๋ฐฐ์ ์ด์ง ์๋ค๋ ๊ฒ์ ๋๋ค. ํธ๋์คํฌ๋จธ๋ ๊ฐ๋ ฅํ ์ํ์ค ๋ชจ๋ธ๋ง์ ์ ๊ณตํ๊ณ , GCN์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ฉฐ, ๋ถ๋ฆฌ ๊ธฐ๋ฒ์ ๋ณต์ก์ฑ ๊ด๋ฆฌ๋ฅผ ๋๊ณ , ๋ฌผ๋ฆฌ ์๋ด๋ ํ์ค์ฑ์ ๋์ ๋๋ค. ํ๊ฐ๋ MPJPE๋ฅผ ๋์ด์๋ ๋ค๋ฉด์ ์ธ ์ ๊ทผ์ด ํ์ํ๋ฉฐ, ๋ฒค์น๋งํฌ์ ํ๊ณ๋ ์ฌ์ ํ ์ค์ํ ๋ณ๋ชฉ ํ์์ผ๋ก ๋จ์ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ๋ ๋ ๋์ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ, ๋งฅ๋ฝ๊ณผ ์ํธ์์ฉ ์ดํด๋ฅผ ํตํฉํ๋ ๋ ์ ๊ตํ ๋ชจ๋ธ ๊ฐ๋ฐ, ํจ์จ์ ์ด๊ณ ์ ์ด ๊ฐ๋ฅํ ์์ฑ ๊ธฐ๋ฒ ์ฐ๊ตฌ, ๊ทธ๋ฆฌ๊ณ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ๊ฐ์ธํ๋ฅผ ๋ณด์ฅํ๋ ๊ฐ์ธํ ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ ๋ฌ๋ ค ์์ต๋๋ค. ์ด ๋ถ์ผ๋ HCI, ๋ก๋ด ๊ณตํ, ์์จ ์์คํ ๋ฑ ๊น๋ค๋ก์ด ์์ฉ ๋ถ์ผ์ ์ํด ์ฃผ๋๋๋ ์ญ๋์ ์ธ ์์ญ์ผ๋ก, ํ์ค์ฑ, ์ํธ์์ฉ, ํจ์จ์ฑ, ๊ฐ์ธํ์ ๋ํ ์ง์์ ์ธ ์ถ๊ตฌ๊ฐ ์ฐ๊ตฌ ๋ฐ์ ์ ์ด๋์ด๊ฐ ๊ฒ์ผ๋ก ์ ๋ง๋ฉ๋๋ค.
#์ฐธ๊ณ ์๋ฃ
#Footnotes
-
Jeong, H., Choi, J., & Lee, G. (2024). Multi-agent Long-term 3D Human Pose Forecasting via Interaction-aware Trajectory Conditioning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). https://openaccess.thecvf.com/content/CVPR2024/papers/Jeong_Multi-agent_Long-term_3D_Human_Pose_Forecasting_via_Interaction-aware_Trajectory_Conditioning_CVPR_2024_paper.pdf โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6 โฉ7 โฉ8 โฉ9 โฉ10 โฉ11 โฉ12 โฉ13 โฉ14 โฉ15 โฉ16 โฉ17 โฉ18 โฉ19 โฉ20 โฉ21 โฉ22 โฉ23 โฉ24 โฉ25 โฉ26 โฉ27 โฉ28 โฉ29 โฉ30 โฉ31 โฉ32 โฉ33 โฉ34 โฉ35 โฉ36 โฉ37 โฉ38 โฉ39
-
Parsaeifard, B., & Stiefelhagen, R. (2021). Learning Decoupled Representations for Human Pose Forecasting. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops. https://openaccess.thecvf.com/content/ICCV2021W/SoMoF/papers/Parsaeifard_Learning_Decoupled_Representations_for_Human_Pose_Forecasting_ICCVW_2021_paper.pdf โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6 โฉ7 โฉ8 โฉ9 โฉ10 โฉ11 โฉ12 โฉ13
-
Adeli, V., Shariat, N., Marin, R., Reid, I., & Salzmann, M. (2023). Personalized Pose Forecasting. arXiv preprint arXiv:2312.03528. https://arxiv.org/pdf/2312.03528 โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6 โฉ7 โฉ8 โฉ9 โฉ10 โฉ11 โฉ12 โฉ13 โฉ14 โฉ15 โฉ16 โฉ17
-
Mao, W., Liu, M., & Salzmann, M. (2019). Long-Term Human Motion Prediction by Modeling Motion Context and Enhancing Motion Dynamics. ResearchGate. https://www.researchgate.net/publication/326206421_Long-Term_Human_Motion_Prediction_by_Modeling_Motion_Context_and_Enhancing_Motion_Dynamics โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6 โฉ7 โฉ8 โฉ9 โฉ10 โฉ11 โฉ12 โฉ13 โฉ14 โฉ15 โฉ16 โฉ17
-
Zheng, W., Liu, M., & Salzmann, M. (2023). MotionBERT: A Unified Perspective On Learning Human Motion Representations. Scribd. https://www.scribd.com/document/714836400/MotionBERT-A-Unified-Perspective-on-Learning-Human-Motion-Representations โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6 โฉ7 โฉ8 โฉ9 โฉ10
-
Xu, Z., Chai, J., & Lv, X. (2025). Human Motion Prediction, Reconstruction, and Generation. arXiv preprint arXiv:2502.15956. https://arxiv.org/html/2502.15956v1 โฉ โฉ2 โฉ3 โฉ4
-
Tevet, G., et al. (2022). Human Motion Diffusion Model. OpenReview. https://openreview.net/pdf?id=SJ1kSyO2jwu โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6 โฉ7
-
Yuan, Y., Rempe, D., Liu, Z., Wang, T., Snavely, N., & Black, M. J. (2023). PhysDiff: Physics-Guided Human Motion Diffusion Model. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). https://openaccess.thecvf.com/content/ICCV2023/papers/Yuan_PhysDiff_Physics-Guided_Human_Motion_Diffusion_Model_ICCV_2023_paper.pdf โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6 โฉ7 โฉ8 โฉ9 โฉ10 โฉ11 โฉ12 โฉ13 โฉ14 โฉ15 โฉ16 โฉ17 โฉ18 โฉ19 โฉ20 โฉ21 โฉ22 โฉ23 โฉ24
-
Li, T., et al. (2024). AAMDM: Accelerated Auto-regressive Motion Diffusion Model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). https://openaccess.thecvf.com/content/CVPR2024/html/Li_AAMDM_Accelerated_Auto-regressive_Motion_Diffusion_Model_CVPR_2024_paper.html โฉ โฉ2 โฉ3 โฉ4 โฉ5
-
T2P ๋ชจ๋ธ ๊ด๋ จ ๋ ผ๋ฌธ (๋งํฌ ํ์) โฉ โฉ2 โฉ3 โฉ4 โฉ5
-
Towards Realistic Human Motion Prediction with Latent Diffusion and Physics-Based Models. (2025). MDPI. https://www.mdpi.com/2079-9292/14/3/605 โฉ
-
Review of models for estimating 3D human pose using deep learning. (2025). PMC. https://pmc.ncbi.nlm.nih.gov/articles/PMC11888865/ โฉ โฉ2
-
Kjellstrรถm, H., et al. (2021). The THรR dataset: A dataset for human-robot interaction. รrebro University. http://oru.diva-portal.org/smash/get/diva2:1524236/FULLTEXT01.pdf โฉ โฉ2 โฉ3 โฉ4 โฉ5 โฉ6
-
EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation. (2023). arXiv preprint arXiv:2312.02256. https://arxiv.org/html/2312.02256v3 โฉ โฉ2 โฉ3 โฉ4
-
Harmonizing Stochasticity and Determinism: Scene-responsive Diverse Human Motion Prediction. (2024). OpenReview. https://openreview.net/forum?id=NQCkNM6TES โฉ โฉ2
-
ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model. (2024). arXiv preprint arXiv:2410.07296. https://arxiv.org/html/2410.07296v1 โฉ โฉ2
-
Move-in-2D: 2D-Conditioned Human Motion Generation. (2024). arXiv preprint arXiv:2412.13185. https://arxiv.org/html/2412.13185v1 โฉ โฉ2
-
Martinez, J., Black, M. J., & Romero, J. (2017). On Human Motion Prediction Using Recurrent Neural Networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). https://typeset.io/papers/on-human-motion-prediction-using-recurrent-neural-networks-2i62b0kvs1 โฉ
-
A Survey on Deep Learning-Based 2D Human Pose Estimation Models. (2023). Tech Science Press. https://www.techscience.com/cmc/v76n2/53975/html โฉ
-
Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion Synthesis. (2023). arXiv preprint arXiv:2305.13773. https://arxiv.org/html/2305.13773v2 โฉ
-
Neuro-Symbolic AI in 2024: A Systematic Review. (2025). arXiv preprint arXiv:2501.05435. https://arxiv.org/html/2501.05435v1 โฉ โฉ2