[Google research] Pedestrian Trajectory & Pose Prediction/Forecasting
์ฃผ์
- ์ฌ๋์ 3D ํฌ์ฆ ์ถ์ (HPE, Human Pose Forecasting)๊ณผ Trajectory Prediction(์ฌ๋์ ์ด๋ ๊ฒฝ๋ก ์์ธก)์ ์ฐจ์ด๊ฐ ํฌ๋ค๋ ๊ฒ์ ์๊ฒ ๋์์ต๋๋ค.
- ๊ด๋ จ ๋ณด๊ณ ์์ด๋ค. Google gemini Deep Search ๊ธฐ๋ฅ์ ํตํ ๋ณด๊ณ ์์ด๋ค.
์ต์ ์ธ๊ฐ ์์ธ ์์ธก ๋น๊ต ์ฐ๊ตฌ ๋ํฅ ๋ถ์ ๋ณด๊ณ ์
I. ์๋ก
์ธ๊ฐ ์์ธ ์์ธก(Human Pose Forecasting/Prediction)์ ๊ณผ๊ฑฐ์ ๊ด์ฐฐ๋ ์ธ๊ฐ ๋์ ์ํ์ค๋ฅผ ๋ฐํ์ผ๋ก ๋ฏธ๋์ ์ธ๊ฐ ์์ธ ๋๋ ๋์์ ์์ธกํ๋ ์ปดํจํฐ ๋น์ ๋ฐ ๊ทธ๋ํฝ์ค ๋ถ์ผ์ ํต์ฌ ์ฐ๊ตฌ ์ฃผ์ ์ ๋๋ค.1
์ธ๊ฐ์ ๋ณธ๋ฅ์ ์ผ๋ก ํ์ธ์ ์์ง์์ ์์ธกํ์ฌ ๋ณต์กํ ํ๊ฒฝ ์์์ ์์ฐ์ค๋ฝ๊ฒ ์ด๋ํ๊ณ ์ ์ฌ์ ์ํ์ ํํผํ์ง๋ง, ๊ธฐ๊ณ๊ฐ ์ด๋ฌํ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋ ๊ฒ์ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.1 ํนํ ๋ก๋ด ๊ณตํ, ์์จ ์ฃผํ ์๋์ฐจ, ์ธ๊ฐ-์ปดํจํฐ ์ํธ์์ฉ(HCI), ๊ฐ์/์ฆ๊ฐ ํ์ค(VR/AR), ์คํฌ์ธ ๋ถ์, ์๋ฃ ๋ฐ ํฌ์ค์ผ์ด ๋ฑ์์ ๊ทธ ์ค์์ฑ์ด ๋ถ๊ฐ๋๊ณ ์์ต๋๋ค.2
์ด๊ธฐ ์ฐ๊ตฌ๋ ์ฃผ๋ก ๋จ์ผ ์ธ๋ฌผ์ ์งง์ ์๊ฐ(์ฝ 1์ด ์ด๋ด) ๋์์ ๋์ ์์ธก์ ์ด์ ์ ๋ง์ถ์์ผ๋1, ์ต๊ทผ ์ฐ๊ตฌ ๋ํฅ์ ๋ณด๋ค ํ์ค์ ์ด๊ณ ๋ณต์กํ ์๋๋ฆฌ์ค๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉํฅ์ผ๋ก ํ์ฅ๋๊ณ ์์ต๋๋ค. ์ด๋ ์์ธก ์๊ฐ ์งํ์ ์ ์ด ์ด์์ผ๋ก ๋๋ฆฌ๋ ์ฅ๊ธฐ ์์ธก(Long-term Prediction)1, ์ฌ๋ฌ ์ฌ๋์ ์ํธ์์ฉ์ ๊ณ ๋ คํ๋ ๋ค์ค ์์ด์ ํธ ์์ธก(Multi-agent Prediction)1, ์์ธก์ ๋ถํ์ค์ฑ์ ๋ชจ๋ธ๋งํ๋ ํ๋ฅ ๋ก ์ ์์ธก(Probabilistic Prediction)2, ๊ทธ๋ฆฌ๊ณ ํน์ ๊ฐ์ธ์ ๊ณ ์ ํ ์์ง์ ํจํด์ ์ ์ํ๋ ๊ฐ์ธํ ์์ธก(Personalized Prediction)3 ๋ฑ์ผ๋ก ๋ํ๋๊ณ ์์ต๋๋ค.
์ด๋ฌํ ์ฐ๊ตฌ ๋ํฅ์ ๋ณํ๋ ๋ ์ ํํ๊ณ ํ์ค์ ์ธ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐ์ ์ด์งํ๋ ๋์์, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค์ ์ฑ๋ฅ์ ๊ฐ๊ด์ ์ผ๋ก ๋น๊ตํ๊ณ ํ๊ฐํ ํ์์ฑ์ ์ฆ๋์ํต๋๋ค.
๋ณธ ๋ณด๊ณ ์๋ 2020๋ ๋ถํฐ 2025๋ ์ฌ์ด ๋ฐํ๋ ์ต์ ์ฐ๊ตฌ, ํนํ ๋ค์ํ ์์ธก ๋ฐฉ๋ฒ๋ก ๋ค์ ์ง์ ์ ์ผ๋ก ๋น๊ต, ๋ถ์, ํ๊ฐํ ๋ ผ๋ฌธ๋ค์ ์ค์ฌ์ผ๋ก ์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ์ ์ฐ๊ตฌ ๋ํฅ์ ์ฌ์ธต์ ์ผ๋ก ๊ฒํ ํ๊ณ ๋ถ์ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฃผ์ ์์ธก ๋ชจ๋ธ, ํ๊ฐ ๋ฐ์ดํฐ์ ๋ฐ ์งํ, ๋น๊ต ์คํ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ ์ฐ๊ตฌ์ ๊ฐ์ ๊ณผ ํ๊ณ์ ์ ์ข ํฉ์ ์ผ๋ก ์ดํด๋ณด๊ณ , ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๊ณ ์ ํฉ๋๋ค.
II. ์ธ๊ฐ ์์ธ ์์ธก ๋ฐฉ๋ฒ๋ก ๊ฐ์
์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ๋ ๋ค์ํ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ ํด์์ต๋๋ค. ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ธ๊ฐ ๋์์ ์๊ณต๊ฐ์ ํน์ฑ์ ํฌ์ฐฉํ๊ณ ๋ฏธ๋๋ฅผ ์์ธกํ๊ธฐ ์ํด ๊ณ ์ ํ ์ ๊ทผ ๋ฐฉ์์ ์ฑํํฉ๋๋ค.
- ์ํ ์ ๊ฒฝ๋ง (Recurrent Neural Networks, RNNs):
- LSTM(Long Short-Term Memory)๊ณผ ๊ฐ์ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ๊ฐ์ ์ ๋ณด์ฌ ์ด๊ธฐ ์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ์์ ๋๋ฆฌ ์ฌ์ฉ๋์์ต๋๋ค.2
- ์ด ๋ชจ๋ธ๋ค์ ๊ณผ๊ฑฐ ๋์์ ์๊ฐ์ ๋งฅ๋ฝ์ ์ธ์ฝ๋ฉํ์ฌ ๋ค์ ํ๋ ์์ ์์ธ๋ฅผ ์์ธกํฉ๋๋ค.
- ๊ทธ๋ฌ๋ ๊ธด ์ํ์ค์ ๋ํ ์์กด์ฑ ํ์ต์ ์ด๋ ค์์ ๊ฒช๊ณ ์ค์ฐจ๊ฐ ๋์ ๋๋ ๊ฒฝํฅ์ด ์์ด ์ฅ๊ธฐ ์์ธก์๋ ํ๊ณ๋ฅผ ๋ณด์ ๋๋ค.4
- ๊ทธ๋ํ ์ปจ๋ณผ๋ฃจ์
๋คํธ์ํฌ (Graph Convolutional Networks, GCNs):
- ์ธ๊ฐ ๊ณจ๊ฒฉ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ํ๋ก ๊ฐ์ฃผํ๊ณ , ๊ด์ ๊ฐ์ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๊ธฐ ์ํด GCN์ด ๋์ ๋์์ต๋๋ค.2
- GCN์ ์ ์ฒด ๋ถ์ ๊ฐ์ ์ํธ์์ฉ์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์์ผ๋ฉฐ, RNN๊ณผ ๊ฒฐํฉ๋์ด ์๊ณต๊ฐ์ ํน์ง์ ํจ๊ป ํ์ตํ๋ ๋ชจ๋ธ(์: DMST-GRNN4)๋ ์ ์๋์์ต๋๋ค.
- ํธ๋์คํฌ๋จธ (Transformers):
- ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์ ์ฑ๊ณต์ ๊ฑฐ๋ ํธ๋์คํฌ๋จธ๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์ํ์ค ๋ด์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์๋ค๋ ์ฅ์ ๋๋ฌธ์ ์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ์์๋ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.4
- ํธ๋์คํฌ๋จธ๋ ์๊ฐ์ , ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ๋์์ ํ์ตํ๋ฉฐ, ํนํ ์ฅ๊ธฐ ์์ธก์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- MotionBERT5์ ๊ฐ์ ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ๋ จ๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ํ์ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ๋ณ์ดํ ์คํ ์ธ์ฝ๋ (Variational Autoencoders, VAEs) ๋ฐ ์์ฑ์ ์ ๋ ์ ๊ฒฝ๋ง (Generative Adversarial Networks, GANs):
- ๋ฏธ๋ ๋์์ ๋ถํ์ค์ฑ๊ณผ ๋ค์ค ๋ชจ๋(multi-modal) ํน์ฑ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด VAE๋ GAN๊ณผ ๊ฐ์ ์์ฑ ๋ชจ๋ธ์ด ํ์ฉ๋ฉ๋๋ค.2
- ์ด ๋ชจ๋ธ๋ค์ ๋จ์ผ ์์ธก ๋์ ๊ฐ๋ฅํ ์ฌ๋ฌ ๋ฏธ๋ ๋์์ ๋ถํฌ๋ฅผ ํ์ตํ์ฌ ๋ณด๋ค ํ์ค์ ์ด๊ณ ๋ค์ํ ์์ธก์ ์์ฑํ ์ ์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, Parsaeifard ๋ฑ์ VAE๋ฅผ ์ฌ์ฉํ์ฌ ์ง์ญ์ ์์ธ ๋์ญํ์ ์ํ ์์ฑ์ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ์ต๋๋ค.2
- ํ์ฐ ๋ชจ๋ธ (Diffusion Models):
- ์ต๊ทผ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์์ฑ ๋ถ์ผ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ ํ์ฐ ๋ชจ๋ธ์ด ์ธ๊ฐ ๋์ ์์ธก ๋ฐ ์์ฑ ๋ถ์ผ์๋ ํ๋ฐํ ์ ์ฉ๋๊ณ ์์ต๋๋ค.6
- ํ์ฐ ๋ชจ๋ธ์ ๋ณต์กํ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ณ ๊ณ ํ์ง์ ๋ค์ํ ์ํ์ ์์ฑํ ์ ์๋ ๋ฅ๋ ฅ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.
- MDM7, PhysDiff8, AAMDM9 ๋ฑ์ด ๋ํ์ ์ธ ์์์ ๋๋ค.
- ํ์ด๋ธ๋ฆฌ๋ ๋ฐ ๋ถ๋ฆฌ ๋ชจ๋ธ (Hybrid & Decoupled Models):
- ์ ์ญ์ ์ธ ์ด๋ ๊ฒฝ๋ก(trajectory) ์์ธก๊ณผ ์ง์ญ์ ์ธ ์์ธ(local pose) ์์ธก์ ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํ๋ ์ ๊ทผ ๋ฐฉ์๋ ์ ์๋์์ต๋๋ค.1
- ์ด๋ ํนํ ์ฅ๊ธฐ ์์ธก์ด๋ ๋ค์ค ์์ด์ ํธ ์๋๋ฆฌ์ค์์ ๋ณต์ก์ฑ์ ๊ด๋ฆฌํ๊ณ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
- T2P10 ๋ชจ๋ธ์ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ์ต๋๋ค.
์ด๋ฌํ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค์ ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ ๊ฐ์ง๋ฉฐ, ์์ธกํ๋ ค๋ ๋์์ ํน์ฑ(๋จ๊ธฐ/์ฅ๊ธฐ, ๋จ์ผ/๋ค์ค ์์ด์ ํธ, ๊ฒฐ์ ๋ก ์ /ํ๋ฅ ๋ก ์ )๊ณผ ์์ฉ ๋ถ์ผ์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฌ์ฉ๋๊ฑฐ๋ ๊ฒฐํฉ๋๊ณ ์์ต๋๋ค.
III. ๋ฒค์น๋งํน ๋ฐ์ดํฐ์ ๋ฐ ํ๊ฐ ์งํ
์ธ๊ฐ ์์ธ ์์ธก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ๊ด์ ์ผ๋ก ํ๊ฐํ๊ณ ๋น๊ตํ๊ธฐ ์ํด์๋ ํ์คํ๋ ๋ฒค์น๋งํน ๋ฐ์ดํฐ์ ๊ณผ ์ ์ ํ ํ๊ฐ ์งํ๊ฐ ํ์์ ์ ๋๋ค.
A. ์ฃผ์ ๋ฒค์น๋งํน ๋ฐ์ดํฐ์
๋ค์ํ ๋ฐ์ดํฐ์ ์ด ์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ์ ํ์ฉ๋๊ณ ์์ผ๋ฉฐ, ๊ฐ ๋ฐ์ดํฐ์ ์ ์์ง ํ๊ฒฝ, ์ธ์์, ๋์ ์ ํ, ์ฃผ์ ์ ํ๋ ๋ฑ์์ ํน์ง์ ๊ฐ์ง๋ค.
- Human3.6M (H3.6M)3:
- 3D ์ธ๊ฐ ์์ธ ์์ธก ๋ฐ ๊ด๋ จ ์์ ์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ค๋ด ๋ฐ์ดํฐ์ ์ค ํ๋.3
- ๋ง์ปค ๊ธฐ๋ฐ ๋ชจ์ ์บก์ฒ ์์คํ ์ผ๋ก 360๋ง ๊ฐ์ ์ ํํ 3D ์์ธ ์ฃผ์ ์ ๊ณต.
- ์ฃผ๋ก ๋จ์ผ ์ธ๋ฌผ์ ๋ค์ํ ์ผ์ ํ๋ ํฌํจ, ์งง์ ์๊ฐ ์์ธก(์: ๊ณผ๊ฑฐ 0.4์ด ๊ด์ฐฐ ํ ๋ฏธ๋ 1์ด ์์ธก)3 ๋ฒค์น๋งํฌ์ ์ฃผ๋ก ์ฌ์ฉ.
- ํ๊ณ: ํต์ ๋ ํ๊ฒฝ, ๋์ ๋ค์์ฑ ์ ํ, ํ๊ท ์ ์์ง์ ์ด์ .3
- CMU Motion Capture (CMU MoCap)3:
- HumanEva3:
- H3.6M๊ณผ ์ ์ฌํ๊ฒ ์ค๋ด ํ๊ฒฝ์์ ์์ง, ๋น๋์ค์ ๋๊ธฐํ๋ 3D ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ ์ ๊ณต.3
- AMASS (Archive of Motion Capture as Surface Shapes)5:
- 3DPW (3D Poses in the Wild)1:
- MuPoTS-3D (Multi-Person Pose Tracking in 3D)1:
- JRDB-GMP (JRDB-GlobMultiPose)1:
- THรR13:
๊ธฐ์กด์ H3.6M, CMU MoCap๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ํต์ ๋ ํ๊ฒฝ์์ ์์ง๋์ด ๋์ ๋ค์์ฑ์ด ๋ถ์กฑํ๊ณ , ์ฃผ๋ก ์งง์ ์๊ฐ ์งํ์ ํ๊ท ์ ์ธ ์์ง์์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค.1 ์ด๋ ๋ก๋ด ๊ณตํ์ด๋ HCI์ ๊ฐ์ด ์ฅ๊ธฐ๊ฐ, ๋ค์์ ์ฌ๋๋ค๊ณผ ์ํธ์์ฉํ๋ฉฐ ๊ฐ์ธํ๋ ์์ธก์ด ํ์ํ ์ค์ ์์ฉ ์๋๋ฆฌ์ค์ ์๊ตฌ์ฌํญ์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํฉ๋๋ค.1
์ด๋ฌํ ํ๊ณ๋ฅผ ์ธ์ํ๊ณ JRDB-GMP1๋ THรR13๊ณผ ๊ฐ์ด ๋ณด๋ค ํ์ค์ ์ด๊ณ ๋์ ์ ์ธ ์๋๋ฆฌ์ค๋ฅผ ํฌํจํ๋ ์๋ก์ด ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ ค๋ ๋ ธ๋ ฅ์ด ์ด๋ฃจ์ด์ง๊ณ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ์ค์ํ ์ง์ ์ ์๋ฏธํฉ๋๋ค.
ํ 1: ์ธ๊ฐ ์์ธ ์์ธก ์ฃผ์ ๋ฒค์น๋งํน ๋ฐ์ดํฐ์ ๊ฐ์
๋ฐ์ดํฐ์ | ์ ํ | ์ฃผ์ ํน์ง | ์์ธก ์๊ฐ ์งํ | ์ฃผ์ ํ๊ณ์ | ๊ด๋ จ Snippet |
---|---|---|---|---|---|
Human3.6M | ์ค๋ด, ๋ง์ปค ๊ธฐ๋ฐ Mocap | 3.6M 3D ์์ธ, ๋จ์ผ ์ธ๋ฌผ ์์ฃผ, ๋ค์ํ ํ๋ | ๋จ๊ธฐ ์์ฃผ (~1s) | ํต์ ๋ ํ๊ฒฝ, ๋์ ๋ค์์ฑ ๋ถ์กฑ, ํ๊ท ์ ์์ง์ ์ด์ | 3 |
CMU MoCap | ์ค๋ด, ๋ง์ปค ๊ธฐ๋ฐ Mocap | ๋๊ท๋ชจ, ๋ค์ํ ๋์ ์ ํ (์ผ์, ์คํฌ์ธ ๋ฑ) | ๋จ๊ธฐ/์ฅ๊ธฐ | ํต์ ๋ ํ๊ฒฝ | 3 |
HumanEva | ์ค๋ด, ๋ง์ปค ๊ธฐ๋ฐ Mocap | ๋น๋์ค์ ๋๊ธฐํ๋ 3D Mocap ๋ฐ์ดํฐ | ๋จ๊ธฐ ์์ฃผ | ํต์ ๋ ํ๊ฒฝ | 3 |
AMASS | Mocap ๋ฐ์ดํฐ ํตํฉ | SMPL ํ๋ผ๋ฏธํฐ, ๋ค์ํ ๋์ ๋ฐ ์ ์ฒด ํํ | ๋ค์ | Mocap ๋ฐ์ดํฐ ๊ธฐ๋ฐ (์ง์ ์์ง ์๋) | 5 |
3DPW | ์ผ์ธ, ๋น๋์ค+IMU | ์ค์ ์ผ์ธ ํ๊ฒฝ, โin-the-wildโ | ๋จ๊ธฐ ์์ฃผ | ์ต๋ 2๋ช , IMU ๊ธฐ๋ฐ ์์ธ ์ ํ๋ ์ด์ ๊ฐ๋ฅ์ฑ | 1 |
MuPoTS-3D | ์ค๋ด/์ธ, ๋ง์ปค๋ฆฌ์ค Mocap | ๋ค์ค ์์ , ๋ค์ค ์ธ๋ฌผ(์ต๋ 20๋ช ), ๊ฐ๋ ค์ง/์กฐ๋ช ๋ณํ ํฌํจ | ๋จ๊ธฐ ์์ฃผ | ๋ง์ปค๋ฆฌ์ค ๊ธฐ๋ฐ ์์ธ ์ ํ๋ ์ด์ ๊ฐ๋ฅ์ฑ | 1 |
JRDB-GMP | ์ค์ ํ๊ฒฝ, ๋น๋์ค ๊ธฐ๋ฐ | ์ฅ๊ธฐ(์ต๋ 5์ด), ๋ค์ค ์์ด์ ํธ(์ต๋ 24๋ช ), ์ค์ ์ํธ์์ฉ | ์ฅ๊ธฐ | ์๋ก์ด ๋ฐ์ดํฐ์ , ํ์คํ/๊ฒ์ฆ ํ์ | 1 |
THรR | ์ค๋ด, ๊ณ ์ ๋ฐ Mocap | ๋ก๋ด ํฌํจ ํ๊ฒฝ, ๋์ ์์ ํ ๋น, ๋ค์ํ ์ํธ์์ฉ (์ถ์, ์ ์ง ๋ฑ) ์์ฑ ์๋ | ๋ค์ | ํน์ ํ๊ฒฝ(รrebro ๋ํ), ๋ฐ์ดํฐ ๊ท๋ชจ ํ์ฅ ํ์ | 13 |
LaFAN1 | ์ค๋ด, Mocap | Ubisoft ๊ฐ๋ฐ, ๊ฒ์ ์ ๋๋ฉ์ด์ ๋ชฉ์ , ์ํธ์์ฉ ํฌํจ | ๋ค์ | ํน์ ๊ฒ์/์ ๋๋ฉ์ด์ ๋๋ฉ์ธ ํธํฅ ๊ฐ๋ฅ์ฑ | 9 |
KIT-ML | ์ค๋ด, Mocap | ํ ์คํธ-๋์ ์ ๋ฐ์ดํฐ์ | ๋ค์ | ํ ์คํธ ์ฃผ์ ๊ธฐ๋ฐ, ์ธ์ด-๋์ ๋งคํ ์ด์ | 8 |
HumanAct12 | Mocap ๋ฐ์ดํฐ ๊ธฐ๋ฐ | 12๊ฐ ์ก์ ์นดํ ๊ณ ๋ฆฌ ๋ถ๋ฅ | ๋ค์ | ์ก์ ๋ถ๋ฅ ๊ธฐ๋ฐ, ํน์ ์ก์ ํธํฅ ๊ฐ๋ฅ์ฑ | 8 |
UESTC | ์ค๋ด, Mocap | 40๊ฐ ์ก์ ํด๋์ค, 40๋ช ํผํ์ | ๋ค์ | ์ก์ ๋ถ๋ฅ ๊ธฐ๋ฐ, ํน์ ์ก์ ํธํฅ ๊ฐ๋ฅ์ฑ | 8 |
HumanML3D | Mocap ๋ฐ์ดํฐ + ํ ์คํธ | AMASS/HumanAct12 ๊ธฐ๋ฐ, ํ ์คํธ ์ฃผ์ ์ฌ์์ | ๋ค์ | ํ ์คํธ ์ฃผ์ ํ์ง/์ผ๊ด์ฑ ์ด์ ๊ฐ๋ฅ์ฑ | 8 |
IV. ๋น๊ต ์ฐ๊ตฌ ๊ฒฐ๊ณผ ๋ฐ ์ฑ๋ฅ ๋ถ์
์ต๊ทผ ๋น๊ต ์ฐ๊ตฌ๋ค์ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค์ ์ฑ๋ฅ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ๊ณผ ํ๊ฐ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ์ํ๊ณ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ์ ๊ณผ ์ฝ์ , ๊ทธ๋ฆฌ๊ณ ํน์ ์กฐ๊ฑด์์์ ์ฐ์์ฑ์ ํ์ ํ ์ ์์ต๋๋ค.
A. ๋ฐฉ๋ฒ๋ก ๋ณ ์ฑ๋ฅ ๋ถ์
- RNNs/LSTMs:
- ์ข ์ข ๋น๊ต ์ฐ๊ตฌ์์ ๊ธฐ์ค์ (baseline)์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ๋จ๊ธฐ ์์ธก์์๋ ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ฅ๊ธฐ ์์ธก์์๋ ์ค์ฐจ ๋์ ๊ณผ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต์ ์ด๋ ค์์ผ๋ก ์ธํด ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒฝํฅ์ด ์์ต๋๋ค.4
- GCN๊ณผ ๊ฒฐํฉ๋ DMST-GRNN ๋ชจ๋ธ์ H3.6M ๋ฐ CMU MoCap ๋ฐ์ดํฐ์ ์์ ๋จ์ RNN๋ณด๋ค ๋จ๊ธฐ ๋ฐ ์ฅ๊ธฐ ์์ธก ๋ชจ๋์์ ๊ฐ์ ๋ ํ๊ท ๊ฐ๋ ์ค์ฐจ(MAE)๋ฅผ ๋ณด์์ต๋๋ค.4
- GCNs:
- ๊ณจ๊ฒฉ ๊ตฌ์กฐ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ์ ํฌ์ฐฉํ๋ฉฐ, ํนํ ๊ตฌ์กฐ ์ ๋ณด๊ฐ ์ค์ํ ์์ธก ์์ ์์ ๊ฐ์ ์ ๋ณด์ ๋๋ค.4
- ํ์ง๋ง ์์ํ๊ฒ ์๊ฐ์ ์ธ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํฌ์ฐฉ์๋ ํธ๋์คํฌ๋จธ๋ณด๋ค ์ฝํ ์ ์์ต๋๋ค.
- ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ธ MotionBERT๊ฐ GCN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค(ST-GCN, 2s-AGCN)๋ณด๋ค ์ก์ ์ธ์ ์์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ ์ 5์ ํธ๋์คํฌ๋จธ๊ฐ ์๊ณต๊ฐ์ ํน์ง์ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์์ ์์ฌํฉ๋๋ค.
- Transformers:
- ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๋ฅ๋ ฅ ๋๋ถ์ ์์ธ ์ถ์ , ๋์ ์์ฑ ๋ฑ ๊ด๋ จ ๋ถ์ผ์์ ์ต์ฒจ๋จ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๊ณ ์์ผ๋ฉฐ8, ์ด๋ ์์ธ ์์ธก ๋ถ์ผ์์๋ ๋์ ์ ์ฌ๋ ฅ์ ๋ํ๋ ๋๋ค.
- MotionBERT๋ H3.6M ๋ฐ์ดํฐ์ ์์ 3D ์์ธ ์ถ์ (MPJPE ๊ธฐ์ค) SOTA๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ5, MDM์ HumanML3D, KIT, HumanAct12, UESTC ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ์ ์์ ํ ์คํธ/์ก์ ์กฐ๊ฑด๋ถ ๋์ ์์ฑ ๊ด๋ จ ์งํ(FID, R-Precision, Diversity ๋ฑ)์์ SOTA ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.7
- ์ด๋ ํธ๋์คํฌ๋จธ๊ฐ ๋ณต์กํ ์๊ณต๊ฐ์ ํจํด ํ์ต์ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค.4
- Diffusion Models:
- ๋น๊ต ์ฐ๊ตฌ๋ ์ฃผ๋ก ๋์ โ์์ฑโ ์์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ง๋ง, ๊ทธ ๊ฒฐ๊ณผ๋ โ์์ธกโ ์ฑ๋ฅ์ ๋ํ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
- Diffusion ๋ชจ๋ธ์ ์์ฑ ํ์ง๊ณผ ๋ค์์ฑ ์ธก๋ฉด์์ SOTA ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.8
- ํนํ PhysDiff๋ MDM์ด๋ MotionDiffuse์ ๊ฐ์ ๊ธฐ์กด ํ์ฐ ๋ชจ๋ธ ๋๋น ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ๋ฉด์๋ FID๋ ๊ด๋ จ์ฑ ์ ์๋ ๊ฒฝ์๋ ฅ ์๊ฒ ์ ์งํ๊ฑฐ๋ ํฅ์์์ผฐ์ต๋๋ค.8
- AAMDM์ ๋๋ฆฐ ์ํ๋ง ์๋๋ผ๋ ํ์ฐ ๋ชจ๋ธ์ ๋จ์ ์ ๊ฐ์ ํ์ฌ, AMDM200๊ณผ ์ ์ฌํ ํ์ง๊ณผ ๋ค์์ฑ์ ํจ์ฌ ๋์ FPS๋ก ๋ฌ์ฑํ์ต๋๋ค.9
- ์ด๋ ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์์ธก์ด ๋์ ์ถฉ์ค๋์ ๋ค์์ฑ์ ์ ๊ณตํ ์ ์์ง๋ง, ํจ์จ์ฑ๊ณผ ์ ์ด ๊ฐ๋ฅ์ฑ์ ์ฌ์ ํ ์ฐ๊ตฌ๊ฐ ํ์ํ ์์ญ์์ ์์ฌํฉ๋๋ค.
- Decoupled/Hierarchical Models:
- ์ ์ญ ๊ฒฝ๋ก์ ์ง์ญ ์์ธ๋ฅผ ๋ถ๋ฆฌํ๋ ๋ชจ๋ธ๋ค์ ํนํ ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ ์๋๋ฆฌ์ค์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค.1
- T2P ๋ชจ๋ธ์ JRDB-GMP ๋ฐ ์ด์ ๋ฐ์ดํฐ์ ์์ ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ผ๋ก SOTA ์ฑ๋ฅ์ ์ฃผ์ฅํ์ผ๋ฉฐ10, Parsaeifard ๋ฑ์ VAE ๊ธฐ๋ฐ ๋ถ๋ฆฌ ๋ชจ๋ธ๋ ๊ธฐ์ค ๋ชจ๋ธ ๋๋น ์ฐ์์ฑ์ ์ฃผ์ฅํ์ต๋๋ค.2
- ์ด๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ถํดํ์ฌ ๋ค๋ฃจ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
B. ๋น๊ต ๋ฌธํ์์ ํ์ธ๋ ๊ฐ์ ๊ณผ ์ฝ์
- RNNs:
- ๊ฐ์ : ๊ตฌํ ์ฉ์ด์ฑ, ์งง์ ์ํ์ค์ ์ ํฉ.
- ์ฝ์ : ๊ทธ๋๋์ธํธ ์์ค, ์ค์ฐจ ๋์ , ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๋ชจ๋ธ๋ง ์ทจ์ฝ.4
- GCNs:
- ๊ฐ์ : ๊ณจ๊ฒฉ ๊ตฌ์กฐ ๋ช ์์ ๋ชจ๋ธ๋ง.
- ์ฝ์ : ์์ ์๊ฐ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํ์ต์ ํธ๋์คํฌ๋จธ๋ณด๋ค ์ฝํ ์ ์์.
- Transformers:
- ๊ฐ์ : ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๋ชจ๋ธ๋ง ํ์, ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅ.
- ์ฝ์ : ๊ณ์ฐ ๋น์ฉ ๋์, ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ ๊ฐ๋ฅ์ฑ, GCN ๋๋น ๋ด์ฌ์ ๊ตฌ์กฐ ํธํฅ ๋ถ์กฑ.
- VAEs/GANs:
- ๊ฐ์ : ๋ถํ์ค์ฑ/๋ค์ค ๋ชจ๋ ๋ชจ๋ธ๋ง.
- ์ฝ์ : ํ์ต ๋ถ์์ ์ฑ(GANs), ํ์ฐ ๋ชจ๋ธ ๋๋น ํํ๋ ฅ ์ ํ ๋๋ ๋ชจ๋ ๋ถ๊ดด ๊ฐ๋ฅ์ฑ.
- Diffusion Models:
- Deterministic Models:
- ๊ฐ์ : ํ์ต ๋ฐ ํ๊ฐ ์ฉ์ด(MPJPE ์ฌ์ฉ).
- ์ฝ์ : ๋ฏธ๋ ๋ถํ์ค์ฑ ํฌ์ฐฉ ์คํจ, ์ง๋์น๊ฒ ๋ถ๋๋ฝ๊ฑฐ๋ ํ๊ท ์ ์ธ ์์ธก ์์ฑ ๊ฒฝํฅ.4
- Stochastic Models:
- ๊ฐ์ : ๋ค์ํ ๋ฏธ๋๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ํ์ค์ฑ ๋์.
- ์ฝ์ : ํ๊ฐ ์ด๋ ค์(๋ถํฌ ์งํ ํ์), ์ ์ด ์ด๋ ค์ธ ์ ์์.
C. ์ต๊ทผ ๋น๊ต ์ฐ๊ตฌ์ ์ต์ฒจ๋จ ์ฑ๋ฅ ํ์ด๋ผ์ดํธ
- ๋จ๊ธฐ ์์ธก (H3.6M/CMU): GCN ๊ธฐ๋ฐ(์: DMST-GRNN4) ๋ฐ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ์ผ๋ฐ์ ์ผ๋ก ์ด์ RNN ์ ๊ทผ ๋ฐฉ์๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๊ตฌ์ฒด์ ์ธ SOTA MPJPE ๊ฐ์ ์ ํํ ์๊ฐ ๋ฒ์์ ํ๊ฐ ํ๋กํ ์ฝ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.
- ์ฅ๊ธฐ ์์ธก (H3.6M/CMU/JRDB-GMP): ๋์ ๋งฅ๋ฝ4, ์ํธ์์ฉ ์ธ์1, ๋ชฉํ ์กฐ๊ฑดํ1, ๋๋ ๋ถ๋ฆฌ ๊ธฐ๋ฒ1์ ํตํฉํ ๋ชจ๋ธ๋ค์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. T2P ๋ชจ๋ธ์ ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ ๋ฐ์ดํฐ์ ์ธ JRDB-GMP์์ SOTA ์ฑ๋ฅ์ ์ฃผ์ฅํ์ต๋๋ค.10
- ์์ฑ ํ์ง/๋ค์์ฑ (HumanML3D/KIT): MDM7 ๋ฐ PhysDiff8์ ๊ฐ์ ํ์ฐ ๋ชจ๋ธ์ ํ ์คํธ/์ก์ ์กฐ๊ฑด๋ถ โ์์ฑโ ์์ ์์ SOTA ์์ค์ FID, ๋ค์์ฑ, ๋ค์ค ๋ชจ๋ ์ ์๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ๊ณ ํ์ง ํ๋ฅ ๋ก ์ โ์์ธกโ์ ๋ํ ๊ฐ๋ ฅํ ์ ์ฌ๋ ฅ์ ์์ฌํฉ๋๋ค.
- ๋ฌผ๋ฆฌ์ ํ๋น์ฑ: PhysDiff8๋ ์ฌ๋ฌ ๋ฐ์ดํฐ์ (HumanML3D, HumanAct12, UESTC)์์ ๊ธฐ์ค ํ์ฐ ๋ชจ๋ธ(MDM, MotionDiffuse) ๋๋น ๋ฌผ๋ฆฌ์ ์ค๋ฅ(๋ฐ ๋ฏธ๋๋ฌ์ง, ์ง๋ฉด ํต๊ณผ, ๊ณต์ค ๋ถ์)๋ฅผ 78%~94%๊น์ง ํฌ๊ฒ ๊ฐ์์์ผฐ์ต๋๋ค.
- ํจ์จ์ฑ: AAMDM9์ LaFAN1 ๋ฐ์ดํฐ์ ์์ ํ์ค ์๊ธฐํ๊ท ํ์ฐ ๋ชจ๋ธ(AMDM200) ๋๋น ํ์ง/๋ค์์ฑ์ ์ ์งํ๋ฉด์ ์ฝ 40๋ฐฐ ๋น ๋ฅธ ์๋ ํฅ์(173 FPS)์ ๋ณด์ฌ ์ค์๊ฐ ์ํธ์์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํ์ต๋๋ค. EMDM14 ์ญ์ ์ค์๊ฐ ์์ฑ์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ด๋ฌํ ๋น๊ต ๊ฒฐ๊ณผ๋ค์ ์ข ํฉํด ๋ณผ ๋, ํธ๋์คํฌ๋จธ๊ฐ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํฌ์ฐฉ์ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ์ ๋ณด์ด์ง๋ง4, ํนํ ๋ณต์กํ ์ฅ๊ธฐ ์์ธก์ด๋ ์ํธ์์ฉ ์๋๋ฆฌ์ค์์๋ GCN์ ํตํ ๊ตฌ์กฐ ์ ๋ณด ํ์ฉ4, ๋ช ์์ ์ธ ์ ์ญ/์ง์ญ ๋ถ๋ฆฌ1, ๋๋ ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ด8์ ๊ฐ์ด ๋๋ฉ์ธ ์ง์์ ํตํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ ๋ฐฉ์์ด ์ข ์ข ์ต์์ ์ฑ๋ฅ์ ์ด๋์ด๋ธ๋ค๋ ์ ์ ์ ์ ์์ต๋๋ค.
์ด๋ ๊ฐ๋ ฅํ ํํ๋ ฅ์ ๊ฐ์ง ์ํคํ ์ฒ์ ๋ช ์์ ์ธ ๊ตฌ์กฐ์ ๋๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ๊ฒฐํฉํ๋ ๊ฒ์ด ์ธ๊ฐ ๋์ ์์ธก์ ๋ฏธ๋ฌํ ์ธก๋ฉด์ ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ฐ ์ค์ํจ์ ์์ฌํฉ๋๋ค. ๋ํ, ํ์ฐ ๋ชจ๋ธ์์ ๋ํ๋๋ ์์ธก ํ์ง/๋ค์์ฑ๊ณผ ํจ์จ์ฑ ๊ฐ์ ๋ช ๋ฐฑํ ์์ถฉ ๊ด๊ณ14๋ ์ค์๊ฐ ์์ธก ์์ฉ์ ์ํ ๊ฐ์ํ ๊ธฐ์ ์ฐ๊ตฌ์ ํ์์ฑ์ ๋ถ๊ฐ์ํจ๋ค. ๋ง์ง๋ง์ผ๋ก, ์์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ์ ์ฃผ์ ์คํจ ๋ชจ๋ ์ค ํ๋์ธ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ๋ฌธ์ 8๋ PhysDiff8์ ๊ฐ์ ๋ช ์์ ํด๊ฒฐ์ฑ ์ ํตํด ๋ค๋ฅธ ์งํ์ ํฐ ์์ ์์ด ํฌ๊ฒ ๊ฐ์ ๋ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ฌผ๋ฆฌ ๋ฒ์น์ ๊ณ ๋ คํ ๋ชจ๋ธ๋ง์ด ํ์ค์ ์ธ ๊ณ ๋ ค ์ฌํญ์ด ๋์ด์ผ ํจ์ ์์ํฉ๋๋ค.
ํ 3: ์ฃผ์ ๋ฒค์น๋งํฌ์์์ ๋ชจ๋ธ ๊ณ์ด๋ณ ๋น๊ต ์ฑ๋ฅ ์์ฝ
๋ชจ๋ธ ๊ณ์ด | ์ฃผ์ ์์ ๋ชจ๋ธ/๋ ผ๋ฌธ | ๊ฐ์ (๋น๊ต ๊ธฐ๋ฐ) | ์ฝ์ (๋น๊ต ๊ธฐ๋ฐ) | ์ฃผ์ ๋ฒค์น๋งํฌ/์์ ์ฑ๋ฅ ์์ฝ (์์) | ๊ด๋ จ Snippet |
---|---|---|---|---|---|
RNN ๊ธฐ๋ฐ | LSTM2, DMST-GRNN (GCN+RNN)4 | ๋จ์์ฑ, ๋จ๊ธฐ ์ํ์ค ์ฒ๋ฆฌ | ์ฅ๊ธฐ ์์กด์ฑ ์ฝํจ, ์ค์ฐจ ๋์ | DMST-GRNN: H3.6M/CMU ๋จ๊ธฐ/์ฅ๊ธฐ MAE ๊ฐ์ (vs RNN) | 2 |
GCN ๊ธฐ๋ฐ | ST-GCN, 2s-AGCN5, DMST-GRNN4 | ๊ณจ๊ฒฉ ๊ตฌ์กฐ ๋ช ์์ ๋ชจ๋ธ๋ง | ์์ ์๊ฐ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ์ฝํ ์ ์์ | DMST-GRNN: H3.6M/CMU MAE SOTA (๋น์) | 2 |
Transformer ๊ธฐ๋ฐ | MotionBERT5, MDM7, T2P10 | ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ๋ชจ๋ธ๋ง ํ์ | ๊ณ์ฐ ๋น์ฉ ๋์, ๊ตฌ์กฐ ํธํฅ ๋ถ์กฑ | MotionBERT: H3.6M 3D ์ถ์ MPJPE SOTA. MDM: HumanML3D/KIT/HumanAct12/UESTC ์์ฑ FID/Diversity SOTA. T2P: JRDB-GMP ์์ธก SOTA ์ฃผ์ฅ. |
4 |
VAE/GAN ๊ธฐ๋ฐ | Parsaeifard et al.2 | ๋ถํ์ค์ฑ/๋ค์ค ๋ชจ๋ ๋ชจ๋ธ๋ง | ํ์ต ๋ถ์์ ์ฑ, ํํ๋ ฅ ์ ํ ๊ฐ๋ฅ์ฑ | Parsaeifard: ๋ถ๋ฆฌ ๋ชจ๋ธ ๊ธฐ์ค์ ๋๋น ์ฐ์ ์ฃผ์ฅ | 2 |
Diffusion ๊ธฐ๋ฐ | MDM7, MotionDiffuse8, PhysDiff8, AAMDM9 | ์์ฑ ํ์ง/๋ค์์ฑ SOTA, ์ ์ฐํ ์กฐ๊ฑด ๋ถ์ฌ | ๋๋ฆฐ ์ํ๋ง, ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ํ๋ณด ์ด๋ ค์ | PhysDiff: ๋ฌผ๋ฆฌ์ ์ค๋ฅ ๋ํญ ๊ฐ์ (vs MDM/MD). AAMDM: AMDM200 ๋๋น ~40๋ฐฐ ๋น ๋ฆ (FPS) |
6 |
Decoupled/Hierarchical | T2P10, Parsaeifard et al.2 | ๋ณต์ก์ฑ ๊ด๋ฆฌ ์ฉ์ด (ํนํ ์ฅ๊ธฐ/๋ค์ค ์์ด์ ํธ) | ๋ถ๋ฆฌ ๊ณผ์ ์์์ ์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ | T2P: JRDB-GMP ๋ฐ ์ด์ ๋ฐ์ดํฐ์ SOTA ์ฃผ์ฅ | 1 |
V. ์ฃผ์ ์ฐ๊ตฌ ๋ํฅ ๋ฐ ์ง์์ ์ธ ๊ณผ์
์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ๋ ์์ฉ ๋ถ์ผ์ ์๊ตฌ์ฌํญ ์ฆ๊ฐ์ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ๋ฐ์ ์ ํ์ ์ด ๋น ๋ฅด๊ฒ ์งํํ๊ณ ์์ต๋๋ค. ๋ช ๊ฐ์ง ์ฃผ์ ์ฐ๊ตฌ ๋ํฅ๊ณผ ํจ๊ป ์ฌ์ ํ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ค์ด ์กด์ฌํฉ๋๋ค.
A. ๋ถ์ผ๋ฅผ ํ์ฑํ๋ ์ฃผ์ ๋ํฅ
- ์ฅ๊ธฐ ์์ธก (Long-Term Prediction): ์์ธก ์๊ฐ ์งํ์ 1์ด ์ด๋ด์์ ์ ์ด ์ด์์ผ๋ก ํ์ฅํ๋ ค๋ ๋ ธ๋ ฅ.1 ์ด๋ ๋ถํ์ค์ฑ ์ฒ๋ฆฌ์ ๋ ๋์ ์์ค์ ๊ณํ ๋ฐ ์๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์๊ตฌํฉ๋๋ค.
- ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ (Multi-Agent Interaction): ์ฌ๋ฌ ์ฌ๋์ด ๋์์ ์ํธ์์ฉํ๋ ์ํฉ์์์ ์์ง์์ ๋ชจ๋ธ๋งํ๊ณ ์์ธก.1 ํ์ค์ ์ธ ์ฅ๋ฉด ์ดํด์ ํ์์ ์ด๋ฉฐ, ์ ํฉํ ๋ฐ์ดํฐ์ 1๊ณผ ์ํธ์์ฉ ์ธ์ ๋ชจ๋ธ์ด ํ์ํฉ๋๋ค.
- ํ๋ฅ ๋ก ์ /๋ค์ํ ์์ธก (Probabilistic/Diverse Forecasting): ๊ฒฐ์ ๋ก ์ ๋จ์ผ ์์ธก ๋์ , ๋ฏธ๋์ ๋ณธ์ง์ ์ธ ๋ถํ์ค์ฑ์ ๋ฐ์ํ์ฌ ๊ฐ๋ฅํ ์ฌ๋ฌ ๋ฏธ๋๋ฅผ ์์ฑ.1 VAE, GAN, ํ์ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ์์ฑ ๋ชจ๋ธ์ ์ํด ์ฃผ๋๋ฉ๋๋ค.
- ๊ฐ์ธํ (Personalization): ํนํ ์ฅ๊ธฐ๊ฐ์ HCI ์๋๋ฆฌ์ค์์ ๊ฐ์ธ์ ๊ณ ์ ํ ์์ง์ ์คํ์ผ, ์ ์ฒด ๋น์จ, ํ๋ ํน์ฑ ๋ฑ์ ์์ธก ๋ชจ๋ธ์ ์ ์์ํค๋ ์ฐ๊ตฌ.3 ์จ๋ผ์ธ ์ ์ ๋๋ ๊ฐ์ธ๋ณ ๋ชจ๋ธ ํ์ต์ด ํ์ํฉ๋๋ค.
- ์ฅ๋ฉด/๋งฅ๋ฝ/๋ฌผ๋ฆฌ ์ธ์ (Scene/Context/Physics Awareness): 3D ํ๊ฒฝ ์ ๋ณด15, ๋ฌผ์ฒด์์ ์ํธ์์ฉ16, ๋๋ ๋ฌผ๋ฆฌ ๋ฒ์น8์ ํตํฉํ์ฌ ๋ณด๋ค ํ์ค์ ์ด๊ณ ํ๊ฒฝ์ ์ ํฉํ ์์ธก์ ์์ฑํ๋ ค๋ ์๋.
- ์กฐ๊ฑด๋ถ ์์ธก (Conditioned Prediction): ํ ์คํธ8, ์ก์ 8, ๊ฒฝ๋ก1, ์ด๋ฏธ์ง17 ๋ฑ ๋ค์ํ ์ ๋ ฅ ์กฐ๊ฑด์ ๋ฐ๋ผ ๋์์ ์์ฑ/์์ธก. ์กฐ๊ฑด๋ถ ์์ฑ๊ณผ ๊ฒฝ๊ณ๊ฐ ๋ชจํธํ์ง๋ง ์ ์ด ๊ฐ๋ฅํ ์์ธก๊ณผ ๊ด๋ จ์ด ๊น์ต๋๋ค.
- ํฅ์๋ ์ํคํ ์ฒ (Improved Architectures): GCN, ํธ๋์คํฌ๋จธ, ํ์ฐ ๋ชจ๋ธ์ ์ง์์ ์ธ ํ๊ตฌ ๋ฐ ์ด๋ค์ ๊ฐ์ ๊ฒฐํฉ ๋๋ ๋๋ฉ์ธ ์ง์(์: ๋ถ๋ฆฌ, ๋ฌผ๋ฆฌ) ํตํฉ. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ ์ฌ์ ํ๋ จ.5
์ด๋ฌํ ์ฃผ์ ๋ํฅ๋ค(์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ, ํ๋ฅ ๋ก ์ , ๋งฅ๋ฝ ์ธ์)์ ์๋ก ๋ฐ์ ํ๊ฒ ์ฐ๊ด๋์ด ์์ผ๋ฉฐ, ๋ณต์กํ๊ณ ์ํธ์์ฉ์ ์ธ ํ๊ฒฝ์์ ๋ณด๋ค ํ์ค์ ์ด๊ณ ์ ์ฉํ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ ค๋ ๊ณต๋์ ๋ชฉํ๋ฅผ ํฅํด ๋์๊ฐ๊ณ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์ฅ๊ธฐ ์์ธก์ ํ์ฐ์ ์ผ๋ก ๋งฅ๋ฝ๊ณผ ์ํธ์์ฉ์ ๋ํ ์ดํด๋ฅผ ์๊ตฌํ๋ฉฐ, ์ค์ ์ํธ์์ฉ์ ์ฌ๋ฌ ์์ด์ ํธ๋ฅผ ํฌํจํ๊ณ ๋ฏธ๋๋ ๋ถํ์คํ๋ฏ๋ก ํ๋ฅ ๋ก ์ ์ ๊ทผ์ด ํ์ํฉ๋๋ค. ์ด์ฒ๋ผ ๊ฐ ๋ํฅ์ ๋จํธ์ ์ธ ๋ฐ์ ์ด ์๋๋ผ, ํต์ ๋ ํ๊ฒฝ์์์ ๋จ์ํ ๊ธฐ๊ตฌํ์ ์ธ์ฝ์ ๋์ด์๋ ค๋ ํฌ๊ด์ ์ธ ๋ชฉํ์ ์ฌ๋ฌ ์ธก๋ฉด์ ๋ํ๋ ๋๋ค.
B. ๋น๊ต ๋ฆฌ๋ทฐ์์ ๊ฐ์กฐ๋ ์ฃผ์ ์ฅ์ ๋ฌผ
- ๋ฐ์ดํฐ ํ์ง, ์, ํธํฅ (Data Quality, Quantity, and Bias): ํนํ ๋ค์ค ์์ด์ ํธ, ์ฅ๊ธฐ, ์ค์ ํ๊ฒฝ ์๋๋ฆฌ์ค๋ฅผ ์ํ ๋ ํฌ๊ณ , ๋ค์ํ๋ฉฐ, ์ ํํ๊ฒ ์ฃผ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ ํ์์ฑ.1 ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋ฉฐ1, ์ค์ ๋ฐ์ดํฐ(ground truth) ์ ํ๋๋ ๋ฌธ์ ๊ฐ ๋ ์ ์์ต๋๋ค.13
- ํ๊ฐ์ ์๋ฐ์ฑ (Evaluation Rigor): MPJPE์ ๊ฐ์ ๋จ์ ์งํ์ ๋ํ ๊ณผ๋ํ ์์กด.18 ์ ํ๋, ๋ค์์ฑ, ํ๋น์ฑ, ๊ด๋ จ์ฑ, ํจ์จ์ฑ์ ํฌ๊ดํ๋ ์ข ํฉ์ ์ธ ํ๊ฐ ์ฒด๊ณ์ ํ์์ฑ.12 ๋ฒค์น๋งํน ํ๋กํ ์ฝ์ ๋ฐ์ ํ์.3
- ์ผ๋ฐํ (Generalization): ํน์ ๋ฐ์ดํฐ์ (์ฃผ๋ก ๋ชจ์ ์บก์ฒ)์์ ํ๋ จ๋ ๋ชจ๋ธ์ด ๋ค์ํ ์ค์ ํ๊ฒฝ ์๋๋ฆฌ์ค(โin-the-wildโ)๋ก ์ ์ผ๋ฐํ๋์ง ์์ ์ ์์. ๋๋ฉ์ธ ๊ฐ๊ทน ๋ฌธ์ .19
- ๋ฌผ๋ฆฌ์ ํ๋น์ฑ (Physical Plausibility): ํนํ ์์ฑ ๋ชจ๋ธ๊ณผ ์ฅ๊ธฐ ์์ธก์์ ์์ธก ๊ฒฐ๊ณผ๊ฐ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ค์ํ๊ณ ์ธ๊ณต์ ์ธ ์ค๋ฅ(artifact)๋ฅผ ํํผํ๋๋ก ๋ณด์ฅํ๋ ๊ฒ์ด ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ .8
- ์ ์ด ๊ฐ๋ฅ์ฑ (Controllability): ์์ฑ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ์ฌ ํน์ ์ํ๋ ๋์(์กฐ๊ฑด๋ถ ์์ธก ๊ด๋ จ)์ ์์ฑํ๋ ๊ฒ์ ์ด๋ ค์.7
- ๊ณ์ฐ ๋น์ฉ / ์ค์๊ฐ ์ ์ฝ (Computational Cost / Real-time Constraints): ํธ๋์คํฌ๋จธ, ํนํ ํ์ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ๋ณต์กํ ๋ชจ๋ธ์ ๊ณ์ฐ ๋น์ฉ์ด ๋์ ์ค์๊ฐ ์์ฉ์ ์ ํดํ ์ ์์.7
- ๊ฐ๋ ค์ง ๋ฐ ๋ ธ์ด์ฆ ์ฒ๋ฆฌ (Handling Occlusion and Noise): ์ค์ ์ ๋ ฅ ๋ฐ์ดํฐ(์์ธ ์ถ์ ๊ฒฐ๊ณผ)๋ ๊ฐ๋ ค์ง์ผ๋ก ์ธํด ์ข ์ข ๋ ธ์ด์ฆ๊ฐ ์๊ฑฐ๋ ๋ถ์์ ํจ.6 ์์ธก ๋ชจ๋ธ์ ์ด๋ฌํ ๋ถ์์ ์ฑ์ ๊ฐ์ธํด์ผ ํ๋ค.
์ง์์ ์ธ ๊ณผ์ ์ค ์๋น์๊ฐ ๋ฐ์ดํฐ ๋ฐ ํ๊ฐ์ ๊ด๋ จ๋์ด ์๋ค๋ ์ 1์ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ์ด๋ ์ฐ๊ตฌ ๋ฐ์ ์ด ๋ชจ๋ธ ์ํคํ ์ฒ๋ฟ๋ง ์๋๋ผ ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ํ๊ณ์ ์ํด์๋ ์ ์ฝ์ ๋ฐ์ ์ ์์์ ์์ฌํฉ๋๋ค. ๋ง์ฝ ๋ฐ์ดํฐ์ ์ ๋ค์์ฑ์ด ๋ถ์กฑํ๊ฑฐ๋ ํ๊ฐ ์งํ๊ฐ ํ๋น์ฑ ๋๋ ์ํธ์์ฉ ํ์ง๊ณผ ๊ฐ์ ์ค์ํ ์ธก๋ฉด์ ํฌ์ฐฉํ์ง ๋ชปํ๋ค๋ฉด, ์ ๊ตํ ๋ชจ๋ธ์ด๋ผ ํ ์ง๋ผ๋ ์ค์ ์ ์ฉ์ฑ์ ์ํด ํจ๊ณผ์ ์ผ๋ก ๊ฐ๋ฐ๋๊ฑฐ๋ ํ๊ฐ๋์ง ๋ชปํ ์ ์์ต๋๋ค. ์๋ก์ด ๋ฐ์ดํฐ์ 1๊ณผ ์งํ8 ๊ฐ๋ฐ์ ๋ํ ๊ฐ์กฐ๋ ์ด๋ฌํ ๋ฌธ์ ์ธ์์ ๋ฐ์ํฉ๋๋ค.
๋ํ, ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ๋ฌธ์ 8๋ ์ ์ฐํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ๊ณผ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ์๊ฒฉํ ์ ์ฝ ์ฌ์ด์ ๊ทผ๋ณธ์ ์ธ ๊ธด์ฅ์ ๋๋ฌ๋ ๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฐ๋ ๋ฅ์ํ์ง๋ง, ๋ช ์์ ์ผ๋ก ํํ๋์ง ์์ ์๊ฒฉํ ์ ์ฝ์ ๊ฐ์ ํ๋ ๋ฐ๋ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ๋ฌผ๋ฆฌ ์์ง์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ํ ๊ธฐ์ค ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ํตํฉ ์๋ฎฌ๋ ์ด์ 8์ด๋ ๋ฌผ๋ฆฌ ์ ๋ณด ๊ธฐ๋ฐ ์์ค/๊ฐํํ์ต16 ๋ฑ์ ํตํด ์ด ๋์ ๊ฒฐํฉํ๋ ๊ฒ์ด ์ง์ ์ผ๋ก ํ์ค์ ์ธ ๋์์ ์์ฑํ๋ ๋ฐ ํ์ํ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ๋ณด์ ๋๋ค.
VI. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ๋ฐ ๊ฒฐ๋ก
์ธ๊ฐ ์์ธ ์์ธก ๋ถ์ผ์ ๋น๊ต ์ฐ๊ตฌ๋ค์ ํ์ฌ ๊ธฐ์ ์์ค์ ์กฐ๋ช ํ๊ณ ํฅํ ์ฐ๊ตฌ๊ฐ ๋์๊ฐ์ผ ํ ๋ฐฉํฅ์ ๋ํ ์ค์ํ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
A. ๋ฆฌ๋ทฐ์์ ์ข ํฉ๋ ํฅํ ์ฐ๊ตฌ ๊ธฐํ
- ๋ ๋์ ๋ฒค์น๋งํฌ ๊ตฌ์ถ: ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ, ์ํธ์์ฉ, ์ค์ ํ๊ฒฝ ์์ธก์ ์ํ ๋ ๋ค์ํ๊ณ , ๋๊ท๋ชจ์ด๋ฉฐ, ์ ํํ๊ฒ ์ฃผ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์ ๊ฐ๋ฐ.1 ์ ํ๋, ๋ค์์ฑ, ํ๋น์ฑ, ํจ์จ์ฑ, ์์ ๊ด๋ จ์ฑ์ ํฌ๊ดํ๋ ์ ์ฒด๋ก ์ ์ฑ๋ฅ์ ์ด์ ์ ๋ง์ถ ํ์คํ๋ ํ๊ฐ ํ๋กํ ์ฝ ์ ๋ฆฝ. ๊ฐ์ธํ ์์ธก์ ์ํ ํน์ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ.3
- ์ฅ๊ธฐ ๋ฐ ์ํธ์์ฉ ๋ชจ๋ธ ๊ฐ์ : ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ, ๋ชฉํ ์งํฅ์ ํ๋, ๋ณต์กํ ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ์ ๋ ์ ๋ชจ๋ธ๋งํ ์ ์๋ ์ํคํ ์ฒ ๊ฐ๋ฐ.1 ๊ณ์ธต์ ๋ชจ๋ธ, ๋ฉ๋ชจ๋ฆฌ ๋ฉ์ปค๋์ฆ, ์ฌํ์ ์ํธ์์ฉ ์ฌ์ ์ง์ ํ๊ตฌ.
- ํจ์จ์ ์ด๊ณ ์ ์ด ๊ฐ๋ฅํ ์์ฑ ๋ชจ๋ธ: ํ์ฐ ๋ชจ๋ธ์ ๋ ๋น ๋ฅธ ์ํ๋ง ๋ฐฉ๋ฒ ์ฐ๊ตฌ14 ๋ฐ ์กฐ๊ฑด๋ถ ์์ธก์ ์ํ ์์ฑ ์ถ๋ ฅ ์ ์ด ๋ฅ๋ ฅ ํฅ์.20 ํ๋ก์ฐ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ๋์ ํ์.6
- ํฅ์๋ ๋ฌผ๋ฆฌ์ ํ์ค์ฑ: ๋ฌผ๋ฆฌ์ ์ฌ์ ์ง์์ ๋ชจ๋ธ์ ๋ ๊น๊ณ ํจ์จ์ ์ผ๋ก ํตํฉํ์ฌ, ์ฌํ ๋ณด์ ์ด๋ ๋น์ฉ์ด ๋ง์ด ๋๋ ์๋ฎฌ๋ ์ด์ ๋จ๊ณ๋ฅผ ๋์ด์๋ ๋ฐฉ์ ๋ชจ์.8 ๋ฌผ๋ฆฌํ์ ์์์ ์ผ๋ก ํ์ตํ๊ฑฐ๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌํ ํ์ฉ ํ๊ตฌ.
- ๊ฐ์ธํ ๋ฐ ์ ์: ์ ํ๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฐ์ธํ ๊ฐ์ธํ ๋ชจ๋ธ์ ํ์ตํ๊ฑฐ๋ ์จ๋ผ์ธ์์ ๊ฐ๋ณ ์ฌ์ฉ์์๊ฒ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ๋ฐฉ๋ฒ ๊ฐ๋ฐ.3
- ์ค๋ช ๊ฐ๋ฅ์ฑ ๋ฐ ์ ๋ขฐ์ฑ (Explainability and Trustworthiness): ๋ชจ๋ธ์ด ๋ณต์กํด์ง์ ๋ฐ๋ผ, ํนํ ์์ ์ด ์ค์ํ ์์ฉ ๋ถ์ผ์์ ํน์ ์์ธก์ด ์ด๋ฃจ์ด์ง ์ด์ ๋ฅผ ์ดํดํ๋ ๊ฒ์ด ์ค์ํด์ง.21
- ๊ต์ฐจ ๋ชจ๋ฌ ์์ธก (Cross-Modal Forecasting): ๊ณผ๊ฑฐ ์์ธ ์ธ์ ์ฅ๋ฉด ์ ๋ณด(์ด๋ฏธ์ง17, 3D ์ค์บ15), ์ค๋์ค, ํ ์คํธ ์ง์นจ๊ณผ ๊ฐ์ ๋ค๋ฅธ ์์(modalities)์ ์์ธก ํ๋ก์ธ์ค์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ํตํฉ.
์ฃผ๋ชฉํ ์ ์, ์ ์๋ ๋ง์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๋ค์ด ์์ ์๋ณ๋ ์ง์์ ์ธ ๊ณผ์ ๋ค(์: ๋ฐ์ดํฐ ํ๊ณ๋ฅผ ์ํ ๋ ๋์ ๋ฒค์น๋งํฌ, ํ๋น์ฑ ๋ฌธ์ ๋ฅผ ์ํ ๋ฌผ๋ฆฌ ํตํฉ, ํ์ฐ ๋ชจ๋ธ์ ํจ์จ์ฑ ๋ฌธ์ ํด๊ฒฐ)์ ์ง์ ์ ์ผ๋ก ๋ค๋ฃจ๊ณ ์๋ค๋ ๊ฒ์ ๋๋ค.1 ์ด๋ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ ๋ด์์ ํ์ฌ์ ๋ณ๋ชฉ ํ์์ ๋ํ ๊ฐํ ์ธ์์ด ์์ผ๋ฉฐ, ์ฐ๊ตฌ๊ฐ ์๋ ค์ง ์ฝ์ ์ ์ ๊ทน์ ์ผ๋ก ๋ชฉํ๋ก ํ๊ณ ์์์ ๋ํ๋ ๋๋ค. ์ด๋ ํฅํ ๋ช ๋ ์์ ์๋นํ ๋ฐ์ ์ด ์ด๋ฃจ์ด์ง ๊ฐ๋ฅ์ฑ์ด ์๋ ์์ญ์ ์์ฌํฉ๋๋ค.
๋ํ, ๊ฐ์ธํ3์ ์ค๋ช ๊ฐ๋ฅ์ฑ21์ ๋ํ ๊ด์ฌ ์ฆ๊ฐ๋ ์์ธก ๋ชจ๋ธ์ด ํ๊ท ์ ์ผ๋ก ์ ํํ ๋ฟ๋ง ์๋๋ผ ํน์ ์ธ๊ฐ ์ค์ฌ ์์ฉ ๋ถ์ผ์ ๋ง๊ฒ ์กฐ์ ๋๊ณ ์ ๋ขฐํ ์ ์์ด์ผ ํ๋ ๋ฏธ๋๋ฅผ ์์ํฉ๋๋ค. AI ์์คํ ์ด ์ธ๊ฐ๊ณผ ๋ ๊ธด๋ฐํ๊ฒ ์ํธ์์ฉํจ์ ๋ฐ๋ผ, ์ผ๋ฐ์ ์ด๊ณ ๋ธ๋๋ฐ์ค์ ์ธ ๋ชจ๋ธ์ ๋ ์์ฉ ๊ฐ๋ฅํด์ง ๊ฒ์ด๋ฉฐ, ๊ฐ์ธ์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ์ดํดํ๊ณ ๊ทธ ํ๋์ ์ดํดํ๊ฑฐ๋ ์์ธกํ ์ ์๋ ๋ชจ๋ธ์ ๋ํ ์๊ตฌ๊ฐ ์ฆ๊ฐํ์ฌ ์ฐ๊ตฌ๊ฐ ๋จ์ํ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ๋์ด์๋๋ก ์ด๋ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
B. ์ข ํฉ ๊ฒฐ๋ก
์ธ๊ฐ ์์ธ ์์ธก ์ฐ๊ตฌ๋ ๋จ๊ธฐ ๊ฒฐ์ ๋ก ์ ์์ธก์์ ์ฅ๊ธฐ, ๋ค์ค ์์ด์ ํธ, ํ๋ฅ ๋ก ์ ์๋๋ฆฌ์ค๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉํฅ์ผ๋ก ํฌ๊ฒ ๋ฐ์ ํ์ต๋๋ค. RNN, GCN, ํนํ ํธ๋์คํฌ๋จธ๋ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ํฅ์์์ผฐ์ต๋๋ค. ์์ฑ ๋ชจ๋ธ, ํนํ (์์ฑ ์์ ์์ ์ฐจ์ฉ๋) ํ์ฐ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ๊ณผ ๋ค์์ฑ์ ์ฒ๋ฆฌํ๋ ๋ฐ ์ ๋งํจ์ ๋ณด์ด์ง๋ง ํจ์จ์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ์ธก๋ฉด์์ ๊ณผ์ ๋ฅผ ์๊ณ ์์ต๋๋ค.
๋น๊ต ์ฐ๊ตฌ๋ค์ ํต์ฌ ๋ฉ์์ง๋ ๋ชจ๋ ์ธก๋ฉด์์ ๋จ์ผ ๋ฐฉ๋ฒ๋ก ์ด ์ง๋ฐฐ์ ์ด์ง ์๋ค๋ ๊ฒ์ ๋๋ค. ํธ๋์คํฌ๋จธ๋ ๊ฐ๋ ฅํ ์ํ์ค ๋ชจ๋ธ๋ง์ ์ ๊ณตํ๊ณ , GCN์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ฉฐ, ๋ถ๋ฆฌ ๊ธฐ๋ฒ์ ๋ณต์ก์ฑ ๊ด๋ฆฌ๋ฅผ ๋๊ณ , ๋ฌผ๋ฆฌ ์๋ด๋ ํ์ค์ฑ์ ๋์ ๋๋ค. ํ๊ฐ๋ MPJPE๋ฅผ ๋์ด์๋ ๋ค๋ฉด์ ์ธ ์ ๊ทผ์ด ํ์ํ๋ฉฐ, ๋ฒค์น๋งํฌ์ ํ๊ณ๋ ์ฌ์ ํ ์ค์ํ ๋ณ๋ชฉ ํ์์ผ๋ก ๋จ์ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ๋ ๋ ๋์ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ, ๋งฅ๋ฝ๊ณผ ์ํธ์์ฉ ์ดํด๋ฅผ ํตํฉํ๋ ๋ ์ ๊ตํ ๋ชจ๋ธ ๊ฐ๋ฐ, ํจ์จ์ ์ด๊ณ ์ ์ด ๊ฐ๋ฅํ ์์ฑ ๊ธฐ๋ฒ ์ฐ๊ตฌ, ๊ทธ๋ฆฌ๊ณ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ๊ฐ์ธํ๋ฅผ ๋ณด์ฅํ๋ ๊ฐ์ธํ ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ ๋ฌ๋ ค ์์ต๋๋ค. ์ด ๋ถ์ผ๋ HCI, ๋ก๋ด ๊ณตํ, ์์จ ์์คํ ๋ฑ ๊น๋ค๋ก์ด ์์ฉ ๋ถ์ผ์ ์ํด ์ฃผ๋๋๋ ์ญ๋์ ์ธ ์์ญ์ผ๋ก, ํ์ค์ฑ, ์ํธ์์ฉ, ํจ์จ์ฑ, ๊ฐ์ธํ์ ๋ํ ์ง์์ ์ธ ์ถ๊ตฌ๊ฐ ์ฐ๊ตฌ ๋ฐ์ ์ ์ด๋์ด๊ฐ ๊ฒ์ผ๋ก ์ ๋ง๋ฉ๋๋ค.
์ฐธ๊ณ ์๋ฃ
-
Jeong, H., Choi, J., & Lee, G. (2024). Multi-agent Long-term 3D Human Pose Forecasting via Interaction-aware Trajectory Conditioning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). https://openaccess.thecvf.com/content/CVPR2024/papers/Jeong_Multi-agent_Long-term_3D_Human_Pose_Forecasting_via_Interaction-aware_Trajectory_Conditioning_CVPR_2024_paper.pdfย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6ย ↩7ย ↩8ย ↩9ย ↩10ย ↩11ย ↩12ย ↩13ย ↩14ย ↩15ย ↩16ย ↩17ย ↩18ย ↩19ย ↩20ย ↩21ย ↩22ย ↩23ย ↩24ย ↩25ย ↩26ย ↩27ย ↩28ย ↩29ย ↩30ย ↩31ย ↩32ย ↩33ย ↩34ย ↩35ย ↩36ย ↩37ย ↩38ย ↩39
-
Parsaeifard, B., & Stiefelhagen, R. (2021). Learning Decoupled Representations for Human Pose Forecasting. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops. https://openaccess.thecvf.com/content/ICCV2021W/SoMoF/papers/Parsaeifard_Learning_Decoupled_Representations_for_Human_Pose_Forecasting_ICCVW_2021_paper.pdfย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6ย ↩7ย ↩8ย ↩9ย ↩10ย ↩11ย ↩12ย ↩13
-
Adeli, V., Shariat, N., Marin, R., Reid, I., & Salzmann, M. (2023). Personalized Pose Forecasting. arXiv preprint arXiv:2312.03528. https://arxiv.org/pdf/2312.03528ย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6ย ↩7ย ↩8ย ↩9ย ↩10ย ↩11ย ↩12ย ↩13ย ↩14ย ↩15ย ↩16ย ↩17
-
Mao, W., Liu, M., & Salzmann, M. (2019). Long-Term Human Motion Prediction by Modeling Motion Context and Enhancing Motion Dynamics. ResearchGate. https://www.researchgate.net/publication/326206421_Long-Term_Human_Motion_Prediction_by_Modeling_Motion_Context_and_Enhancing_Motion_Dynamicsย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6ย ↩7ย ↩8ย ↩9ย ↩10ย ↩11ย ↩12ย ↩13ย ↩14ย ↩15ย ↩16ย ↩17
-
Zheng, W., Liu, M., & Salzmann, M. (2023). MotionBERT: A Unified Perspective On Learning Human Motion Representations. Scribd. https://www.scribd.com/document/714836400/MotionBERT-A-Unified-Perspective-on-Learning-Human-Motion-Representationsย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6ย ↩7ย ↩8ย ↩9ย ↩10
-
Xu, Z., Chai, J., & Lv, X. (2025). Human Motion Prediction, Reconstruction, and Generation. arXiv preprint arXiv:2502.15956. https://arxiv.org/html/2502.15956v1ย ↩ย ↩2ย ↩3ย ↩4
-
Tevet, G., et al. (2022). Human Motion Diffusion Model. OpenReview. https://openreview.net/pdf?id=SJ1kSyO2jwuย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6ย ↩7
-
Yuan, Y., Rempe, D., Liu, Z., Wang, T., Snavely, N., & Black, M. J. (2023). PhysDiff: Physics-Guided Human Motion Diffusion Model. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). https://openaccess.thecvf.com/content/ICCV2023/papers/Yuan_PhysDiff_Physics-Guided_Human_Motion_Diffusion_Model_ICCV_2023_paper.pdfย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6ย ↩7ย ↩8ย ↩9ย ↩10ย ↩11ย ↩12ย ↩13ย ↩14ย ↩15ย ↩16ย ↩17ย ↩18ย ↩19ย ↩20ย ↩21ย ↩22ย ↩23ย ↩24
-
Li, T., et al. (2024). AAMDM: Accelerated Auto-regressive Motion Diffusion Model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). https://openaccess.thecvf.com/content/CVPR2024/html/Li_AAMDM_Accelerated_Auto-regressive_Motion_Diffusion_Model_CVPR_2024_paper.htmlย ↩ย ↩2ย ↩3ย ↩4ย ↩5
-
Towards Realistic Human Motion Prediction with Latent Diffusion and Physics-Based Models. (2025). MDPI. https://www.mdpi.com/2079-9292/14/3/605ย ↩
-
Review of models for estimating 3D human pose using deep learning. (2025). PMC. https://pmc.ncbi.nlm.nih.gov/articles/PMC11888865/ย ↩ย ↩2
-
Kjellstrรถm, H., et al. (2021). The THรR dataset: A dataset for human-robot interaction. รrebro University. http://oru.diva-portal.org/smash/get/diva2:1524236/FULLTEXT01.pdfย ↩ย ↩2ย ↩3ย ↩4ย ↩5ย ↩6
-
EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation. (2023). arXiv preprint arXiv:2312.02256. https://arxiv.org/html/2312.02256v3ย ↩ย ↩2ย ↩3ย ↩4
-
Harmonizing Stochasticity and Determinism: Scene-responsive Diverse Human Motion Prediction. (2024). OpenReview. https://openreview.net/forum?id=NQCkNM6TESย ↩ย ↩2
-
ReinDiffuse: Crafting Physically Plausible Motions with Reinforced Diffusion Model. (2024). arXiv preprint arXiv:2410.07296. https://arxiv.org/html/2410.07296v1ย ↩ย ↩2
-
Move-in-2D: 2D-Conditioned Human Motion Generation. (2024). arXiv preprint arXiv:2412.13185. https://arxiv.org/html/2412.13185v1ย ↩ย ↩2
-
Martinez, J., Black, M. J., & Romero, J. (2017). On Human Motion Prediction Using Recurrent Neural Networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). https://typeset.io/papers/on-human-motion-prediction-using-recurrent-neural-networks-2i62b0kvs1ย ↩
-
A Survey on Deep Learning-Based 2D Human Pose Estimation Models. (2023). Tech Science Press. https://www.techscience.com/cmc/v76n2/53975/htmlย ↩
-
Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion Synthesis. (2023). arXiv preprint arXiv:2305.13773. https://arxiv.org/html/2305.13773v2ย ↩
-
Neuro-Symbolic AI in 2024: A Systematic Review. (2025). arXiv preprint arXiv:2501.05435. https://arxiv.org/html/2501.05435v1ย ↩ย ↩2