[Paper research] Human pose estimate
์ฃผ์
- ์ฌ๋์ 3d ํฌ์ฆ ์ถ์ (HPE, Human Pose Estimation)
์ต์ ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก 2D ์ด๋ฏธ์ง์์ ์ฌ๋์ ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃจ๊ณ ์๋ค. ์ผ๋จ 2d์ ์ผ์ ๋ฐ์ดํฐ์ด๋ ์ง, 3d ์ผ์ ๋ฐ์ดํฐ์ด๋ ์ง pose๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋น์ทํ๋ค๊ณ ๊ฐ์ค์ ์ธ์๋๊ณ , 3d pose estimation์ ํ๋ ๋ ผ๋ฌธ์ ์ฐพ์๋ณด์๋ค.
MotionAGFormer: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"MotionAGFormer: Enhancing 3D Human Pose Estimation with a Transformer-GCNFormer Network"
๐ ์ถ์ฒ: S Mehraban, V Adeli, B Taati โ Proceedings of the IEEE/CVF WACV, 2024
๐ ๋ ผ๋ฌธ ๋งํฌ: WACV ๋ ผ๋ฌธ ๋งํฌ
๐ PDF ๋ค์ด๋ก๋: PDF ํ์ผ ๋งํฌ
๐ง ์ฝ๋ ์ ์ฅ์: GitHub Repository
1. ์ฐ๊ตฌ ๋ชฉ์
- 3D ์ธ๊ฐ ํฌ์ฆ ์ถ์ (3D Human Pose Estimation)์ ๊ฐ์ ํ๊ธฐ ์ํด Transformer์ Graph Convolutional Network (GCN)์ ๊ฒฐํฉํ ์๋ก์ด ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ ์.
- ๊ธฐ์กด Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๊ธ๋ก๋ฒ ๊ด๊ณ (Global Relationships)๋ ์ ํฌ์ฐฉํ์ง๋ง ๋ก์ปฌ ์์กด์ฑ (Local Dependencies)์ ์ ํํ๊ฒ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณต.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
Attention-GCNFormer (AGFormer) ๋ธ๋ก:
- ๋ ๊ฐ์ ๋ณ๋ ฌ ์คํธ๋ฆผ, ์ฆ Transformer ์คํธ๋ฆผ๊ณผ GCNFormer ์คํธ๋ฆผ์ ์ฌ์ฉํ์ฌ ๊ธ๋ก๋ฒ ๋ฐ ๋ก์ปฌ ๊ด๊ณ๋ฅผ ๋์์ ํฌ์ฐฉ. -
๋ก์ปฌ ๊ด๊ณ (Local Relationships):
- GCNFormer๋ ์ธ์ ํ ๊ด์ (Joint) ๊ฐ์ ๋ก์ปฌ ์์กด์ฑ์ ํ์ตํ์ฌ Transformer์ ๊ธ๋ก๋ฒ ๊ด๊ณ๋ฅผ ๋ณด์. -
์ด๋ํฐ๋ธ ์ตํฉ (Adaptive Fusion):
- Transformer์ GCNFormer์ ์ถ๋ ฅ์ ํตํฉํ์ฌ 3D ๊ตฌ์กฐ๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ์ฌ๊ตฌ์ฑ. -
๋ค์ค AGFormer ๋ธ๋ก ์คํํน:
- ์ฌ๋ฌ AGFormer ๋ธ๋ก์ ์คํํ์ฌ MotionAGFormer ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑ.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: 2D ๋๋ 3D ํฌ์ฆ ๋ฐ์ดํฐ.
- Transformer ์คํธ๋ฆผ: ์ ์ฒด ํฌ์ฆ ๊ตฌ์กฐ์ ๊ธ๋ก๋ฒ ๊ด๊ณ ํ์ต.
- GCNFormer ์คํธ๋ฆผ: ์ธ์ ํ ๊ด์ ๊ฐ์ ๋ก์ปฌ ์์กด์ฑ ํ์ต.
- ์ถ๋ ฅ: ํตํฉ๋ 3D ํฌ์ฆ ์ฌ๊ตฌ์ฑ.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ : Human3.6M, MPI-INF-3DHP.
- ํ๊ท ์ฌ๊ตฌ์ฑ ์ค๋ฅ (P1 Error):
- Human3.6M: 38.4 mm
- MPI-INF-3DHP: 16.2 mm
- ํจ์จ์ฑ: ์ด์ ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ ๋๋น 1/4 ์์ค์ ํ๋ผ๋ฏธํฐ์ 3๋ฐฐ ๋์ ๊ณ์ฐ ํจ์จ์ฑ.
- ์๋-์ ํ๋ ๊ท ํ: ๋ค ๊ฐ์ง ๋ค์ํ ๋ณํ(Variants)์ ์ ๊ณตํ์ฌ ๋ค์ํ ์์ฉ ์ฌ๋ก ์ง์.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ Attention-GCNFormer ๋ธ๋ก ๋์ : ๊ธ๋ก๋ฒ ๋ฐ ๋ก์ปฌ ๊ด๊ณ๋ฅผ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ต.
- โ ์ ์ํ ์ตํฉ: Transformer์ GCNFormer ์ถ๋ ฅ์ ์ต์ ํ๋ ๋ฐฉ์์ผ๋ก ํตํฉ.
- โ ํจ์จ์ฑ ์ต์ ํ: ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก ๋ฐ์ด๋ ์ฑ๋ฅ ๋ฌ์ฑ.
6. ์์ฉ ๋ถ์ผ
- ๐ก๏ธ ํด๋จผ-๋ก๋ด ์ํธ์์ฉ (HRI): ๋ก๋ด์ด ์ฌ๋์ ์์ง์์ ์ ํํ๊ฒ ์ธ์.
- ๐ฎ ๊ฒ์ ๋ฐ ์ํ ์ฐ์ : ์์ฐ์ค๋ฌ์ด ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์ ์์ฑ.
- ๐ ์คํฌ์ธ ๋ถ์: ์ ์์ ์์ง์์ ์ ๋ฐํ๊ฒ ๋ถ์.
- ๐ฉบ ์๋ฃ ๋ฐ ์ฌํ: ํ์์ ์์ธ ๋ฐ ์์ง์ ๋ชจ๋ํฐ๋ง.
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ณต์กํ ํ๊ฒฝ ๋ฐ ๊ฐ๋ ค์ง ๋ถ๋ถ (Occlusion)์์๋ ์ ํ๋ ์ ํ ๊ฐ๋ฅ.
- ๋์ ๊ณ์ฐ ๋ฆฌ์์ค๋ฅผ ์๊ตฌํ ์ ์์.
8. ๊ฒฐ๋ก
- MotionAGFormer๋ Transformer์ GCNFormer์ ์ฅ์ ์ ๊ฒฐํฉํ์ฌ 3D ์ธ๊ฐ ํฌ์ฆ ์ถ์ ์ ์ ํ๋์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํด.
- ๋ค์ํ ํ๊ฒฝ๊ณผ ์ ํ๋ฆฌ์ผ์ด์ ์์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ด ๋์.
๐๏ธ ์ถํ ์ฐ๋: 2024
TRAM: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"TRAM: Global Trajectory and Motion of 3D Humans from in-the-Wild Videos"
๐ ์ถ์ฒ: Y Wang, Z Wang, L Liu, K Daniilidis โ European Conference on Computer Vision (ECCV), 2025
๐ ๋ ผ๋ฌธ ๋งํฌ: Springer Link
๐ PDF ๋ค์ด๋ก๋: arXiv PDF ๋งํฌ
๐ง ์ ์ ์ ๋ณด:
๐ ํ๋ก์ ํธ ํ์ด์ง: TRAM Project
๐ฆ ์ฝ๋ ์ ์ฅ์: GitHub Repository
1. ์ฐ๊ตฌ ๋ชฉ์
- 3D ์ธ๊ฐ์ ์ ์ญ ๊ถค์ (Global Trajectory)๊ณผ ๋์ (Motion)์ ์์ฐ ์์ (In-the-Wild Videos)์์ ์ ํํ๊ฒ ์ฌ๊ตฌ์ฑ.
- ๊ธฐ์กด SLAM (๋์์ ์์น์ถ์ ๋ฐ ์ง๋์์ฑ) ์์คํ ์ ๋์ ์ธ๊ฐ ๊ฐ์ฒด ๋ฌธ์ (Dynamic Human Object Issues)๋ฅผ ํด๊ฒฐ.
- ์นด๋ฉ๋ผ ์์ง์์ ๊ธฐ์ค ์ฒ๋ (Metric-Scale Reference)๋ก ์ฌ์ฉํด ์ ํํ 3D ์ธ๊ฐ ํฌ์ฆ์ ๊ถค์ ์ ๋ณต์.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
SLAM ์ต์ ํ:
- SLAM ์์คํ ์ ๊ฐ์ ํ์ฌ ๋์ ์ธ๊ฐ ๊ฐ์ฒด๋ก ์ธํ ์ค๋ฅ๋ฅผ ์ต์ํ.
- ๋ฐฐ๊ฒฝ (Scene Background)์ ํ์ฉํ์ฌ ๋์ ์ค์ผ์ผ (Motion Scale)์ ๋ณต์.
-
Video Transformer Model (VIMO):
- ๋น๋์ค ๊ธฐ๋ฐ Transformer ๋ชจ๋ธ์ ๋์ ํด ์ ์ฒด ๋์ (Kinematic Body Motion)์ ํ๊ท ์์ธก.
- ์๊ฐ์ ์ฐ์์ฑ (Temporal Consistency)์ ์ ์งํ๋ฉฐ ํ๋ ์ ๊ฐ ๋ณํ๋ฅผ ํฌ์ฐฉ.
-
๋ ๋์์ ํตํฉ:
- ์นด๋ฉ๋ผ ์์ง์๊ณผ ์ธ์ฒด ์์ง์์ ๊ฒฐํฉํด ์ ํํ ์ธ๊ณ ์ขํ๊ณ (World Space)์์์ 3D ์ธ๊ฐ ํฌ์ฆ ๋ณต์.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: ์์ฐ ์์ (In-the-Wild Videos).
- Step 1: SLAM์ ์ฌ์ฉํ์ฌ ์นด๋ฉ๋ผ ์์ง์๊ณผ ๋ฐฐ๊ฒฝ ์ ๋ณด๋ฅผ ๋ถ์.
- Step 2: VIMO๋ฅผ ํตํด ์ ์ฒด ๋์์ ํ๋ ์ ๋จ์๋ก ์์ธก.
- Step 3: ์นด๋ฉ๋ผ ๊ถค์ ๊ณผ ์ ์ฒด ๋์์ ํตํฉํ์ฌ ์ ์ญ ์ขํ๊ณ์์ ํฌ์ฆ๋ฅผ ๋ณต์.
- ์ถ๋ ฅ: ์ ํํ 3D ์ธ๊ฐ ๊ถค์ ๋ฐ ์์ง์ ์ฌ๊ตฌ์ฑ.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ : Human3.6M, 3DPW, EgoBody.
- ์ ํ๋ ๊ฐ์ : ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ๊ธ๋ก๋ฒ ๋ชจ์ ์ค์ฐจ (Global Motion Error)๊ฐ ํฌ๊ฒ ๊ฐ์.
- ์๊ฐ ์ผ๊ด์ฑ: ํ๋ ์ ๊ฐ ์ธ๊ฐ ์์ง์์ด ์์ฐ์ค๋ฝ๊ณ ์ผ๊ด๋๊ฒ ์ ์ง๋จ.
- ์ค์ ํ๊ฒฝ ์ ์ฉ: ์์ฐ์ค๋ฌ์ด ๋น๋์ค ๋ฐ์ดํฐ์ ์์๋ ๊ฐ๊ฑดํ ์ฑ๋ฅ ์ ์ฆ.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ SLAM ์ต์ ํ: ๋์ ์ธ๊ฐ ๊ฐ์ฒด๋ก ์ธํ ์ค๋ฅ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํ.
- โ Video Transformer (VIMO): ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ์๊ฐ์ ์ฐ์์ฑ์ ์ ์ง.
- โ ๊ธ๋ก๋ฒ ๊ถค์ ๋ณต์: ์นด๋ฉ๋ผ ๊ถค์ ๊ณผ ์ธ๊ฐ ์์ง์์ ํตํฉํ์ฌ ํ์ค์ 3D ๋ณต์.
- โ ๋๋ฉ์ธ ์ผ๋ฐํ: ๋ค์ํ ์์ฐ ๋น๋์ค์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ ๊ฒ์ฆ.
6. ์์ฉ ๋ถ์ผ
- ๐ก๏ธ ์ค๋งํธ ๊ฐ์ ์์คํ : ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ ํ๋ ๋ถ์ ๋ฐ ๋ชจ๋ํฐ๋ง.
- ๐ฎ ๊ฒ์ ๋ฐ VR/AR: ์ค์ ์ธ๊ฐ ์์ง์ ๊ธฐ๋ฐ์ ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์ .
- ๐ฅ ์ํ ๋ฐ VFX: ์ฌ์ค์ ์ธ ์ธ๊ฐ ์์ง์ ์ฌํ.
- ๐ค ํด๋จผ-๋ก๋ด ์ํธ์์ฉ: ๋ก๋ด์ด ์ฌ๋์ ์์ง์์ ์ ํํ๊ฒ ์ธ์ ๋ฐ ์ถ์ .
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๊ทน๋จ์ ์ธ ๋์์ด๋ ๋ณต์กํ ๋ฐฐ๊ฒฝ์์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ.
- ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์ถ๊ฐ ์ต์ ํ ํ์.
8. ๊ฒฐ๋ก
- TRAM์ SLAM๊ณผ Transformer ๋ชจ๋ธ์ ํตํฉํ์ฌ 3D ์ธ๊ฐ ๊ถค์ ๋ฐ ๋์์ ์์ฐ ๋น๋์ค ๋ฐ์ดํฐ์์ ์ ํํ๊ฒ ์ฌ๊ตฌ์ฑ.
- ๊ธ๋ก๋ฒ ์ขํ๊ณ์์์ ์ผ๊ด๋ ์์ง์์ ์ฌํํ๋ฉฐ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ฆ.
๐๏ธ ์ถํ ์ฐ๋: 2025
RGB-D ๊ธฐ๋ฐ 3D ํฌ์ฆ ์ถ์
Impact of 3D Cartesian Positions and Occlusion on Self-Avatar Full-Body Animation in Virtual Reality: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"Impact of 3D Cartesian Positions and Occlusion on Self-Avatar Full-Body Animation in Virtual Reality"
๐จ ์ฝ๋: ์ฝ๋ ์์
๐ ์ถ์ฒ: G Fletcher, SA Ghasemzadeh, T Ravet โ Proceedings of Advanced Virtual Reality and Extended Reality, 2025
๐ ๋ ผ๋ฌธ ๋งํฌ: UCLouvain Repository
๐ง ์ ์ ์ ๋ณด:
1. ์ฐ๊ตฌ ๋ชฉ์
- RGB-D ๋ฐ์ดํฐ (RGB-Depth Data)๋ฅผ ์ฌ์ฉํ์ฌ 3D ์ธ๊ฐ ํฌ์ฆ ์ฌ๊ตฌ์ฑ (3D Human Pose Reconstruction)์ ์ ํ๋๋ฅผ ๋์.
- ๊ฐ๋ ค์ง (Occlusions)์ด ๋ฐ์ํ ์ํฉ์์ ์ธ๊ฐ ํฌ์ฆ์ ์ ํํ ์ถ์ ์ ๋ชฉํ๋ก ํจ.
- Self-Avatar Animation์์ 3D Cartesian ์์น ์ค๋ฅ์ ์ํฅ์ ๋ถ์.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
RGB-D ๋ฐ์ดํฐ ํตํฉ:
- RGB ์ด๋ฏธ์ง์ ๊น์ด(Depth) ๋ฐ์ดํฐ๋ฅผ ์ตํฉํ์ฌ ํฌ์ฆ ์ถ์ ์ ํ๋ ํฅ์.
-
Occlusion Handling Module:
- ๊ฐ๋ ค์ง (Occlusion) ์ํฉ์ ๊ฐ์งํ๊ณ ์์ธก๋ ํฌ์ฆ๋ฅผ ๋ณด์ .
- ๋น๊ฐ๋ ค์ง ๊ด์ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ ค์ง ๋ถ๋ถ์ ์์ธก.
-
Self-Avatar Animation Pipeline:
- 3D Cartesian ์ขํ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ์ ์๋ฐํ์ ์ ์ฒด ์์ง์์ ์ฌ๊ตฌ์ฑ.
- ์ค์๊ฐ ์ํธ์์ฉ์ ๋ณด์ฅํ๊ธฐ ์ํ ์ต์ ํ๋ ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: RGB-D ๋น๋์ค ํ๋ ์.
- Step 1: RGB ์ด๋ฏธ์ง์์ ์ด๊ธฐ ํฌ์ฆ๋ฅผ ์์ธก.
- Step 2: ๊น์ด ๋ฐ์ดํฐ(Depth Map)๋ฅผ ์ฌ์ฉํ์ฌ ํฌ์ฆ๋ฅผ 3D ์ขํ๋ก ๋ณํ.
- Step 3: Occlusion Handling Module์ ํตํด ๊ฐ๋ ค์ง ๊ด์ ์ ์์น๋ฅผ ์์ธก.
- Step 4: Self-Avatar Animation์ผ๋ก ์ต์ข ํฌ์ฆ๋ฅผ ์๊ฐํ.
- ์ถ๋ ฅ: ๊ฐ๋ ค์ง์ด ๋ณด์ ๋ 3D ์ธ๊ฐ ํฌ์ฆ ๋ฐ ์ค์๊ฐ ์๋ฐํ ์ ๋๋ฉ์ด์ .
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ : Human3.6M, MPI-INF-3DHP.
- ์ค๋ฅ ๋ถ์: ๊ฐ๋ ค์ง ํ๊ฒฝ์์์ MPJPE (Mean Per Joint Position Error) ๋ถ์.
- ์ ํ๋ ํฅ์: RGB-D ๋ฐ์ดํฐ๋ฅผ ํตํฉํ ํ ํฌ์ฆ ์ ํ๋๊ฐ 18% ๊ฐ์ .
- ์ค์๊ฐ ์ฑ๋ฅ: ์๋ฐํ ์์ง์์ด ์ค์๊ฐ์ผ๋ก ์ฌ๊ตฌ์ฑ๋จ.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ RGB-D ๋ฐ์ดํฐ ํตํฉ: RGB ์ด๋ฏธ์ง์ ๊น์ด ์ ๋ณด๋ฅผ ํจ๊ป ์ฌ์ฉํด ํฌ์ฆ ์ ํ๋ ๊ฐ์ .
- โ Occlusion Handling Module: ๊ฐ๋ ค์ง ํฌ์ฆ ๋ถ๋ถ์ ์์ธกํ์ฌ ์ ์ฒด ํฌ์ฆ์ ์ผ๊ด์ฑ ์ ์ง.
- โ Self-Avatar Animation: 3D Cartesian ์ขํ ๊ธฐ๋ฐ์ผ๋ก ์๋ฐํ ์์ง์์ ์์ฐ์ค๋ฝ๊ฒ ์ฌํ.
- โ ์ค์๊ฐ ์ฑ๋ฅ: ์๋ฐํ ์ ๋๋ฉ์ด์ ์ ์ค์๊ฐ์ผ๋ก ๊ตฌํ.
6. ์์ฉ ๋ถ์ผ
- ๐ฎ VR/AR ๊ฒ์: ์ฌ์ฉ์ ์์ง์์ ์ ํํ๊ฒ ๋ฐ์ํ ์๋ฐํ ์ ๋๋ฉ์ด์ .
- ๐ฉบ ์๋ฃ ์ฌํ: ํ์์ ์์ง์ ๋ถ์ ๋ฐ ๋ฌผ๋ฆฌ ์น๋ฃ ๋ณด์กฐ.
- ๐ก๏ธ ์ค๋งํธ ๊ฐ์ ์์คํ : ๊ฐ๋ ค์ง ์ํฉ์์๋ ์ธ๊ฐ ์์ง์ ์ถ์ .
- ๐ค ๋ก๋ด ์ํธ์์ฉ: ์ธ๊ฐ ํฌ์ฆ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ฌ๊ตฌ์ฑํ์ฌ ๋ก๋ด์ ๋ฐ์.
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ณต์กํ ๊ฐ๋ ค์ง ์ํฉ์์๋ ์ฌ์ ํ ์์ธก ์ค๋ฅ ๋ฐ์ ๊ฐ๋ฅ์ฑ.
- ์ค์๊ฐ ์์คํ ์ ์ํ ์ถ๊ฐ ์ต์ ํ ํ์.
- ๋ค์ํ ์กฐ๋ช ๋ฐ ํ๊ฒฝ ์กฐ๊ฑด์์ ์ถ๊ฐ ์คํ ํ์.
8. ๊ฒฐ๋ก
- RGB-D ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ 3D ์ธ๊ฐ ํฌ์ฆ ์ฌ๊ตฌ์ฑ์ ๊ฐ๋ ค์ง (Occlusion) ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ์ฌ ์ ํํ ํฌ์ฆ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํจ.
- Self-Avatar Animation์ 3D Cartesian ์ขํ๋ฅผ ํตํด ๋ณด๋ค ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ ์์ง์์ ์๊ฐํ.
- VR, ์๋ฃ, ๋ก๋ด ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์์ฉ๋ ๊ฐ๋ฅ์ฑ์ ์ ์ฆ.
๐๏ธ ์ถํ ์ฐ๋: 2025
A Real-time Multi-Person 3D Pose Estimation System from Multiple RGB-D Views for Live Streaming of 3D Animation: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"A Real-time Multi-Person 3D Pose Estimation System from Multiple RGB-D Views for Live Streaming of 3D Animation"
๐ ์ถ์ฒ: T Hwang, J Kim, M Kim, M Kim โ Proceedings of the 28th International Conference on Virtual Reality and 3D User Interfaces (VR), 2023
๐ ๋ ผ๋ฌธ ๋งํฌ: ACM Digital Library
๐ DOI: 10.1145/3581754.3584144
๐ง ์ ์ ์ ๋ณด:
1. ์ฐ๊ตฌ ๋ชฉ์
- ๋ค์ค RGB-D ์นด๋ฉ๋ผ (Multiple RGB-D Views)๋ฅผ ํ์ฉํด ์ค์๊ฐ ๋ค์ค ์ธ๋ฌผ 3D ํฌ์ฆ ์ถ์ (Multi-Person 3D Pose Estimation) ์์คํ ์ ์ค๊ณ.
- ๋ผ์ด๋ธ ์คํธ๋ฆฌ๋ฐ (Live Streaming) ์ ๋๋ฉ์ด์ ๊ณผ ๊ฐ์ ํ์ค (VR) ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ชฉํ๋ก ํจ.
- ์ค์ ์๋ฒ์ ์ฃ์ง ์ฅ์น (Edge Devices) ๊ฐ์ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ํต์ ์ ํตํด ์ค์๊ฐ ์ฒ๋ฆฌ ์ฑ๋ฅ์ ์ต์ ํ.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
Edge Device Processing:
- ๊ฐ ์ฃ์ง ์ฅ์น์์ 2D ํฌ์ฆ ๊ฐ์ง (2D Pose Detection) ๋ฐ ๊น์ด ๊ฐ์ง (Depth Sensing)๋ฅผ ๋ก์ปฌ๋ก ์ํ.
- ์ฐ์ฐ ๋ถ๋ด์ ๋ถ์ฐ ์ฒ๋ฆฌํ์ฌ ๋คํธ์ํฌ ํธ๋ํฝ์ ์ต์ํ.
-
Central Server Coordination:
- ์ค์ ์๋ฒ๋ ๋ค์ค ์นด๋ฉ๋ผ ๋ทฐ์ ์ขํ๋ฅผ ์ธ๊ณ ์ขํ๊ณ (World Plane)์ ์ ๋ ฌ.
- ๋ฉํฐ๋ทฐ ์ผ๊ฐ์ธก๋ (Multi-view Triangulation)์ ํตํด 3D ํฌ์ฆ๋ฅผ ์ฌ๊ตฌ์ฑ.
-
Person Matching Across Cameras:
- ๊ฐ ์นด๋ฉ๋ผ์์ ๊ฒ์ถ๋ 2D ํฌ์ฆ ํคํฌ์ธํธ๋ฅผ ์ฌ๋ ๋จ์๋ก ๋งค์นญ.
- ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ค ์นด๋ฉ๋ผ ๋ทฐ ํตํฉ (Person Association).
-
Real-Time Streaming:
- ์ค์๊ฐ์ผ๋ก 3D ํฌ์ฆ๋ฅผ ์ฌ๊ตฌ์ฑํ์ฌ ๋ผ์ด๋ธ ์คํธ๋ฆฌ๋ฐ ์์คํ ์ ํตํฉ.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: ๋ค์ค RGB-D ์นด๋ฉ๋ผ์์ ์ป์ ๋น๋์ค ๋ฐ ๊น์ด ๋ฐ์ดํฐ.
- Step 1: ๊ฐ ์ฃ์ง ์ฅ์น์์ 2D ํฌ์ฆ ๋ฐ ๊น์ด ๋ฐ์ดํฐ ์์ง.
- Step 2: ์ค์ ์๋ฒ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ก.
- Step 3: ์ค์ ์๋ฒ์์ ๋ฉํฐ๋ทฐ ์ผ๊ฐ์ธก๋์ผ๋ก 3D ํฌ์ฆ ์ฌ๊ตฌ์ฑ.
- Step 4: ์ขํ๊ณ ์ ๋ ฌ ๋ฐ ์ฌ๋ ๋งค์นญ ์ํ.
- ์ถ๋ ฅ: ์ค์๊ฐ์ผ๋ก ๋ค์ค ์ธ๋ฌผ 3D ํฌ์ฆ ์ฌ๊ตฌ์ฑ ๋ฐ ๋ผ์ด๋ธ ์คํธ๋ฆฌ๋ฐ.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฒค์น๋งํฌ ํ๊ฒฝ: ์์ฒด ๊ตฌ์ถ๋ ๋ค์ค RGB-D ์นด๋ฉ๋ผ ์ค์ .
-
์ฑ๋ฅ ํ๊ฐ:
- ์ค์๊ฐ ์ฒ๋ฆฌ ์๋: ํ๊ท 30 FPS ์ ์ง.
- ์ ํ๋: MPJPE (Mean Per Joint Position Error) ๊ฐ์ .
- ๋ผ์ด๋ธ ์คํธ๋ฆฌ๋ฐ ํ ์คํธ: PC ๋ฐ ์น ์ ํ๋ฆฌ์ผ์ด์ ์ ํตํด ์์ ์ ์ธ ์คํธ๋ฆฌ๋ฐ ์ฑ๋ฅ ์ ์ฆ.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ Edge-Central ๋ถ์ฐ ์ํคํ ์ฒ: ์ฃ์ง ์ฅ์น์ ์ค์ ์๋ฒ ๊ฐ์ ํ์ ์ฒ๋ฆฌ.
- โ Multi-View Triangulation: ๋ฉํฐ ์นด๋ฉ๋ผ ๋ฐ์ดํฐ๋ฅผ ํตํด 3D ํฌ์ฆ ์ ๋ฐ๋ ํฅ์.
- โ Real-Time Live Streaming: ์ค์๊ฐ์ผ๋ก ๋ค์ค ์ธ๋ฌผ์ ํฌ์ฆ๋ฅผ ์ฌ๊ตฌ์ฑ ๋ฐ ์คํธ๋ฆฌ๋ฐ.
- โ Person Matching Across Cameras: ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ขฐ์ฑ ๋์ ์ฌ๋ ๋งค์นญ.
6. ์์ฉ ๋ถ์ผ
- ๐ฎ ๊ฒ์ ๋ฐ VR/AR: ๋ค์ค ์ฌ์ฉ์์ ์์ง์์ ์ค์๊ฐ์ผ๋ก ๋ฐ์ํ ๋ชฐ์ ํ ํ๊ฒฝ ๊ตฌ์ถ.
- ๐ฉบ ์๋ฃ ์ฌํ: ์ฌ๋ฌ ํ์์ ์์ธ์ ์์ง์์ ์ค์๊ฐ์ผ๋ก ๋ชจ๋ํฐ๋ง.
- ๐ฅ ์ํ ๋ฐ VFX: ๋ผ์ด๋ธ ์ ๋๋ฉ์ด์ ์ ์ ๋ฐ ์๊ฐ ํจ๊ณผ.
- ๐ก๏ธ ์ค๋งํธ ๊ฐ์: ๋ค์ค ์ธ๋ฌผ์ ์์ง์์ ์ค์๊ฐ์ผ๋ก ๊ฐ์ง ๋ฐ ๋ถ์.
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋คํธ์ํฌ ๋์ญํญ ์ฌ์ฉ์ด ๋์ ํ๊ฒฝ์์๋ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ.
- ๊ฐ๋ ค์ง (Occlusion) ์ํฉ์์ ์ผ๋ถ ๋ถ์ ํํ ๊ฒฐ๊ณผ ๋ฐ์.
- ๋ ๋ง์ ์นด๋ฉ๋ผ ๋ทฐ๋ฅผ ํตํฉํ๊ธฐ ์ํ ์ค์ผ์ผ๋ง ๋ฌธ์ .
8. ๊ฒฐ๋ก
- ์ด ์์คํ ์ ๋ค์ค RGB-D ๋ทฐ๋ฅผ ํตํฉํ์ฌ ์ค์๊ฐ์ผ๋ก ๋ค์ค ์ธ๋ฌผ 3D ํฌ์ฆ๋ฅผ ์ฌ๊ตฌ์ฑํ๋ฉฐ, ๋ผ์ด๋ธ ์คํธ๋ฆฌ๋ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์ ํจ์จ์ ์ผ๋ก ์๋.
- ๊ฒ์, ์๋ฃ, ๊ฐ์, ์ํ ๋ฑ ๋ค์ํ ์ฐ์ ๋ถ์ผ์์ ๊ด๋ฒ์ํ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ฆ.
๐๏ธ ์ถํ ์ฐ๋: 2023
RGB-D Fusion for Point-Cloud-Based 3D Human Pose Estimation: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"RGB-D Fusion for Point-Cloud-Based 3D Human Pose Estimation"
๐จ ์ฝ๋: ์ฝ๋ ์์
๐ ์ถ์ฒ: J Ying, X Zhao โ 2021 IEEE International Conference on Image Processing (ICIP), 2021
๐ ๋ ผ๋ฌธ ๋งํฌ: IEEE Xplore ๋ ผ๋ฌธ ๋งํฌ
๐ PDF ๋ค์ด๋ก๋: PDF ํ์ผ ๋งํฌ
๐ง ์ ์ ์ ๋ณด:
1. ์ฐ๊ตฌ ๋ชฉ์
- RGB-D ์ด๋ฏธ์ง (RGB-Depth Images)๋ฅผ ํ์ฉํ์ฌ 3D ์ธ๊ฐ ํฌ์ฆ ์ถ์ (3D Human Pose Estimation)์ ๊ฐ์ .
- ํฌ์ธํธ ํด๋ผ์ฐ๋ (Point Cloud)๋ฅผ ์ฌ์ฉํด RGB ์ด๋ฏธ์ง์ ๊น์ด ๋ฐ์ดํฐ๋ฅผ ํตํฉ.
- ์ ํํ 3D ํฌ์ฆ ์ถ์ ์ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด 2D ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ ์ ํ๊ณ๋ฅผ ๊ทน๋ณต.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
2D Pose Estimation Module:
- RGB ์ด๋ฏธ์ง์์ 2D ํฌ์ฆ ํคํฌ์ธํธ (Keypoints)๋ฅผ ์ถ์ถ.
- ๊ณ ํด์๋ ์์ ์ ๋ณด๋ฅผ ์ฌ์ฉํด ์ด๊ธฐ ํน์ง ํ์ต.
-
RGB-D Fusion via Point Cloud:
- RGB์์ ์ป์ ์์ ํน์ง (Color Features)๊ณผ ๊น์ด(Depth) ์ ๋ณด๋ฅผ ํฌ์ธํธ ํด๋ผ์ฐ๋ (Point Cloud)๋ก ํตํฉ.
- ๊ฐ ํฌ์ธํธ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํ์ต.
-
3D Learning Module:
- ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ํฌ์ธํธ ๋จ์ ํน์ง (Point-wise Features)์ ์ถ์ถ.
- ๋ณต์กํ ํฌ์ฆ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ๋๋ก ์ค๊ณ.
-
Dense Prediction Module:
- ํฌ์ธํธ์์ Offset Vectors ๋ฐ Closeness Scores๋ฅผ ์์ธก.
- ๊ฐ ํฌ์ธํธ์ ์์ธก์ ๊ฐ์ค ํ๊ท ํ์ฌ ์ต์ข 3D ํฌ์ฆ๋ฅผ ์์ฑ.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: RGB ์ด๋ฏธ์ง ๋ฐ ๊น์ด(Depth) ์ด๋ฏธ์ง.
- Step 1: 2D Pose Estimation์ ํตํด RGB ์ด๋ฏธ์ง์์ ํคํฌ์ธํธ ํน์ง ์ถ์ถ.
- Step 2: RGB์ Depth๋ฅผ ํตํฉํ์ฌ Point Cloud๋ก ๋ณํ.
- Step 3: 3D Learning Module๋ก ํฌ์ธํธ ํด๋ผ์ฐ๋ ํน์ง ํ์ต.
- Step 4: Dense Prediction Module๋ก ์ต์ข ํฌ์ฆ ํคํฌ์ธํธ๋ฅผ ์์ธก.
- ์ถ๋ ฅ: ์ต์ ํ๋ 3D ์ธ๊ฐ ํฌ์ฆ ๋ฐ์ดํฐ.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ : MHAD, SURREAL.
- ์ฑ๋ฅ ๊ฐ์ : ๊ธฐ์กด RGB ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๋ฎ์ Mean Per Joint Position Error (MPJPE)๋ฅผ ๋ฌ์ฑ.
- ๋ก์ปฌ ๋ฐ ๊ธ๋ก๋ฒ ํน์ง ํตํฉ: ํฌ์ฆ ์ถ์ ์ ๊ฐ๊ฑด์ฑ (Robustness) ๋ฐ ์ ํ๋ ํฅ์.
- ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ต์ ํ: ํฌ์ฆ ์์ธก ์๋์ ์ ํ๋๊ฐ ๊ท ํ์ ์ด๋ฃธ.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ RGB-D ํตํฉ: RGB ์ด๋ฏธ์ง์ ๊น์ด ๋ฐ์ดํฐ๋ฅผ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก ๋ณํํ์ฌ ์ ๋ณด ์์ค ์ต์ํ.
- โ 3D Learning Module: ํฌ์ธํธ ๋จ์์ ๋ณต์กํ ํน์ง์ ํ์ตํ์ฌ ํฌ์ฆ ์์ธก ์ ํ๋ ํฅ์.
- โ Dense Prediction Module: Offset Vectors์ Closeness Scores๋ก ํฌ์ฆ ํคํฌ์ธํธ ์์ธก ์ต์ ํ.
- โ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ๊ฒ์ฆ: MHAD ๋ฐ SURREAL ๋ฐ์ดํฐ์ ์์ ์ต์ฒจ๋จ (SOTA) ์ฑ๋ฅ ๋ฌ์ฑ.
6. ์์ฉ ๋ถ์ผ
- ๐ก๏ธ ์ค๋งํธ ๊ฐ์ ์์คํ : ์ธ๊ฐ ์์ง์์ 3D๋ก ์ ํํ๊ฒ ๊ฐ์ง.
- ๐ฎ ๊ฒ์ ๋ฐ VR/AR: ํ์ค์ ์ธ ์ฌ์ฉ์ ํฌ์ฆ ๋ฐ ์์ง์ ๋ฐ์.
- ๐ฉบ ์๋ฃ ๋ฐ ์ฌํ: ํ์์ ์์ธ ๋ฐ ์์ง์ ๋ถ์.
- ๐ค ๋ก๋ด ๋น์ : ๋ก๋ด์ด ์ธ๊ฐ์ 3D ์์ง์์ ์ค์๊ฐ์ผ๋ก ์ธ์.
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ๊ฐ ๋ฐ์งํ์ง ์์ ๊ฒฝ์ฐ ์ ํ๋ ์ ํ ๊ฐ๋ฅ.
- ๊ทน๋จ์ ๊ฐ๋ ค์ง (Occlusion) ์ํฉ์์์ ์์ธก ์ค๋ฅ ๋ฐ์.
- ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์ถ๊ฐ ์ต์ ํ ํ์.
8. ๊ฒฐ๋ก
- RGB-D Fusion์ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ 3D ์ธ๊ฐ ํฌ์ฆ ์ถ์ ์ ์ ํ๋์ ํจ์จ์ฑ์ ๊ฐ์ .
- RGB ์ด๋ฏธ์ง์ ๊ณ ํด์๋ ํน์ง๊ณผ ๊น์ด ๋ฐ์ดํฐ์ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ํ์ค์ ์ด๊ณ ์ ํํ ํฌ์ฆ ์ฌ๊ตฌ์ฑ์ ๋ฌ์ฑ.
- ๋ค์ํ ๋ถ์ผ์์ ์์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ฆ.
๐๏ธ ์ถํ ์ฐ๋: 2021
Real-time RGBD-Based Extended Body Pose Estimation: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"Real-time RGBD-Based Extended Body Pose Estimation"
๐ ์ถ์ฒ: R Bashirov, A Ianina, K Iskakov โ Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2021
๐ ๋ ผ๋ฌธ ๋งํฌ: WACV ๋ ผ๋ฌธ ๋งํฌ
๐ PDF ๋ค์ด๋ก๋: PDF ํ์ผ ๋งํฌ
๐ง ์ ์ ์ ๋ณด:
๐ฆ ์ฝ๋ ์ ์ฅ์: GitHub Repository
1. ์ฐ๊ตฌ ๋ชฉ์
- RGB-D ์นด๋ฉ๋ผ (Kinect Azure RGB-D Camera)๋ฅผ ์ฌ์ฉํด ์ค์๊ฐ ํ์ฅ๋ ์ ์ฒด ํฌ์ฆ ์ถ์ ์์คํ ์ ๊ฐ๋ฐ.
- ํ๋ผ๋ฉํธ๋ฆญ 3D ์ธ๊ฐ ๋ฉ์ฌ ๋ชจ๋ธ (SMPL-X)์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฒด ํฌ์ฆ, ์ ํฌ์ฆ, ์ผ๊ตด ํ์ ์ ํตํฉ์ ์ผ๋ก ์์ธก.
- ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๋์ ์ ํ๋์ ์ผ๊ด์ฑ์ ๋ณด์ฅ.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
SMPL-X Representation:
- 3D ๋ณํ ๊ฐ๋ฅํ ์ธ๊ฐ ๋ฉ์ฌ ๋ชจ๋ธ (Parametric 3D Deformable Human Mesh Model, SMPL-X)์ ์ฌ์ฉํ์ฌ ์ ์ฒด ์ ์ฒด, ์, ์ผ๊ตด์ ํํ.
-
Body Pose Estimation:
- Kinect Azure RGB-D ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ป์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ์ ์ฒด ํฌ์ฆ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ธก.
- AMASS Dataset๊ณผ ์ฌ์ฉ์ ์ ์ ๋ฐ์ดํฐ์ (56๋ช ์ ํฌ์ฆ ๋ฐ์ดํฐ)์ ํ์ต์ ์ฌ์ฉ.
-
Hand Pose Estimation:
- ๊ธฐ์กด์ ๋ฐํ๋ ์ ํฌ์ฆ ์์ธก ๋ชจ๋ธ์ ์ง์ ํ์ฉํ์ฌ ์ ์ฒด ํฌ์ฆ์ ์ ํฌ์ฆ๋ฅผ ์ผ๊ด๋๊ฒ ํตํฉ.
-
Facial Expression Estimation:
- ๋๊ท๋ชจ Talking Face Dataset์ผ๋ก ํ๋ จ๋ ์ผ๊ตด ํ์ ์ถ์ถ๊ธฐ๋ฅผ ์ฌ์ฉ.
- RGB-D ๋ฐ์ดํฐ๋ฅผ ํตํด ์ผ๊ตด ํ์ ํน์ง์ ์ธ๋ฐํ๊ฒ ์ถ์ถ.
-
Temporal Smoothing:
- ์๊ฐ์ ์ผ๊ด์ฑ (Temporal Consistency)์ ์ ์งํ๊ธฐ ์ํด ์ฐ์๋ ํ๋ ์์ ์ ๊ตํ๊ฒ ์กฐ์ .
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: RGB-D ๋ฐ์ดํฐ (Kinect Azure).
- Step 1: RGB-D ์ ๋ ฅ์์ ๋๋๋งํฌ ๊ฒ์ถ.
- Step 2: ์ ์ฒด, ์, ์ผ๊ตด ํ์ ํ๋ผ๋ฏธํฐ ์ถ์ .
- Step 3: ์๊ฐ์ ์ผ๊ด์ฑ ๋ณด์ (Temporal Smoothing).
- ์ถ๋ ฅ: ์ ์ฒด, ์, ์ผ๊ตด ํ์ ์ ํฌํจํ ํตํฉ 3D ํฌ์ฆ ์์ธก.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ : AMASS Dataset, ์ฌ์ฉ์ ์ ์ Kinect Azure ๋ฐ์ดํฐ์ (56๋ช ).
- ์ ํ๋ ๊ฐ์ : RGB ์ ์ฉ (RGB-Only) ๋ฐฉ๋ฒ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์.
- ์ค์๊ฐ ์ฒ๋ฆฌ: GPU ์๋ฒ์์ ํ๊ท 25 FPS ์ ์ง.
- ์ฑ๋ฅ ๋น๊ต: ๋ ๋๋ฆฐ RGB-D ์ต์ ํ ๊ธฐ๋ฐ ์๋ฃจ์ ๊ณผ ์ ์ฌํ ์ ํ๋ ๋ฌ์ฑ.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ SMPL-X ๋ชจ๋ธ ํ์ฉ: ์ ์ฒด, ์, ์ผ๊ตด์ ํตํฉ์ ์ผ๋ก ํํ.
- โ RGB-D ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ : RGB-Only ์ ๊ทผ๋ฒ๋ณด๋ค ๋์ ์ ํ๋ ์ ๊ณต.
- โ Temporal Smoothing: ํ๋ ์ ๊ฐ ์ผ๊ด์ฑ ์ ์ง๋ก ํฌ์ฆ์ ์์ ์ฑ ํฅ์.
- โ ์ค์๊ฐ ์ฒ๋ฆฌ: GPU ํ๊ฒฝ์์ ์ด๋น 25 ํ๋ ์์ผ๋ก ์์ ์ ์ธ ์ค์๊ฐ ์์ธก.
6. ์์ฉ ๋ถ์ผ
- ๐ฎ ๊ฒ์ ๋ฐ VR/AR: ์บ๋ฆญํฐ ํฌ์ฆ์ ํ์ ์ ์ค์๊ฐ์ผ๋ก ์ ํํ๊ฒ ์ฌํ.
- ๐ฉบ ์๋ฃ ๋ฐ ์ฌํ: ํ์์ ์์ธ ๋ฐ ํ์ ๋ถ์์ ํตํด ์น๋ฃ ๊ณํ ์๋ฆฝ.
- ๐ก๏ธ ์ค๋งํธ ๊ฐ์ ์์คํ : ๋น์ ์์ ์ธ ์์ง์ ๋ฐ ํ๋ ๊ฐ์ง.
- ๐ค ๋ก๋ด ๋น์ : ์ธ๊ฐ ํฌ์ฆ ๋ฐ ํ์ ์ ๋ถ์ํ์ฌ ๋ก๋ด๊ณผ ์์ฐ์ค๋ฌ์ด ์ํธ์์ฉ ๊ตฌํ.
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๊ฐ๋ ค์ง (Occlusion) ๋ฌธ์ ์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ.
- ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด (์กฐ๋ช , ๋ฐฐ๊ฒฝ)์์์ ์ถ๊ฐ ๊ฒ์ฆ ํ์.
- ์ฃ์ง ๋๋ฐ์ด์ค ํ๊ฒฝ์์์ ์ฑ๋ฅ ์ต์ ํ ํ์.
8. ๊ฒฐ๋ก
- RGB-D ๊ธฐ๋ฐ ์ค์๊ฐ ํ์ฅ ์ ์ฒด ํฌ์ฆ ์ถ์ ์์คํ ์ SMPL-X ๋ชจ๋ธ์ ํตํด ์ ์ฒด, ์, ์ผ๊ตด ํฌ์ฆ ๋ฐ ํ์ ์ ํตํฉ์ ์ผ๋ก ์์ธก.
- ์๊ฐ์ ์ผ๊ด์ฑ์ ๋ณด์ฅํ๋ฉฐ ๋์ ์ ํ๋์ ์ค์๊ฐ ์ฒ๋ฆฌ ์๋๋ฅผ ๋ฌ์ฑ.
- ๊ฒ์, ์๋ฃ, ๊ฐ์, ๋ก๋ด ๊ณตํ ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ๋ ์ ์์.
๐๏ธ ์ถํ ์ฐ๋: 2021
A Method for 3D Human Pose Estimation based on 2D Keypoint Detection using RGB-D Information: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"A Method for 3D Human Pose Estimation based on 2D Keypoint Detection using RGB-D Information"
๐ ์ถ์ฒ: Seohee Park, Myunggeun Ji, Junchul Chun โ Journal of Internet Computing and Services, 2018
๐ ๋ ผ๋ฌธ ๋งํฌ: Journal of Internet Computing and Services ๋งํฌ
๐ DOI: 10.7472/jksii.2018.19.6.41
๐ง ์ ์ ์ ๋ณด:
๐ฆ ๋ ผ๋ฌธ์ด ์ฐธ๊ณ ํ ์ฝ๋ ์ ์ฅ์:
1. ์ฐ๊ตฌ ๋ชฉ์
- ์์ ๊ฐ์ (Video Surveillance) ๋ถ์ผ์์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ์ธ๊ฐ ํฌ์ฆ ์ถ์ ์ ๊ตฌํ.
- RGB-D ๋ฐ์ดํฐ (RGB์ ๊น์ด ์ ๋ณด)๋ฅผ ํ์ฉํ์ฌ ๊ฐ๋ ค์ง (Occlusion) ๋ฌธ์ ๋ฅผ ํด๊ฒฐ.
- 2D ํคํฌ์ธํธ ๊ฒ์ถ (2D Keypoint Detection)์ ํตํด ์ธ๊ฐ ํฌ์ฆ๋ฅผ ์์ธกํ ํ, 3D ํฌ์ฆ๋ก ํ์ฅ.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
RGB-D ๋ฐ์ดํฐ ํ์ฉ:
- ๊ธฐ์กด RGB ๋ฐ์ดํฐ์ ๊น์ด(Depth) ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ ๊ฐ์ฒด ๊ฐ์ง์ ์ ํ๋๋ฅผ ๋์.
-
2D ํคํฌ์ธํธ ๊ฒ์ถ:
- ์ปจ๋ณผ๋ฃจ์ ์ ๊ฒฝ๋ง (CNN)์ ์ฌ์ฉํ์ฌ ์ธ๊ฐ ๊ด์ 14๊ฐ์ 2D ํคํฌ์ธํธ๋ฅผ ๊ฒ์ถ.
-
3D ํฌ์ฆ ํ์ฅ:
- ์์ธก๋ 2D ํคํฌ์ธํธ๋ฅผ ๋ฐํ์ผ๋ก 3D ๊ณต๊ฐ์ผ๋ก ํ์ฅํ์ฌ ํฌ์ฆ๋ฅผ ์ฌ๊ตฌ์ฑ.
- ๊น์ด ์ ๋ณด๋ฅผ ํ์ฉํด Self-Occlusion ๋ฌธ์ ๋ฅผ ํด๊ฒฐ.
-
Occlusion ๋ฌธ์ ํด๊ฒฐ:
- ๊ฐ์ฒด๊ฐ ๋ค๋ฅธ ๋ฌผ์ฒด์ ๊ฐ๋ ค์ก์ ๋ ๋ฐ์ํ๋ ๊ฐ๋ ค์ง ๋ฌธ์ ๋ฅผ RGB-D ๋ฐ์ดํฐ์ ๊น์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ํด๊ฒฐ.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: RGB ์ด๋ฏธ์ง ๋ฐ ๊น์ด(Depth) ๋ฐ์ดํฐ.
- Step 1: RGB-D ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ๊ฐ์ฒด ๊ฐ์ง ๋ฐ 2D ํคํฌ์ธํธ ์์ธก.
- Step 2: CNN์ ํตํด 14๊ฐ ๊ด์ ์ ํคํฌ์ธํธ ๊ฒ์ถ.
- Step 3: ๊น์ด ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ํคํฌ์ธํธ๋ฅผ 3D๋ก ๋ณํ.
- Step 4: Self-Occlusion ๋ฌธ์ ๋ฅผ ๋ณด์ ํ์ฌ ์ต์ข 3D ํฌ์ฆ ์์ฑ.
- ์ถ๋ ฅ: 3D ์ธ๊ฐ ํฌ์ฆ ์์ธก ๊ฒฐ๊ณผ.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฐ์ดํฐ์ : ์์ฒด ์คํ ํ๊ฒฝ ๋ฐ์ดํฐ์ ์ฌ์ฉ.
- ์ ํ๋ ๊ฐ์ : ๊น์ด ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด 2D ํฌ์ฆ ์ถ์ ๋ณด๋ค ์ ํ๋๊ฐ ํฅ์๋จ.
- Occlusion ๋ฌธ์ ํด๊ฒฐ: Self-Occlusion ํ์์ด ๋ณด์ ๋์ด ํฌ์ฆ ์ฌ๊ตฌ์ฑ์ ์ ๋ขฐ๋๊ฐ ํฅ์๋จ.
- ์์ฉ ์ฌ๋ก: ์ธ๊ฐ ํ๋ ์ธ์, ๋น์ ์ ํ๋ ํ์ง.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ RGB-D ๋ฐ์ดํฐ ํตํฉ: RGB์ ๊น์ด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๊ฐ๋ ค์ง ๋ฌธ์ ํด๊ฒฐ.
- โ 2D ํคํฌ์ธํธ ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ : 14๊ฐ์ ํคํฌ์ธํธ๋ฅผ ์ ํํ๊ฒ ๊ฒ์ถ.
- โ 3D ํฌ์ฆ ํ์ฅ: ๊น์ด ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก 2D ํคํฌ์ธํธ๋ฅผ 3D ๊ณต๊ฐ์ผ๋ก ํ์ฅ.
- โ Self-Occlusion ๋ฌธ์ ํด๊ฒฐ: ๊ฐ๋ ค์ง ํ์์ ๋ณด์ ํ์ฌ ํฌ์ฆ ์ ํ๋ ๊ฐ์ .
6. ์์ฉ ๋ถ์ผ
- ๐ก๏ธ ์ค๋งํธ ๊ฐ์ ์์คํ : ๋น์ ์ ํ๋ ๋ฐ ๋น์ ์ํฉ ๊ฐ์ง.
- ๐ฎ ๊ฒ์ ๋ฐ VR/AR: ํ์ค๊ฐ ์๋ ์บ๋ฆญํฐ ์์ง์ ์์ฑ.
- ๐ฉบ ์๋ฃ ์ฌํ: ํ์์ ์์ง์ ๋ฐ ์์ธ ๋ถ์.
- ๐ค ๋ก๋ด ๋น์ : ๋ก๋ด์ด ์ธ๊ฐ์ 3D ํฌ์ฆ๋ฅผ ์ ํํ ์ธ์ ๋ฐ ์ํธ์์ฉ.
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๊น์ด ๋ฐ์ดํฐ ํ์ง ์ ํ: ๊น์ด ์ผ์์ ํ์ง์ ๋ฐ๋ผ ์ ํ๋๊ฐ ์ ํ๋ ์ ์์.
- ๊ฐ๋ ค์ง์ด ์ฌํ ์ํฉ: ์ฌ๊ฐํ Occlusion์ด ์๋ ๊ฒฝ์ฐ ์ ํ๋๊ฐ ์ ํ๋ ๊ฐ๋ฅ์ฑ.
- ์ค์๊ฐ ์ฒ๋ฆฌ ์ต์ ํ: ์ค์๊ฐ ์์คํ ์ ์ํด ๊ณ์ฐ ์๋ ๊ฐ์ ํ์.
8. ๊ฒฐ๋ก
- RGB-D ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ 3D ์ธ๊ฐ ํฌ์ฆ ์ถ์ ์ Self-Occlusion ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํจ.
- 2D ํคํฌ์ธํธ ๊ฒ์ถ๊ณผ 3D ํฌ์ฆ ํ์ฅ์ ๊ฒฐํฉ์ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ์ ์ฉํ๊ฒ ํ์ฉ๋ ์ ์์.
- ์ค๋งํธ ๊ฐ์, ์๋ฃ, ๋ก๋ด ๊ธฐ์ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ๊ธฐ์ฌํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํจ.
๐๏ธ ์ถํ ์ฐ๋: 2018
์ด๋ฒคํธ ์นด๋ฉ๋ผ
Efficient Human Pose Estimation via 3D Event Point Cloud: ๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด
"Efficient Human Pose Estimation via 3D Event Point Cloud"
๐ ์ถ์ฒ: Jiaan Chen, Hao Shi, Yaozu Ye, Kailun Yang, Lei Sun, Kaiwei Wang โ 2022 International Conference on 3D Vision (3DV), 2022
๐ ๋ ผ๋ฌธ ๋งํฌ: arXiv ๋งํฌ
๐ DOI: 10.48550/arXiv.2206.04511
๐ง ์ ์ ์ ๋ณด:
๐ฆ ์ฝ๋ ์ ์ฅ์: GitHub Repository
1. ์ฐ๊ตฌ ๋ชฉ์
- ์ด๋ฒคํธ ๊ธฐ๋ฐ (Event-Based) ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ 3D ์ธ๊ฐ ํฌ์ฆ ์ถ์ (3D Human Pose Estimation, HPE)์ ์ค์๊ฐ์ผ๋ก ์ํ.
- RGB ์ด๋ฏธ์ง ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๊ทน๋จ์ ํ๊ฒฝ(Extreme Scenes) ๋ฐ ํจ์จ์ฑ ์ค์ฌ ์กฐ๊ฑด (Efficiency-Critical Conditions)์์ ์ฑ๋ฅ์ ์ต์ ํ.
- ์๋ก์ด ์ด๋ฒคํธ ํํ ๋ฐฉ๋ฒ์ ํตํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๋ฐ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์ด๋ฉด์ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑ.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
-
Rasterized Event Point Cloud Representation:
- ์ด๋ฒคํธ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ํ ์๊ฐ ๋จ์(Time Slice)๋ก ๋๋์ด ๋ผ์คํฐํ (Rasterization).
- ํต๊ณ์ ํน์ง์ ์ฌ์ฉํด 3D ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ ์งํ๋ฉด์ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๊ณ์ฐ ์๊ตฌ์ฌํญ ์ต์ํ.
-
Backbone Network Integration:
- ์ธ ๊ฐ์ง ๋ํ์ ์ธ ๋ฐฑ๋ณธ ๋คํธ์ํฌ ์ ์ฉ:
- PointNet: ๋์ ์ฒ๋ฆฌ ์๋.
- DGCNN (Dynamic Graph CNN): ๊ทธ๋ํ ๊ธฐ๋ฐ ํน์ง ํ์ต.
- Point Transformer: ๊ฐ์ฅ ๋์ ์ ํ๋ ์ ๊ณต.
-
Linear Layer Decoder:
- ๋ ๊ฐ์ ์ ํ ๊ณ์ธต(Linear Layers)์ ์ฌ์ฉํ์ฌ ์ต์ข ํคํฌ์ธํธ (Keypoints) ์์น ์์ธก.
-
Optimization for Real-Time Inference:
- NVIDIA Jetson Xavier NX์ ๊ฐ์ ์ฃ์ง ๋๋ฐ์ด์ค (Edge Devices)์์ ์ต์ ํ.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
- ์ ๋ ฅ: 3D ์ด๋ฒคํธ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ.
- Step 1: ์ด๋ฒคํธ ๋ฐ์ดํฐ๋ฅผ ๋ผ์คํฐํํ์ฌ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก ๋ณํ.
- Step 2: PointNet, DGCNN, Point Transformer ๋ฐฑ๋ณธ์ผ๋ก ํฌ์ธํธ ํด๋ผ์ฐ๋ ํน์ง ํ์ต.
- Step 3: ๋ ๊ฐ์ ์ ํ ๋์ฝ๋๋ก 3D ํคํฌ์ธํธ ์์ธก.
- Step 4: ์๊ฐ ์ผ๊ด์ฑ (Temporal Consistency) ๋ฐ ์ต์ข ํฌ์ฆ ์ต์ ํ.
- ์ถ๋ ฅ: 3D ์ธ๊ฐ ํฌ์ฆ ์์ธก.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ : DHP19 Dataset.
-
์ ํ๋:
- PointNet: MPJPE3D (Mean Per Joint Position Error) 82.46mm.
- Point Transformer: ๊ฐ์ฅ ๋์ ์ ํ๋ ์ ๊ณต.
- ์ฒ๋ฆฌ ์๋: NVIDIA Jetson Xavier NX ๊ธฐ์ค 12.29ms์ ์ง์ฐ ์๊ฐ (latency).
- ๋ฆฌ์์ค ์ฌ์ฉ: ํจ์จ์ ์ธ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ์ฐ์ฐ ์ต์ ํ๋ก ์ฃ์ง ๋๋ฐ์ด์ค์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ ์ ๊ณต.
5. ์ฃผ์ ๊ธฐ์ฌ
- โ Rasterized Event Point Cloud: ์๊ฐ ๋จ์๋ก ๋ผ์คํฐํํ์ฌ ๊ณ์ฐ ๋ณต์ก๋ ์ต์ํ.
- โ Backbone Integration: PointNet, DGCNN, Point Transformer์ ๋น๊ต ๋ฐ ์ฑ๋ฅ ๋ถ์.
- โ Linear Decoder: ํจ์จ์ ์ธ ํคํฌ์ธํธ ์์ธก.
- โ Real-Time Edge Processing: NVIDIA Jetson Xavier NX์์ 12.29ms์ ๋ฎ์ ์ง์ฐ ์๊ฐ ๋ฌ์ฑ.
6. ์์ฉ ๋ถ์ผ
- ๐ฎ ๊ฒ์ ๋ฐ VR/AR: ๊ทน๋จ์ ํ๊ฒฝ์์๋ ์ฌ์ฉ์ ์์ง์์ ์ ํํ๊ฒ ๋ฐ์.
- ๐ฉบ ์๋ฃ ์ฌํ: ํ์์ ์์ง์๊ณผ ์์ธ๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ถ์.
- ๐ก๏ธ ์ค๋งํธ ๊ฐ์: ์ด๋์ด ํ๊ฒฝ์ด๋ ๋น ๋ฅธ ์์ง์์์๋ ์ ๋ขฐํ ์ ์๋ ํ๋ ๊ฐ์ง.
- ๐ค ๋ก๋ด ๋น์ : ์ด๋ฒคํธ ์นด๋ฉ๋ผ๋ฅผ ํตํด ๋น ๋ฅด๊ฒ ์ธ๊ฐ ํ๋์ ์ธ์.
7. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ฎ์ ํด์๋์ ์ด๋ฒคํธ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ์ ํ๋๊ฐ ์ ํ๋ ๊ฐ๋ฅ์ฑ.
- ๋น ๋ฅธ ์์ง์์์์ ๋ ธ์ด์ฆ ๋ฐ์ ๊ฐ๋ฅ์ฑ.
- ๋ค์ํ ํ๊ฒฝ ๋ฐ ๋ ํฐ ๋ฐ์ดํฐ์ ์์ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ ํ์.
8. ๊ฒฐ๋ก
- Efficient Human Pose Estimation via 3D Event Point Cloud๋ ์ด๋ฒคํธ ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ก ์ค์๊ฐ 3D ํฌ์ฆ ์์ธก์ ์ํ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์.
- ์๋์ ์ ํ๋ ๋ชจ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ ์ฃ์ง ๋๋ฐ์ด์ค์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ์ฆ.
- ๊ฒ์, ์๋ฃ, ์ค๋งํธ ๊ฐ์, ๋ก๋ด ๋น์ ๋ฑ ๋ค์ํ ๋ถ์ผ์์์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ธ.
๐๏ธ ์ถํ ์ฐ๋: 2022
์ฃผ์
- ์ฌ๋์ 3d ํฌ์ฆ ์ถ์ (HPE, Human Pose Estimation)
์์์๋ ์ ํํ ๋ ผ๋ฌธ๋ค์ ์์ฝ์ ์ดํด๋ณด์๋ค๋ฉด ์ด์ ๋ ์ค๋ช ์ ํ๋ ค๊ณ ํ๋ค. 2024๋ 11์์ ๋์จ ๋ฆฌ๋ทฐ ๋ ผ๋ฌธ์ด ์์ด์ ์ฝ๊ณ ์ฝ๊ฐ์ ์ค๋ช ์ ํจ๊ป ๋ถ์ฌ๋๋ ค๊ณ ํ๋ค.
๋น๊ต ๋ ผ๋ฌธ ๋ด์ฉ
ํ๊ฐ ์์
Motion Capture ์์คํ ์ ์ค๊ณ ๋ฐ ํ๊ฐ ํ์ ์์๋ค
ํ๊ฐ ์์ ์ค๋ช
์์ด | ํ๊ตญ์ด | ์ค๋ช | ์ฌ์ฉ๋๋ ์งํ |
---|---|---|---|
Accuracy | ์ ํ๋ | ๋ชจ์ ์บก์ฒ์ ๋์ ์ ๋ฐ๋ | Mean Per Joint Position Error(MPJPE), Mean Per Joint Rotation Error(MPJRE) |
Robustness | ๊ฐ๊ฑด์ฑ | ๋ค์ํ ํ๊ฒฝ(์กฐ๋ช , ๊ฐ๋ ค์ง ์ํ ๋ฑ)์์์ ์ ๋ขฐ์ฑ, ์์ ์ฑ | Average Precision(AP), Percentage of Correct KeyPoints(PCK) |
Smoothness | ๋ถ๋๋ฌ์ | ๋ชจ์ ์ ์๊ฐ์ ์ผ๊ด์ฑ, ๋ถ๋๋ฌ์ด ๋ชจ์ ์บก์ฒ | Acceleration Error1, Jitter Error2 |
Lightweight | ๊ฐ๋ฒผ์ | ๊ณ์ฐ ํจ์จ์ฑ, ์ค์๊ฐ์ฑ, ํ๋์จ์ด ์๊ตฌ ์ฌํญ ๊ด๋ จ | Frames Per Second(FPS), number of parameters, memory cosumption |
2D human pose estimation
1) Top-down ๋ฐฉ์
2) Bottom-up ๋ฐฉ์
Monocular 3D human pose estimation
1) Multi-Person Architecture
๋ค์ค ์ธ๋ฌผ ์๋๋ฆฌ์ค์ ๋ชจ๋
ธํ๋ฌ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ 3D ์ฌ๋ ์์ธ ์ถ์ ์ ํฌ๊ฒ 2๊ฐ์ง๋ก ๋๋๋ค.
- Lifting-based methods:
- 2D Human Pose Estimation์ 3D ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ.
- ์) Martinez : 2D human pose(input) + adapting a suitable network structure -> 3D human pose(output)
- ์) VideoPose : 2D human pose(input) + utilizes temporal information -> 3D human pose(output)
- 2D Human Pose Estimation์ 3D ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ.
- Direct Estimation methods:
- 2D ์
๋ ฅ ์ด๋ฏธ์ง์์ 3D ํฌ์ฆ๋ก ์ง์ ๋ณํํ๋ ๋ฐฉ๋ฒ.
- Top-down
์ฌ๋ ํ์ง๊ธฐ -> ๊ฐ ๊ฐ์ธ ๊ฐ์ง + ์๋ฅด๊ธฐ -> 3D ํฌ์ฆ ์ถ์ - ์) CLIFF,
- Bottom-up
์ถ๋ก ์๋ ์ ํํ์ง X, ๋ค๋ฅธ ์ธ์ฒด ๊ตฌ๋ณํ๋๋ฐ ์ค์ - ์) XNect,LCR-Net, ROMP
- Top-down
- 2D ์
๋ ฅ ์ด๋ฏธ์ง์์ 3D ํฌ์ฆ๋ก ์ง์ ๋ณํํ๋ ๋ฐฉ๋ฒ.
2) Performance Enhancement
์นด๋ฉ๋ผ ์
๋ ฅ์ ์์กดํ๋ค๋ณด๋, ์ ํ๋ ๋์ด๊ธฐ ์ํ Camera model ๊ฐ์ , ๋ณด์กฐ ์ ๋ณด(Auxiliary Information) ํ์ฉ, ์๋ก์ด ํํ(new representation) ์ฌ์ฉ ํ๋ ๊ฒ.
3) Reality Enhancement
๋จ๋ฆผ, ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ฐ, ์ธ๊ฐ ์ผ๊ตด ์ ์ธ๋ถ ์ฌํญ ๋ถ์กฑ์ ํด๊ฒฐํ๊ณ ์ ํ๋ ๊ฒ.
ํ์ฒ๋ฆฌ ๊ธฐ๋ฒ, Physical Constraints(๋ฌผ๋ฆฌ์ ์ ์ฝ) ํตํฉ, ์์ธ ์ถ์ ๋ฐฉ๋ฒ ์ํ Whole-body models ๊ฐ๋ฐ ๋ฑ.
์ผ๋ฐ์ ์ธ ํ์ดํ๋ผ์ธ
ํ์ฌ ๋ฐ์ํ ๋ฌธ์ ์ ,
tram์ ๊ฒฝ์ฐ DROID-SLAM์ด ์ฐ์ด๋๋ฐ, Droid-Slam์ ๊ฒฝ์ฐ ์ถ๋ก ๋ชจ๋ธ๋ง 11GB์ด๋ค. ๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ ธํธ๋ถ GPU๋ 8GB๋ผ์, ํด๊ฒฐ ๋ฐฉ๋ฒ์ ์ฐพ๋ ์ง ์๋๋ฉด, ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฐพ์์ผ ํ ๊ฒ ๊ฐ๋ค.
๊ณ ๋ฅธ ๊ฒ
RGB-D ๊ธฐ๋ฐ์ 3D ํฌ์ฆ ์ถ์
๋ชจ๋ธ
model ๋ช | ์ฐ๋ | ํน์ง | ํํ | input | output | ๋จ์ |
---|---|---|---|---|---|---|
Real-time RGBD-Based Extended Body Pose Estimation | 2021 | RGB-D ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ค์๊ฐ ํ์ฅ๋ ์ ์ฒด ํฌ์ฆ ์ถ์ | WACV | RGB-D ์ด๋ฏธ์ง | 3D ํฌ์ฆ | ๊ฐ๋ ค์ง ๋ฌธ์ ์ ๋ํ ํ๊ณ์ , ๋ถ์์ฐ์ฑ, ํน์ ๋๋ฐ์ด์ค ํ์ |
HuMoR | 2021 | ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์์ธ ์ถ์ , ๊ฐ๋ ค์ง ๊ฐํจ | ICCV | RGB-D ์ด๋ฏธ์ง 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ 2D ํคํฌ์ธํธ |
3D ํฌ์ฆ | ์ค์๊ฐ์ฑ, ๋ฑ ๊ฒฐ๊ณผ ๋ฐ์ดํฐ ์์ |
๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด!
"Real-time RGBD-Based Extended Body Pose Estimation"
๐ ์ถ์ฒ: R Bashirov, A Ianina, K Iskakov โ *Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)*, 2021
๐ ๋ ผ๋ฌธ ๋งํฌ: WACV ๋ ผ๋ฌธ ๋งํฌ
๐ PDF ๋ค์ด๋ก๋: PDF ํ์ผ ๋งํฌ
๐ง ์ ์ ์ ๋ณด:
๐ฆ ์ฝ๋ ์ ์ฅ์: GitHub Repository
1. ์ฐ๊ตฌ ๋ชฉ์
โ RGB-D ์นด๋ฉ๋ผ(Kinect Azure RGB-D Camera)๋ฅผ ์ฌ์ฉํด ์ค์๊ฐ ํ์ฅ๋ ์ ์ฒด ํฌ์ฆ ์ถ์ (Extended Body Pose Estimation) ์์คํ ์ ๊ฐ๋ฐ.
โ ํ๋ผ๋ฉํธ๋ฆญ 3D ์ธ๊ฐ ๋ฉ์ฌ ๋ชจ๋ธ(SMPL-X)์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฒด ํฌ์ฆ, ์ ํฌ์ฆ, ์ผ๊ตด ํ์ ์ ํตํฉ์ ์ผ๋ก ์์ธก.
โ ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๋์ ์ ํ๋์ ์ผ๊ด์ฑ์ ๋ณด์ฅ.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ
- SMPL-X Representation: 3D ๋ณํ ๊ฐ๋ฅํ ์ธ๊ฐ ๋ฉ์ฌ ๋ชจ๋ธ(SMPL-X) ์ฌ์ฉ.
- Body Pose Estimation: Kinect Azure RGB-D ์นด๋ฉ๋ผ ๋ฐ์ดํฐ ์ฌ์ฉ.
- Hand Pose Estimation: ๊ธฐ์กด ์ ํฌ์ฆ ์์ธก ๋ชจ๋ธ ํ์ฉ.
- Facial Expression Estimation: ์ผ๊ตด ํ์ ํน์ง์ ์ธ๋ฐํ๊ฒ ์ถ์ถ.
- Temporal Smoothing: ์๊ฐ์ ์ผ๊ด์ฑ์ ์ ์ง.
3. ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
โ ์ ๋ ฅ: RGB-D ๋ฐ์ดํฐ(Kinect Azure).
โ Step 1: RGB-D ์ ๋ ฅ์์ ๋๋๋งํฌ ๊ฒ์ถ.
โ Step 2: ์ ์ฒด, ์, ์ผ๊ตด ํ์ ํ๋ผ๋ฏธํฐ ์ถ์ .
โ Step 3: ์๊ฐ์ ์ผ๊ด์ฑ ๋ณด์ .
โ ์ถ๋ ฅ: ์ ์ฒด, ์, ์ผ๊ตด ํ์ ์ ํฌํจํ ํตํฉ 3D ํฌ์ฆ ์์ธก.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
โ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ : AMASS Dataset, Kinect Azure ๋ฐ์ดํฐ์ (56๋ช ).
โ ์ ํ๋ ๊ฐ์ : RGB ์ ์ฉ ๋ฐฉ๋ฒ๋ณด๋ค ๋์ ์ฑ๋ฅ.
โ ์ค์๊ฐ ์ฒ๋ฆฌ: GPU ์๋ฒ์์ ํ๊ท 25 FPS ์ ์ง.
5. ์ฃผ์ ๊ธฐ์ฌ
โ SMPL-X ๋ชจ๋ธ๋ก ์ ์ฒด, ์, ์ผ๊ตด ํตํฉ ํํ.
โ RGB-D ๊ธฐ๋ฐ ํฌ์ฆ ์์ธก.
โ Temporal Smoothing.
โ ์ค์๊ฐ ์ฒ๋ฆฌ.
6. ๊ฒฐ๋ก
โ RGB-D ๊ธฐ๋ฐ ์ค์๊ฐ ํ์ฅ ์ ์ฒด ํฌ์ฆ ์ถ์ ์์คํ .
โ ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ๋์ ์ ํ๋.
โ ๋ค์ํ ์ฐ์ ๋ถ์ผ ํ์ฉ ๊ฐ๋ฅ.
๐๏ธ ์ถํ ์ฐ๋: 2021
2D image ๊ธฐ๋ฐ 3D ํฌ์ฆ ์ถ์
model ๋ช | ์ฐ๋ | ํน์ง | ํํ | input | output | ๋จ์ |
---|---|---|---|---|---|---|
Multi-HMR | 2025 | ๋ฐฑ๋ณธ ViT-S ์ฌ์ฉ์ ๋์ ์ฑ๋ฅ | ICCV | RGB ์ด๋ฏธ์ง(Single RGB Image) | ๋ค์ค ์ธ๋ฌผ์ 3D ๋ฉ์ฌ | ๋ณต์กํ ๊ฐ๋ ค์ง(Occlusion) ์ํฉ์์ ์ ํ๋ ์ ํ ๊ฐ๋ฅ์ฑ, ๊ณ ์ฌ์ ์ฅ์น ์๊ตฌ |
TRAM | 2025 | in-the-wild videos์์ ์ธ๊ฐ์ 3D ์ ์ญ ๊ถค์ ๋ฐ ๋์ ๋ณต์ํ๊ธฐ ์ํด ์ ์๋ 2๋จ๊ณ ๋ฐฉ๋ฒ | ECCV | RGB ์ด๋ฏธ์ง | ๊ธ๋ก๋ฒ ์ขํ์์ ๋์ | ๋ณต์กํ ๊ฐ๋ ค์ง(Occlusion) ์ํฉ์์ ์ ํ๋ ์ ํ |
Sapien | 2024 | ๋ฉํฐ ๋ชจ๋ฌ ๋ชจ๋ธ : ๊น์ด ์ถ์ , ํฌ์ฆ ์ถ์ ๋ฏธ์ธ ์กฐ์ ๊ฐ๋ฅ | ECCV | ์ด๋ฏธ์ง, ๋น๋์ค, ํ ์คํธ ๋ฐ์ดํฐ | Pose, Seg, Depth | Fps ์ ๋ํ ๋ฐ์ดํฐ ์์, ๊ณ ์ฌ์ ์ฅ์น ์๊ตฌํ ์๋ |
Gan-base model | 2024 | GAN ๊ธฐ๋ฐ ๋ชจ๋ธ, ์์ฑ๊ธฐ, ํ๋ณ๊ธฐ ๊ท ํ | โฆ | RGB ์ด๋ฏธ์ง | 3D ํฌ์ฆ | code ๋ฐ์ดํฐ ์ ์ ๋ถ์กฑ |
DensePose | 2018 | ์ธ๊ฐ์ 3D ํฌ์ฆ๋ฅผ 2D ์ด๋ฏธ์ง์ ํฌ์ | CVPR | RGB ์ด๋ฏธ์ง | 3D ์ธ๊ฐ ๋ฉ์ฌ ๋ชจ๋ธ ์ขํ(U, V, I) | ๊ฐ๋ ค์ง, ์, ์ผ๊ตด ๊ตฌ์ฒด์ ์ ์ฒด๊ตฌ์กฐ ๊ตฌํ ๋ถ์กฑ |
Lifting 2D to 3D pose | 2017 | ์ค์๊ฐ์ฑ, | CVPR | 2D ํคํฌ์ธํธ | 3D ํฌ์ฆ ์ขํ | ๊ฐ๋ ค์ง, ์, ์ผ๊ตด ๊ตฌ์ฒด์ ์ ์ฒด๊ตฌ์กฐ ๊ตฌํ ๋ถ์กฑ |
2D Pose detectors
model ๋ช | ์ฐ๋ | ํน์ง | ํํ | input | output |
---|---|---|---|---|---|
AlphaPose | 2022 | top-down ๋ฐฉ์, OpenPose ๊ธฐ๋ฐ, ๋์ ์ ํ๋ | CVPR | RGB ์ด๋ฏธ์ง | 2D ํฌ์ฆ |
CPN | 2018 | ์ด๋ฏธ์ง์์ ๊ด์ keypoints heatmap ํํ ์ถ์ถ | CVPR | RGB ์ด๋ฏธ์ง | 2D ํฌ์ฆ |
OpenPose | 2018 | ์ค์๊ฐ 2D ์ธ๊ฐ ํฌ์ฆ ์ถ์ + 3D keypoints | CVPR | RGB ์ด๋ฏธ์ง | 2D ํฌ์ฆ, 3D pose keypoints |
๊ด๋ จ ์ฌ์ดํธ
๋น๊ต ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
โFrom Methods to Applications: A Review of Deep 3D Human Motion Captureโ
๋ฐฉ๋ฒ๊ณผ ์์ฉ๊น์ง, 3D ์ธ๊ฐ ๋ชจ์ ์บก์ฒ์ ๋ํ ๋ฆฌ๋ทฐ
๋ ผ๋ฌธ ๊ด๋ จ ์ ๋ณด!
"From Methods to Applications: A Review of Deep 3D Human Motion Capture"
๐ ์ถ์ฒ: AH AH, OO Khalifa, AA Ibrahim โ PERINTIS eJournal, 2024
๐ ๋ ผ๋ฌธ ๋งํฌ: PERINTIS eJournal ๋งํฌ
๐ PDF ๋ค์ด๋ก๋: PDF ํ์ผ ๋งํฌ
๐ง ์ ์ ์ ๋ณด:
1. ์ฐ๊ตฌ ๋ชฉ์
โ 3D ์ธ๊ฐ ๋ชจ์ ์บก์ฒ(3D Human Motion Capture) ๊ธฐ์ ์ ์ต๊ทผ ๋ฐ์ ๊ณผ ์์ฉ ์ฌ๋ก๋ฅผ ๊ฒํ .
โ ๋ฅ๋ฌ๋(Deep Learning) ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋ถ์ํ์ฌ ๋ค์ํ ๊ธฐ์ ์ ๋ฐฉ๋ฒ๋ก ๊ณผ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ๊ฐ์กฐ.
โ ๊ธฐ์กด ๊ธฐ์ ์ ํ๊ณ์ ์ ํ์ ํ๊ณ , ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์.
2. ๊ธฐ์ ์ ์ ๊ทผ๋ฒ ๋ฐ ๋ถ๋ฅ
- ๋น์ ๊ธฐ๋ฐ ๋ชจ์ ์บก์ฒ(Vision-Based Motion Capture): RGB ๋ฐ RGB-D ์นด๋ฉ๋ผ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ํฌ์ฆ์ ์์ง์์ ์ถ์ .
- ์ผ์ ์ตํฉ(Sensor Fusion): IMU, LiDAR, RGB-D ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ํฌ์ฆ ์ ํ๋ ๊ฐ์ .
- Graph-Based Methods: ๊ทธ๋ํ ๋ด๋ด ๋คํธ์ํฌ(GNN)๋ฅผ ์ฌ์ฉํด ํคํฌ์ธํธ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง.
- Zero-shot Learning ๋ฐ Few-shot Learning: ํ์ต ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ.
- Interpretable Models: ์ค์๊ฐ ์ํธ์์ฉ ๋ฐ ์ ์ฉ ์ฌ๋ก ์ต์ ํ.
3. ์์ฉ ์ฌ๋ก
- ์ค๋งํธ ๊ฐ์(Smart Surveillance): ์ด์ ํ๋ ๋ฐ ์ํ ์ํฉ ๊ฐ์ง.
- ์คํฌ์ธ ๋ฐ ํ๋ จ(Sports & Training): ์ต์ ํ๋ ํ๋ จ ์ ๊ณต.
- ์๋ฃ ๋ฐ ์ฌํ(Medical Rehabilitation): ๋ง์ถคํ ์น๋ฃ ์ ๊ณต.
- ๊ฒ์ ๋ฐ VR/AR: ๊ฐ์ ํ๊ฒฝ์ ์ ํํ๊ฒ ๋ฐ์.
- ๋ก๋ด ๊ณตํ(Robotics): ์ธ๊ฐ์ ํ๋์ ์ค์๊ฐ์ผ๋ก ์ธ์.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
โ ๋ฐ์ดํฐ์ : Human3.6M, MPI-INF-3DHP, CMU Panoptic.
โ ์ ํ๋: ํ๊ท ์ค์ฐจ์จ(MPJPE)์ด ๊ฐ์ ๋จ.
โ ์ฒ๋ฆฌ ์๋: ์ค์๊ฐ ์ถ๋ก ์๋ ํฅ์.
5. ์ฃผ์ ๊ธฐ์ฌ
โ ์ข ํฉ์ ๋ฆฌ๋ทฐ: ๊ธฐ์ ์ , ์์ฉ์ ์ธก๋ฉด ํฌ๊ด ๋ถ์.
โ ๊ธฐ์ ์ ํต์ฐฐ: ๋ค์ํ ์ ๊ทผ๋ฒ ๊ฒํ .
โ ์ค์ง์ ์์ฉ: ์ค๋งํธ ๊ฐ์, ์คํฌ์ธ , ์๋ฃ ๋ฑ ๊ฐ์กฐ.
6. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
โ ๊ฐ๋ ค์ง(Occlusion) ๋ฌธ์ .
โ ์ค์๊ฐ ์ฒ๋ฆฌ ์๋ ํ๊ณ.
โ ๋ฐ์ดํฐ์ ๋ถ์กฑ ๋ฌธ์ .
โ ์ค๋ฆฌ์ ๋ฌธ์ ๋ฐ ๊ธฐ์ ์ ๊ท์ ํ์.
7. ๊ฒฐ๋ก
โ 3D ์ธ๊ฐ ๋ชจ์ ์บก์ฒ ๊ธฐ์ ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ ๋ถ์.
โ ๋ค์ํ ์ฐ์ ๋ถ์ผ(์ค๋งํธ ๊ฐ์, ์คํฌ์ธ , ์๋ฃ, ๊ฒ์, ๋ก๋ด ๊ณตํ)์์ ํ์ฉ ๊ฐ๋ฅ์ฑ ์ ์ฆ.
๐๏ธ ์ถํ ์ฐ๋: 2024
-
Y. Huang, M. Kaufmann, E. Aksan, M. J. Black, O. Hilliges, and G. Pons-Moll, โDeep inertial poser: Learning to reconstruct human pose from sparse inertial measurements in real time,โ ACM Trans. Graph., vol. 37, no. 6, pp. 1โ15, Dec. 2018. ๊ฐ์๋ ์๋ฌ๋ ๋ชจ์ ์ ๋ณํ๋์ ์ธก์ ํ์ฌ, ์ด ๋ณํ๋์ด ๋๋ฌด ํฌ๊ฑฐ๋ ์์ ๋ ์๋ฌ๋ก ํ๋จํ๋ค.ย ↩
-
T. Flash and N. Hogan, โThe coordination of arm movements: An experimentally confirmed mathematical model,โ J. Neurosci., vol. 5, no. 7, pp. 1688โ1703, Jul. 1985. ์งํฐ ์๋ฌ๋ ๋ชจ์ ์ ๋ถ์์ ์ฑ์ ์ธก์ ํ์ฌ, ์ด ๋ถ์์ ์ฑ์ด ๋๋ฌด ํฌ๊ฑฐ๋ ์์ ๋ ์๋ฌ๋ก ํ๋จํ๋ค.ย ↩