β Step 1: μ΄λ―Έμ§ κΈ°λ° κ°λ μ 리 λ° λΈλ‘κ·Έ μ΄μ κ΅¬μ± μμ
μ΄ κΈμ μ¬μ©μκ° μ 곡ν λ μ₯μ μ΄λ―Έμ§μμ λ€λ£¨κ³ μλ βλ²‘ν° λ° νλ ¬ λ Έλ¦(norms)β κ°λ μ λ°νμΌλ‘ μμ±λ λΈλ‘κ·Έ ν¬μ€νΈμ λλ€. μ£Όμ μν μ μ, μμ, μ±μ§, μμ λ±μ λͺ¨λ ν¬ν¨νλ©°, λ¨Έμ λ¬λμμμ νμ© κ°λ₯μ±λ κ°λ΅ν μκ°ν©λλ€.
βΈ»
π 벑ν°μ νλ ¬μ λ Έλ¦(Norms): μ νλμνμ κΈ°λ³Έμ΄μ λ¨Έμ λ¬λμ ν΅μ¬ κ°λ
π λ©ν μ€λͺ (Meta Description)
벑ν°μ βκΈΈμ΄βλ₯Ό μΈ‘μ νλ μνμ λκ΅¬μΈ λ Έλ¦(norm)μ μ νλμνλΏλ§ μλλΌ λ¨Έμ λ¬λμ μμ€ ν¨μ, μ κ·ν, μ΅μ ν μκ³ λ¦¬μ¦ λ± λ€μν λΆμΌμμ ν΅μ¬μ μΌλ‘ μ¬μ©λ©λλ€. λ³Έ κΈμμλ ββ, ββ, ββ λ° Frobenius Norm λ± λ€μν λ Έλ¦μ μνμ μ μμ μ±μ§μ μμ μ€μ¬μΌλ‘ μ 리ν©λλ€.
βΈ»
- λ Έλ¦(Norm)μ΄λ?
λ Έλ¦(norm)μ λ²‘ν° λλ νλ ¬μ κΈΈμ΄(length) λλ **ν¬κΈ°(magnitude)**λ₯Ό μΈ‘μ νλ ν¨μμ λλ€. μλ₯Ό λ€μ΄, νν μ¬μ©νλ μ ν΄λ¦¬λμ λ Έλ¦(Euclidean norm) λλ ββ λ Έλ¦μ λ€μκ³Ό κ°μ΄ μ μλ©λλ€:
|\mathbf{x}|2 = \sqrt{\sum{i=1}^{N} x_i^2}
μ΄κ²μ μ°λ¦¬κ° 2μ°¨μ λλ 3μ°¨μ 곡κ°μμ 벑ν°μ κΈΈμ΄λ₯Ό ꡬνλ λ°©μκ³Ό κ°μ΅λλ€. λ³΄λ€ μΌλ°μ μΌλ‘λ λ€μκ³Ό κ°μ ννλ‘ ννλ©λλ€:
|\mathbf{x}|_2^2 = \mathbf{x}^\top \mathbf{x}
βΈ»
- λ Έλ¦μ μνμ μ μμ λ€ κ°μ§ μ±μ§
λ Έλ¦μ λ€μμ 4κ°μ§ μνμ 쑰건μ λ§μ‘±νλ ν¨μ f: \mathbb{R}^N \to \mathbb{R} μ λλ€: 1. λΉμμμ±(Non-negativity): \forall \mathbf{x} \in \mathbb{R}^N,\quad f(\mathbf{x}) \ge 0 2. μμ μ λΆνΈμ±(Definiteness): f(\mathbf{x}) = 0 \iff \mathbf{x} = \mathbf{0} 3. λμ°¨μ±(Homogeneity): \forall t \in \mathbb{R},\quad f(t\mathbf{x}) = |t|f(\mathbf{x}) 4. μΌκ° λΆλ±μ(Triangle inequality): f(\mathbf{x} + \mathbf{y}) \le f(\mathbf{x}) + f(\mathbf{y})
μ΄ λ€ κ°μ§λ λ Έλ¦μ΄λΌλ μνμ κ°μ²΄λ₯Ό μ μνλ ν΅μ¬ μμμ λλ€.
βΈ»
- μ£Όμν λ²‘ν° λ Έλ¦μ μ’ λ₯
πΉ ββ λ Έλ¦ (Manhattan norm)
|\mathbf{x}|1 = \sum{i=1}^{N} |x_i|
λͺ¨λ μ λκ°μ ν©μ ν΅ν΄ 벑ν°μ ν¬κΈ°λ₯Ό μΈ‘μ ν©λλ€. λ‘λ²μ€νΈν νΉμ± λλΆμ μ κ·ν(regularization)μμ μμ£Ό μ¬μ©λ©λλ€ (μ: Lasso).
βΈ»
πΉ ββ λ Έλ¦ (Maximum norm)
|\mathbf{x}|_\infty = \max_i |x_i|
κ°μ₯ ν° μ λκ° νλλ§μΌλ‘ μ 체 ν¬κΈ°λ₯Ό μΈ‘μ ν©λλ€. μ ν 쑰건 κΈ°λ° μ΅μ νμ μμ£Ό λ±μ₯ν©λλ€.
βΈ»
πΉ ββ λ Έλ¦ (General p-norm)
|\mathbf{x}|p = \left(\sum{i=1}^{N} |x_i|^p \right)^{1/p} \quad \text{for } p \ge 1
ββ, ββ, ββλ μ¬μ€ λͺ¨λ ββ λ Έλ¦μ νΉμν κ²½μ°μ λλ€: β’ p = 1: ββ norm β’ p = 2: ββ norm β’ p \to \infty: ββ norm
ββ λ Έλ¦μ pμ κ°μ λ°λΌ λ²‘ν° κΈΈμ΄λ₯Ό μΈ‘μ νλ κΈ°μ€μ΄ λ¬λΌμ§λλ€. p < 1μΈ κ²½μ°λ μνμ μΌλ‘ normμ΄ μλλ―λ‘ μ μΈλ©λλ€.
βΈ»
- νλ ¬μ λ Έλ¦: Frobenius Norm
벑ν°λΏ μλλΌ **νλ ¬(matrix)**μλ λ Έλ¦μ μ μν μ μμ΅λλ€. κ°μ₯ λνμ μΈ μλ Frobenius λ Έλ¦μ λλ€.
|\mathbf{A}|F = \sqrt{\sum{i=1}^{M} \sum_{j=1}^{N} A_{i,j}^2} = \sqrt{\text{tr}(\mathbf{A}^\top \mathbf{A})}
μ΄λ νλ ¬μ 벑ν°λ‘ νννν ν, ββ λ Έλ¦μ μ μ©ν κ²κ³Ό λμΌν©λλ€. μ»΄ν¨ν° λΉμ , νλ ¬ λΆν΄, λ₯λ¬λ λͺ¨λΈμ weight decay λ±μμ μμ£Ό μ°μ λλ€.
βΈ»
- λ¨Έμ λ¬λμμμ νμ© β’ Regularization (μ κ·ν) β’ ββ μ κ·ν: sparsity μ λ (Lasso) β’ ββ μ κ·ν: weight decay (Ridge, Tikhonov) β’ Loss Functions β’ Mean Squared Error (MSE): ββ norm κΈ°λ° β’ Mean Absolute Error (MAE): ββ norm κΈ°λ° β’ Optimization Constraints β’ λ Έλ¦ μ νμ ν΅ν΄ λͺ¨λΈ 볡μ‘λ μ μ΄
βΈ»
β μ 리 λ° λ§λ¬΄λ¦¬ β’ λ Έλ¦μ 벑ν°/νλ ¬μ ν¬κΈ°λ₯Ό μΈ‘μ νλ κΈ°λ³Έμ μΈ λꡬμ΄λ€. β’ ββ, ββ, ββ λͺ¨λ ββ λ Έλ¦μ νΉλ³ν κ²½μ°λ‘ μ΄ν΄ν μ μλ€. β’ λ¨Έμ λ¬λμμ λͺ¨λΈ μ±λ₯κ³Ό μΌλ°νλ₯Ό μν ν΅μ¬ λκ΅¬λ‘ μ¬μ©λλ€.
βΈ»