Linear Model Nedir?

Makine öğrenmesi ve istatistik dünyasına atılan ilk adım genellikle Lineer Modeller ile başlar. Onlarca yıldır veri biliminin en temel yapı taşı olan bu yaklaşım, veriler arasındaki karmaşık gibi görünen ilişkileri basit ve doğrusal bir denklemle ifade etmemizi sağlar. Özünde yaptığı iş çok nettir: Verilen input vektörü ile $X^T = (X_1, X_2, X_3 ...)$ output değeri $Y$ ‘yi tahmin etmeye çalışır:

\hat{Y} = \hat{\beta}_0 + \sum_{j=1}^p X_j \hat{\beta}_j

$\hat{\beta}_0$ bias (intercept) değeridir. Bu formülü $X$ ‘i vektör olarak yazarsak:

\hat{Y} = X^{\top} \hat{\beta}

olarak kullanabiliriz.

Dot Product Anlamak

Bunu daha iyi anlamak için formülü tek tek açalım:

\hat{Y}=\hat{\beta}_0 + X_1\hat{\beta}_1 + X_2\hat{\beta}_2 + \cdots + X_p\hat{\beta}_p

Burada her $X_j$ tek bir feature değeridir ve tek sayıdır:

X_j \in \mathbb{R}

Aynı şekilde her katsayı da tek sayıdır:

\hat{\beta}_j \in \mathbb{R}

Dolayısıyla iki reel sayının çarpımı yine tek bir reel sayı verir:

X_j \hat{\beta}_j \in \mathbb{R}

Yani örneğin:

X_1=3,\quad \hat{\beta}_1=4

ise:

X_1\hat{\beta}_1 = 12

elde edilir.

Bu 12 artık bir skalerdir; yani vektör veya matris değil, yalnızca tek bir sayıdır.

Aynı durum tüm terimler için geçerlidir:

X_2\hat{\beta}_2,\; X_3\hat{\beta}_3,\; \ldots,\; X_p\hat{\beta}_p

hepsi tek tek skaler değerler üretir.

Sonuçta bunların toplamı da yine tek bir sayı olur:

\hat{Y}\in \mathbb{R}

Bu nedenle lineer modelin çıktısı tek bir skaler tahmindir. Dolayısıyla her çarpım da skaler olur, ve buna dot product (inner product) nedir.

Bias’ı Dahil Etmek

Bias’ ayrı yazmak yerine feature vektörünü genişletebiliriz:

X = \begin{bmatrix} 1 \\ X_1 \\ X_2 \\ \vdots \\ X_p \end{bmatrix}, \quad \hat{\beta} = \begin{bmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \\ \hat{\beta}_2 \\ \vdots \\ \hat{\beta}_p \end{bmatrix}

Burada 1 ile başlatma sebebimiz, formüldeki $\hat{\beta}_0$ değerini de ekleyebilmek için.

Neden Transpose Gerekiyor?

İki sütun vektörünü doğrudan çarpamayız.

X = \begin{bmatrix} 1 \\ X_1 \\ X_2 \\ \vdots \\ X_p \end{bmatrix} = (p + 1)\times1, \quad \hat{\beta} = \begin{bmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \\ \hat{\beta}_2 \\ \vdots \\ \hat{\beta}_p \end{bmatrix} = (p + 1)\times1

Dot product çarpımında içerikde boyutların aynı olması gerekir. Bu yüzden de birini satır olarak yazmamız gerekir.

((p + 1)\times1) \times ((p + 1)\times1) \rightarrow (1\times(p + 1)) \times ((p + 1)\times1)

= 1\times1

Yani artık:

X = \begin{bmatrix} 1 & X_1 & X_2 & \ldots & X_p \end{bmatrix} = 1\times(p + 1), \quad \hat{\beta} = \begin{bmatrix} \hat{\beta}_0 \\ \hat{\beta}_1 \\ \hat{\beta}_2 \\ \vdots \\ \hat{\beta}_p \end{bmatrix} = (p + 1)\times1

Örnek Çözüm

İki feature olsun:

X= \begin{bmatrix} 1\\ 3\\ 5 \end{bmatrix} ,\quad \hat{\beta}= \begin{bmatrix} 2\\ 4\\ 6 \end{bmatrix}

O zaman:

X^\top \hat{\beta} = \begin{bmatrix} 1 & 3 & 5 \end{bmatrix} \begin{bmatrix} 2\\ 4\\ 6 \end{bmatrix}

Sonuç:

=1\cdot2 + 3\cdot4 + 5\cdot6

=44

Hiperdüzlem (Hyperplane)

Lineer modelin geometrik anlamı bir hiperdüzlemdir. İki feature ( $X_1, X_2$ ) ve bir output ( $Y$ ) ile düşünelim. Modelimizin ürettiği tahminler ( $\hat{Y}$ ), $X_1$ ve $X_2$ eksenleri boyunca uzanan düz bir yüzey, yani bir düzlem (veya daha yüksek boyutlarda hiperdüzlem) oluşturur.

Aşağıdaki görselleştirmede; mavi düzlem lineer modelimizin uzayda oluşturduğu hiperdüzlemi, noktalar gerçek veri noktalarını ve kırmızı kesikli çizgiler ise gerçek verilerin bizim modelimize (düzleme) olan uzaklıklarını gösterir:

Her nokta, hiperdüzleme dikey olarak izdüşürülür. Gerçek değer ( $Y$ ) ile modelin düzlem üzerindeki tahmini ( $\hat{Y}$ ) arasındaki bu farklara residual (artık) denir: $e_i = Y_i - \hat{Y}_i$ .

Not: Bu düzlemin uzaya nasıl yerleştirileceği ve aradaki bu residual hatalarının nasıl en aza indirileceği, optimizasyon yöntemlerinin konusudur. Lineer model sadece bu düzlemin matematiksel tanımıdır.

Katsayılar ve Gradient Vektörü

Lineer modelin denklemini bir fonksiyon olarak, $f(X) = X^\top \beta$ şeklinde düşündüğümüzde, modelin uzaydaki eğimini belirleyen şey $\beta$ katsayılarıdır. Matematiksel olarak bir fonksiyonun gradyanı (gradient), o noktada fonksiyonun en dik artış yönünü gösterir.

Lineer bir model için bu gradyan doğrudan katsayılar vektörüne eşittir:

f'(X) = \nabla f(X) = \beta

Yani $\beta$ vektörü, input uzayında modelimizin çıktısının ( $\hat{Y}$ ) en hızlı arttığı yönü gösterir.

Yukarıdaki görselleştirmede yeşil ok $\nabla f$ (yani $\beta$ ) vektörünü, turuncu nokta ise mevcut konum $X$ ‘i temsil eder. Lineer modelde düzlemin eğimi sabit olduğundan, bu yön her yerde aynıdır. Modelleri eğitirken kullandığımız algoritmalar (örneğin Gradient Descent), bu vektörel özellikleri kullanarak modeli en doğru konuma getirmeye çalışır.