Lojistik Regresyon ile Phishing Tespitinin Detayları

Phishing kampanyalarının tespiti, siber güvenlikte önemli bir yere sahiptir. Lojistik regresyonun bu alandaki rolünü ve teknik detayları öğrenin.

Giriş ve Konumlandırma

Lojistik Regresyon ile Phishing Tespitinin Detayları

Giriş

Dijitalleşmenin hızla arttığı günümüzde, siber güvenlik tehditleri de sürekli evrim geçiriyor. Bunların en yaygın örneklerinden biri olan phishing, kullanıcıların kişisel bilgilerini çalmak amacıyla gerçekleştirilen sahte yazışmaların ve web sitelerinin yanında, işletmeler için ciddi bir güvenlik sorunu haline gelmiştir. Bu bağlamda, phishing tespitinde kullanılan yöntemlerden biri olan lojistik regresyon, siber güvenlik alanında önemli bir yere sahiptir.

Lojistik Regresyon Nedir?

Lojistik regresyon, veri analitiği ve makine öğrenimi alanında sıklıkla tercih edilen, özellikle ikili sınıflandırmalarda kullanılan bir modelleme tekniğidir. İsminde "regresyon" kelimesi geçmesine rağmen, aslında bir sınıflandırma algoritmasıdır ve belirli bir olayın olma olasılığını 0 ile 1 arasında bir değerle hesaplama yeteneğine sahiptir. Bu özellik, phishing gibi tehditleri tanımlamak için oldukça etkilidir.

Neden Önemlidir?

Phishing saldırıları, özellikle veri ihlalleri ve finansal kayıplar açısından olumsuz sonuçlara yol açabilir. Bu nedenle, kuruluşların bu tür saldırılara karşı etkin bir savunma mekanizması geliştirmeleri gerekiyor. Lojistik regresyon, kullanıcı davranışlarını analiz ederek, e-posta veya bağlantının phishing içerip içermediğini belirlemek için kullanılabilir. Doğru yapılandırıldığında, bu algoritma olası bir saldırının önlenmesine yardımcı olabilir.

Siber Güvenlik ve Pentest Açısından Bağlam

Siber güvenlikte, pentest (penetrasyon testi) süreçleri, bir sistemin güvenlik açıklarını değerlendirmek amacıyla yapılan simüle edilmiş saldırılardır. Lojistik regresyonun bu süreçteki rolü, karşılaşılan potansiyel tehditleri sınıflandırıca ve analiz edici olarak belirlemekten geçer. Bir SOC (Security Operations Center) ekibi, lojistik regresyonu kullanarak daha önce kaydedilmiş phishing gösterge setlerini analiz edebilir ve bu veriler doğrultusunda gelecekte karşılaşabilecekleri tehditleri tahmin edebilir.

Teknik İçeriğe Hazırlık

Lojistik regresyon, özellikle eğitimli algoritmaların desteğiyle, çok fazla veri üzerinde işlem yapabilir. Özellik mühendisliği, modelin başarısında kritik bir rol oynar. Girdi olarak sunulan verilerin içeriği, sonucu doğrudan etkiler. Phishing tespitinin temel unsurları arasında URL'nin uzunluğu, alan adı yaşı ve HTTPS sertifikasının varlığı gibi faktörler bulunur. Bu veriler için uygun kodlama teknikleri ve model geliştirme stratejileri belirlemek, başarılı bir sonucun ortaya çıkmasını sağlayabilir.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# Veri Setini Yükle
data = pd.read_csv('phishing_data.csv')

# Özellikleri ve Hedefi Belirle
X = data.drop('phishing', axis=1)
y = data['phishing']

# Eğitim ve Test Setlerine Ayır
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Lojistik Regresyon Modelini Eğit
model = LogisticRegression()
model.fit(X_train, y_train)

# Tahmin Yap
predictions = model.predict(X_test)

Üstteki kod örneği, bir phishing tespit modeli oluşturmanın temel adımlarını göstermektedir. Verilerin işlenmesi ve analizi bu yöntemin olumlu sonuçlar vermesine yardımcı olur.

Sonuç olarak, lojistik regresyonun phishing tespitinde uygulanabilirliği, tamamen doğru bir model oluşturma süreçlerine ve bu süreçteki verilerin kalitesine bağlıdır. Bu bağlamda, siber güvenliğin dinamik yapısını anlamak ve uygun yöntemleri uygulamak, kuruluşların bu tür tehditlerle başa çıkmasında kritik bir adım oluşturmaktadır.

Teknik Analiz ve Uygulama

Lojistik Regresyon Nedir?

Lojistik regresyon, adında regresyon geçmesine rağmen aslında bir sınıflandırma algoritmasıdır. Bu model, belirli bir olayın (öğenin) gerçekleşme olasılığını 0 ile 1 arasında bir değerle hesaplar. Örneğin, bir e-postanın phishing (oltalama) olup olmadığını değerlendirirken, bu modelin uygulanması yaygındır.

Doğrusal vs. Lojistik Regresyon

Doğrusal regresyon, sürekli sayısal değerleri tahmin etmek için kullanılırken, lojistik regresyon kategorik sonuçların tahmininde kullanılır. Lojistik regresyon, bir e-postanın phishing olup olmadığını değerlendirirken iki temel seçenek sunar: "Temiz" veya "Zararlı". Bu iki yaklaşım, farklı tahmin türlerine sahip olduğu için siber güvenlik alanında iyi bir model oluşturmak için doğru yöntemlerin kullanılmasını gerektirir.

Sigmoid Fonksiyonunun Rolü

Sigmoid fonksiyonu, lojistik regresyonun temel bileşenlerinden biridir. Girdileri 0 ile 1 arasında sıkıştırarak olasılık değerine dönüştürür. Aşağıdaki Python kodu ile sigmoid fonksiyonunun nasıl çalıştığını görebiliriz:

import numpy as np

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# Örnek kullanım
z = np.array([0, 2, -2])
print(sigmoid(z))

Yukarıdaki kod örneğinde z değerleri için sigmoid fonksiyonunun çıktısı, her bir girdinin 0 ile 1 arasındaki olasılığına karşılık gelmektedir.

İkili (Binary) Sınıflandırma

Lojistik regresyon, sınıflandırma algoritması olarak, her bir ölçüm için iki olası sonuca (örneğin, bir e-postanın 'Temiz' ya da 'Zararlı' olma durumu) karar verir. Model, tahmin sonuçlarını olasılık cinsinden döndürür ve belirlenen bir eşik değeri kullanarak sonuçları sınıflara ayırır. Örneğin, model bir e-posta için yüzde elli üzerinde bir olasılık hesapladığında, bu iletiyi phishing olarak etiketler.

Phishing Tespiti İçin Özellikler

Modelin başarısı, ham veriden çıkarılan anlamlı ve ayırt edici özelliklerin kalitesine bağlıdır. Phishing analizi için tipik olarak kullanılan özelllikler arasında şunlar bulunmaktadır:

URL Uzunluğu: URL ne kadar uzun olursa, phishing olma olasılığı artar.
Domain Yaşı: Daha yeni alan adlarının güvenilirliği düşük kabul edilir.
HTTPS Sertifikası: Sertifikanın varlığı veya güvenilir bir otorite tarafından imzalanıp imzalanmadığı bilgisi önemlidir.

Bu özellikleri tanımlamak için aşağıdaki gibi bir sözlük yapısını kullanabilirsiniz:

features = {
    'url_length': 60, # karakter sayısı
    'domain_age': 1,  # gün cinsinden
    'https_cert': 0   # 0: Yok, 1: Var
}

Olasılık ve Karar Eşiği (Threshold)

Modelin karar verme süreci, belirli bir eşik değeri (threshold) kullanarak gerçekleştirilir. Eğer SOC ekibi "hiçbir phishing mailini kaçırmayalım" diyorsa, modelin karar verme sınırını 0.50'den daha düşük bir seviyeye çekerek modelin daha şüpheci davranmasını sağlayabilir. Bu durumda modelin karar verme süreci daha düşük olasılıklara da şüpheyle yaklaşır.

Eşik Değerinin Hassasiyeti

Belirlenen eşik değerinin analizi, modelin başarısını doğrudan etkiler. Eşik değeri yüksekse, phishing e-postalarını yakalama oranı artar, ancak aynı zamanda yanlış pozitifler de artar. Bu da çalışanların iş akışını bozar. Örneğin, eğer eşik değeri 0.75 olarak belirlenirse, yalnızca yüksek olasılıklı phishing e-postaları yakalanır, düşük olasılıklılar göz ardı edilir.

Model Katsayıları (Coefficients)

Modelin çıktılarındaki katsayılar, belirli özelliklerin e-postanın phishing olma üzerindeki etkisini gösterir. Pozitif katsayı, özelliğin varlığının phishing olasılığını artırdığını, negatif katsayı ise azaldığını gösterir. Örneğin:

Pozitif Katsayı: Bulunması gereken bir özelliğin, örneğin URL'de "@" işareti olması; bu durum phishing ihtimalini artırır.
Negatif Katsayı: Köklü bir bankanın domaini varsa, bu durum phishing olasılığını azaltır.

Özellik Mühendisliğinin Rolü

İyi bir model oluşturmanın anahtarı, anlamlı ve ayırt edici özelliklerin doğru bir şekilde belirlenmesi ve mühendislik süzgecinden geçirilmesidir. Örneğin, URL içindeki belirli karakterlerin analizi veya e-postanın tarih damgasının değerlendirilmesi, modelin genel başarısını artırabilir.

Hata Matrisi (Confusion Matrix)

Modelin performansını ölçerken kullanılan hata matrisleri, modelin ne kadar doğru çalıştığını gösterir. Aşağıdaki gibi bir matris, doğru ve yanlış sınıflandırmaları analiz etmenizi sağlar:

           |  Pozitif  |  Negatif
-----------------------------
Pozitif    |    TP     |    FP
Negatif    |    FN     |    TN

Burada;

TP (True Positive): Doğru pozitif
FP (False Positive): Yanlış pozitif
FN (False Negative): Yanlış negatif
TN (True Negative): Doğru negatif

Bu analizler, modelin gereksinimlerine göre ayarlamalar yapılmasına olanak tanır, böylece daha etkili bir phishing tespit sistemi oluşturulabilir.

Risk, Yorumlama ve Savunma

Risk ve Yorumlama

Lojistik regresyon, phishing saldırılarının tespitinde kullanılan güçlü bir araçtır. Ancak elde edilen bulguların güvenlik açısından yorumlanması, risklerin doğru bir şekilde değerlendirilmesi açısından kritik önem taşır. Model tarafından üretilen olasılık değerleri, sadece birer sayı değil, aynı zamanda bir güvenlik açığı ya da yanlış yapılandırmanın habercisidir.

Modelin çıktıları incelendiğinde, yüksek olasılık değerleri özellikle dikkatle ele alınmalıdır. Örneğin, %80 veya daha yüksek bir olasılık değeri, e-postanın büyük bir ihtimalle phishing olduğunu gösterir. Bu tür bulgular, bir olayın güvenliği açısından ele alınması gereken potansiyel tehditler arasında yer alır. Yanlış yapılandırmalar, özellikle modelin yanlış pozitif sonuçlar vermesine neden olabilir. Yani, gerçek bir phishing e-postası olmayan ve temiz olarak sınıflandırılması gereken e-postaların yanlışlıkla "zararlı" olarak etiketlenmesi, güvenlik ekibinin iş akışını olumsuz yönde etkileyebilir.

Bu noktada, sızan verilerin ne tür bilgiler içerdiği ve bunların organizasyona olan etkisi de değerlendirilmelidir. Örneğin, bir phishing e-postası kullanıcı bilgilerini hedef alıyorsa, bu durum hem kişisel veri güvenliğini tehdit eder hem de hukuki olarak kuruluşu zor durumda bırakabilir. Ayrıca, sosyal mühendislik saldırılarına bağlı olarak, kurumsal itibar kaybı da yaşanabilir.

Savunma Mekanizmaları

Güvenlik açığı tespit edildiğinde, durumu düzeltmek ve koruma sağlamak için bazı önlemler alınmalıdır. İşte bu bağlamda göz önünde bulundurulması gereken bazı profesyonel önlemler:

Eğitim ve Farkındalık: Çalışanlar için phishing algılama konusunu içeren düzenli eğitimler verilmesi gerekmektedir. Çalışanların bu tür saldırıları tanıma yeteneklerinin artırılması, riskleri minimize edecektir.
E-posta Filtreleme: Gelişmiş e-posta filtreleme sistemleri kullanarak potansiyel zararlı içeriklerin önceden tespit edilmesi sağlanmalıdır. Bu sistemler, özellikle şüpheli linkleri ve ekleri tarayarak kullanıcılara zarar gelmesini engelleyebilir.
Güvenlik Duvarları ve İzleme Sistemleri: Organizasyona ait ağ içerisinde güvenlik duvarları ve izleme sistemleri kullanarak anormal trafiğin tespit edilmesi sağlanabilir. Bu durum, kullanıcıların güvenliğini artırdığı gibi, içeriden gelebilecek tehditlerin de önüne geçebilir.
Hardening Önlemleri: Sistemlerin güvenliğini artırmak amacıyla hardening (sertleştirme) uygulamaları yapılmalıdır. Bu, gereksiz servislerin kapatılması, yazılımların güncel tutulması ve güvenlik yamalarının düzenli olarak uygulanmasını içerir.
Düzenli Güvenlik Testleri: Penetrasyon testleri ve güvenlik açıkları taramaları, olası zafiyetlerin tespit edilmesine yardımcı olur. Bu testlerin düzenli olarak yapılması, olası saldırılara karşı hazırlıklı olmamızı sağlar.

Sonuç Özeti

Lojistik regresyon ile phishing tespiti, veri güvenliği için önemli bir yetenek sunar. Ancak elde edilen bulguların doğru yorumlanması ve olası risklerin belirlenmesi, etkili bir savunma stratejisinin temelini oluşturur. Yanlış yapılandırmalar ve sistem zafiyetleri, ciddi sonuçlar doğurabilir. Elde edilen bulgular doğrultusunda profesyonel önlemler almak ve sürekli güncel kalmak, her organizasyon için kritik öneme sahiptir.