Sohbet Botlarının Ötesinde: Büyük Dil Modelleri Sistem Günlüklerindeki Siber Saldırı Tezahürlerini Nasıl Yorumluyor?
Büyük Dil Modelleri (LLM'ler), sistem günlüklerinin ve güvenlik uyarılarının otomatik olarak yorumlanması için tasarlanmış özelleşmiş bir veri kümesi olan CAM-LDS çerçevesi aracılığıyla siber güvenlikte devrim yaratıyor. Araştırmacılar Max Landauer, Wolfgang Hotwagner ve Thorina Boenke tarafından geliştirilen bu çerçeve, yapay zekanın siber saldırı tezahürlerinin arkasındaki niyeti ve mekaniği anlamasını sağlayan etiketlenmiş bir kaynak sunarak dijital adli bilişimdeki kritik "anlamsal boşluğu" hedefliyor. Bu atılım, basit kalıp eşleştirmeden adli kanıtların gelişmiş, insan benzeri bir muhakemesine geçişi kolaylaştırıyor.
Siber güvenlikte CAM-LDS nedir?
CAM-LDS, Büyük Dil Modelleri'nin siber saldırılardan kaynaklanan günlük olaylarını tanımlamasına ve açıklamasına yardımcı olmak için tasarlanmış, Günlüklerin Otomatik Yorumlanması için Siber Saldırı Tezahürleri (Cyber Attack Manifestations for Automatic Interpretation of Logs) başlıklı kapsamlı bir çerçeve ve veri kümesidir. Tekrar üretilebilir bir ortamda 18 farklı kaynaktan toplanan, 13 taktik genelinde 81 farklı tekniği kapsayan yedi saldırı senaryosundan oluşur. Bu, güvenlik araçlarının basit tespitin ötesine geçerek bir davetsiz misafirin belirli eylemlerine dair anlamsal bir anlayış geliştirmesini sağlar.
Siber Saldırı Tezahürü Günlük Veri Kümesi (Cyber Attack Manifestation Log Data Set), yapay zekayı adli bilişim görevleri için eğitmek amacıyla gereken yüksek kaliteli, etiketlenmiş veri kıtlığını gidermek için oluşturuldu. Landauer ve ekibi, doğrudan saldırı yürütülmesinden kaynaklanan günlük olaylarını ayıklayarak; komut gözlemlenebilirliği, olay frekansları ve performans metriklerinin daha derinlemesine analiz edilmesini sağladı. Bu metodoloji, günlüklerin alandan bağımsız bir şekilde yorumlanmasına olanak tanıyor; yani yapay zeka, her yeni araç veya işletim sistemi için bir insanın özel kurallar yazmasına gerek kalmadan çeşitli yazılım ekosistemlerinden gelen verileri analiz edebiliyor.
Yüksek doğruluk sağlamak için araştırmacılar tamamen açık kaynaklı ve tekrar üretilebilir bir test ortamı kullandılar. Bu ortam, karmaşık kurumsal ağları simüle ederek sistem çağrıları, ağ trafiği ve uygulama düzeyi günlükleri dahil olmak üzere heterojen verilerin toplanmasına olanak tanıyor. CAM-LDS veri kümesi özellikle tezahürlere —bir sızma sırasında geride bırakılan dijital ayak izleri— odaklanarak, Büyük Dil Modelleri'nin birbiriyle ilgisiz görünen günlük kayıtlarını devam eden bir saldırının tutarlı bir anlatısına bağlamasını sağlıyor.
Adli bilişimde manuel günlük analizinin zorlukları nelerdir?
Dijital adli bilişimde manuel günlük analizi, öncelikle insan uzmanları hızla bunaltan devasa hacimdeki yapılandırılmamış veriler ve çok çeşitli olay formatları nedeniyle sekteye uğramaktadır. Analistler, tek bir kötü amaçlı komutu bulmak için genellikle milyonlarca satırlık telemetriyi taramak zorundadır; bu süreç sadece zaman alıcı değil, aynı zamanda kritik ihmallere de açıktır. Kurumsal sistemler daha karmaşık hale geldikçe, günlük formatlarının heterojenliği, bir insanın tüm veri kaynaklarında uzmanlığını korumasını neredeyse imkansız hale getiriyor.
"Günlük Verisi Darboğazı", veri üretim hızının insan yorumlama kapasitesini aştığı, iyi belgelenmiş bir fenomendir. Modern siber güvenlikte, Sızma Tespit Sistemleri (IDS) her gün binlerce uyarı verebilir ve bunların çoğu yanlış pozitif veya "gürültüdür." Gerçek bir sızma meydana geldiğinde, kanıtlar genellikle şu gibi birden fazla kaynağa dağılmıştır:
- Windows Olay Günlükleri ve Linux Syslog kayıtları.
- Ağ trafiği yakalamaları (PCAP) ve akış verileri.
- Web sunucularından veya veritabanlarından gelen uygulamaya özel günlükler.
- Derin bağlamsal meta verilerden yoksun güvenlik orkestratörü uyarıları.
Ayrıca, manuel analiz, farklı olayların tek bir sızma zaman çizelgesine bağlanmasını gerektirir. Bu, anlamsal anlayış gerektirir; bir günlükteki "dosya oluşturuldu" olayı ile bir diğerindeki "işlem başlatıldı" olayının aslında aynı yanal hareket tekniğinin iki parçası olduğunu bilmek gibi. Otomasyon olmadan, adli bilişim araştırmacıları veri sızdırılması gerçekleşmeden önce aktif bir tehdidi azaltmak için gerekli hıza ulaşmakta zorlanırlar.
Otomatik günlük analizi Büyük Dil Modelleri ile nasıl çalışır?
Büyük Dil Modelleri'nden yararlanan otomatik günlük analizi, sistem günlüklerini doğal bir dil olarak ele alarak çalışır; bu da yapay zekanın yalnızca önceden tanımlanmış imzaları eşleştirmek yerine sistem olaylarının "anlamını" yorumlamasına olanak tanır. CAM-LDS veri kümesini kullanan bu modeller, ilgili tezahürleri ayıklamayı ve güvenlik uyarıları için nedensel açıklamalar sağlamayı öğrenir. Bu yaklaşım, LLM'nin saldırı tekniğinin altında yatan mantığı anlaması sayesinde, geleneksel kural tabanlı sistemlerin gözden kaçırabileceği yeni saldırı varyasyonlarının tespit edilmesini sağlar.
Geleneksel otomasyon genellikle elle hazırlanmış günlük ayrıştırıcılara ve uzmanlarca tanımlanmış tespit kurallarına dayanır. Bu sistemler doğası gereği kırılgandır; bir yazılım sürümündeki veya günlük formatındaki küçük bir değişiklik, bir tespit kuralını işe yaramaz hale getirebilir. Buna karşılık, Büyük Dil Modelleri alandan bağımsız bir zeka katmanı sağlar. Ham veya yarı yapılandırılmış metni işleyebildikleri ve 13 farklı MITRE ATT&CK taktiği genelinde anormallikleri ve kötü niyetli amacı belirlemek için dahili dilsel ağırlıklarını kullanabildikleri için manuel öznitelik mühendisliği gerektirmezler.
Bu yaklaşımın etkinliği Landauer, Hotwagner ve Boenke tarafından yürütülen bir vaka çalışmasında gösterilmiştir. CAM-LDS verilerine bir LLM uygulayan araştırmacılar şunları tespit etti:
- Doğru saldırı teknikleri, saldırı adımlarının yaklaşık %33'ü için mükemmel şekilde tahmin edildi.
- Tahminler, tehdidin genel kategorisini tanımlayarak diğer %33'lük kısım için "yeterince" doğruydu.
- Model, hangi günlüklerin adli rekonstrüksiyon için en yararlı olduğunu göstererek komut gözlemlenebilirliğini başarıyla vurguladı.
Anlamsal Avantaj ve Savunmada Yapay Zekanın Geleceği
Büyük Dil Modellerini SOC'ye (Güvenlik Operasyon Merkezi) entegre etmenin temel avantajı, nedensel açıklamalar sunabilme yeteneğidir. Geleneksel güvenlik araçları bir analisti belirli bir IP adresinin şüpheli olduğu konusunda uyarabilir, ancak LLM destekli bir sistem, bu IP'nin etkinliğini sistem günlüklerindeki belirli tezahürlerle ilişkilendirerek o IP'nin *neden* tehlikeli olduğunu açıklayabilir. Bu, analistlerin üzerindeki bilişsel yükü azaltır ve bir olay müdahalesi sırasında hızlı, bilinçli kararlar alınmasına olanak tanır.
Geleceğe bakıldığında araştırmacılar, CAM-LDS'nin savunma yeteneklerini ölçeklendirmek için temel bir kaynak görevi gördüğünü vurguluyor. Siber saldırılar daha karmaşık ve çok aşamalı hale geldikçe, savunma sistemleri dijital bir gürültü denizi içinde bir saldırının "izini" takip edebilmelidir. Dijital Adli Bilişimin geleceği, yüksek kaliteli veri kümeleri ile üretken yapay zekanın muhakeme yetenekleri arasındaki bu sinerjide yatmaktadır ve sektörü Sızma Tespit Sistemleri'nin sadece reaktif değil, aynı zamanda yorumlayıcı olduğu bir geleceğe taşımaktadır.
Bu araştırma için "Sırada Ne Var" sorusu, CAM-LDS veri kümesinin bulut tabanlı mimariler ve IoT ekosistemleri gibi daha da çeşitli ortamları kapsayacak şekilde genişletilmesini içeriyor. Tekrar üretilebilir ve açık kaynaklı bir test ortamı sağlayarak Landauer ve meslektaşları, küresel siber güvenlik topluluğunu bu Büyük Dil Modellerini daha da geliştirmeye davet ettiler. Hedef, yapay zekanın sadece bir saldırıyı tespit edip yorumlamakla kalmayıp, aynı zamanda gerçek zamanlı olarak kesin iyileştirme adımları önerebildiği ve saldırılar günlüklerde belirdiği anda tehditleri etkili bir şekilde etkisiz hale getirdiği bir otomasyon seviyesine ulaşmaktır.
Comments
No comments yet. Be the first!