LLM теперь интерпретируют логи кибератак с помощью CAM-LDS

Breaking News Технологии
A glowing blue neural network scanning digital code streams and isolating a bright red cyber attack anomaly.
4K Quality
Современная кибербезопасность зависит от анализа огромных объемов системных журналов — задачи, которая часто перегружает экспертов и традиционные системы на основе правил. Исследователи представили CAM-LDS — комплексный набор данных, предназначенный для обучения больших языковых моделей (LLM) семантическому анализу и объяснению цифровых улик в режиме реального времени.

Больше чем чат-боты: как большие языковые модели интерпретируют проявления кибератак в системных журналах

Большие языковые модели (LLM) совершают революцию в кибербезопасности благодаря фреймворку CAM-LDS — специализированному набору данных, разработанному для автоматической интерпретации системных журналов и оповещений безопасности. Созданный исследователями Max Landauer, Wolfgang Hotwagner и Thorina Boenke, этот фреймворк устраняет критический «семантический разрыв» в цифровой криминалистике, предоставляя размеченный ресурс, который позволяет ИИ понимать намерения и механику проявлений кибератак. Этот прорыв способствует переходу от простого сопоставления с паттернами к сложному, подобному человеческому, анализу криминалистических доказательств.

Что такое CAM-LDS в кибербезопасности?

CAM-LDS — это комплексный фреймворк и набор данных под названием Cyber Attack Manifestations for Automatic Interpretation of Logs, предназначенный для того, чтобы помочь большим языковым моделям идентифицировать и объяснять события в логах, возникающие в результате кибератак. Он включает в себя семь сценариев атак, охватывающих 81 различную технику в рамках 13 тактик, собранных из 18 различных источников в воспроизводимой среде. Это позволяет инструментам безопасности перейти от простого обнаружения к семантическому пониманию конкретных действий злоумышленника.

Датасет Cyber Attack Manifestation Log Data Set был создан для решения проблемы дефицита качественных размеченных данных, необходимых для обучения ИИ криминалистическим задачам. Извлекая события журналов, которые являются прямым результатом выполнения атак, Landauer и его команда обеспечили возможность глубокого анализа наблюдаемости команд (command observability), частоты событий и показателей производительности. Эта методология позволяет проводить доменно-агностическую интерпретацию логов, что означает, что ИИ может анализировать данные из различных программных экосистем без необходимости написания человеком пользовательских правил для каждого нового инструмента или операционной системы.

Чтобы обеспечить высокую точность, исследователи использовали полностью открытую и воспроизводимую тестовую среду. Эта среда имитирует сложные корпоративные сети, позволяя собирать гетерогенные данные, включая системные вызовы, сетевой трафик и логи уровня приложений. Набор данных CAM-LDS специально фокусируется на проявлениях (manifestations) — цифровых следах, оставленных во время вторжения, — позволяя большим языковым моделям связывать, казалось бы, не связанные записи журналов в связное повествование о текущей атаке.

В чем заключаются сложности ручного анализа логов в криминалистике?

Ручному анализу логов в цифровой криминалистике в первую очередь препятствуют огромные объемы неструктурированных данных и большое разнообразие форматов событий, которые быстро перегружают экспертов. Аналитикам часто приходится просеивать миллионы строк телеметрии, чтобы найти одну вредоносную команду — процесс, который не только отнимает много времени, но и чреват критическими ошибками. По мере усложнения корпоративных систем гетерогенность форматов логов делает практически невозможным для человека поддержание экспертных знаний по всем источникам данных.

«Проблема узкого места в данных журналов» (Log Data Bottleneck) — это хорошо задокументированный феномен, когда скорость генерации данных превышает человеческие возможности по их интерпретации. В современной кибербезопасности системы обнаружения вторжений (IDS) могут ежедневно генерировать тысячи оповещений, многие из которых являются ложноположительными результатами или «шумом». Когда происходит реальное вторжение, доказательства часто разбросаны по множеству источников, таких как:

  • Windows Event Logs и записи Linux Syslog.
  • Дампы сетевого трафика (PCAP) и данные потоков.
  • Специфичные для приложений логи веб-серверов или баз данных.
  • Оповещения оркестраторов безопасности, которым не хватает глубоких контекстных метаданных.

Кроме того, ручной анализ требует привязки разрозненных событий к единой временной шкале вторжения. Для этого необходимо семантическое понимание — знание того, что событие «файл создан» в одном журнале и событие «процесс запущен» в другом на самом деле являются двумя частями одной и той же техники горизонтального перемещения (lateral movement). Без автоматизации криминалистам трудно достичь скорости, необходимой для нейтрализации активной угрозы до того, как произойдет эксфильтрация данных.

Как работает автоматизированный анализ логов с помощью больших языковых моделей?

Автоматизированный анализ логов с использованием больших языковых моделей работает за счет восприятия системных журналов как естественного языка, что позволяет ИИ интерпретировать «смысл» системных событий, а не просто сопоставлять их с предопределенными сигнатурами. Используя набор данных CAM-LDS, эти модели учатся извлекать соответствующие проявления и предоставлять причинно-следственные объяснения оповещений безопасности. Такой подход позволяет обнаруживать новые вариации атак, которые традиционные системы на основе правил могут пропустить, поскольку LLM понимает внутреннюю логику техники атаки.

Традиционная автоматизация часто полагается на созданные вручную парсеры логов и определенные экспертами правила обнаружения. Эти системы по своей сути хрупки: незначительное изменение версии программного обеспечения или формата лога может сделать правило обнаружения бесполезным. В отличие от них, большие языковые модели обеспечивают доменно-агностический уровень интеллекта. Они не требуют ручного проектирования признаков, так как могут поглощать необработанный или полуструктурированный текст и использовать свои внутренние лингвистические веса для выявления аномалий и злого умысла в рамках 13 различных тактик MITRE ATT&CK.

Эффективность этого подхода была продемонстрирована в тематическом исследовании, проведенном Landauer, Hotwagner и Boenke. Применив LLM к данным CAM-LDS, исследователи обнаружили, что:

  • Правильные техники атак были предсказаны идеально примерно для 33% этапов атак.
  • Предсказания были «адекватно» точными еще для 33%, идентифицируя общую категорию угрозы.
  • Модель успешно выделила наблюдаемость команд, показав, какие логи были наиболее полезны для криминалистической реконструкции.

Семантическое преимущество и будущее ИИ в защите

Основным преимуществом интеграции больших языковых моделей в SOC (Центр управления безопасностью) является возможность предоставления причинно-следственных объяснений. Традиционные инструменты безопасности могут предупредить аналитика о том, что конкретный IP-адрес подозрителен, но система на базе LLM может объяснить, *почему* этот IP опасен, сопоставив его активность с конкретными проявлениями в системных журналах. Это снижает когнитивную нагрузку на аналитиков и позволяет быстро принимать обоснованные решения во время реагирования на инцидент.

Заглядывая вперед, исследователи подчеркивают, что CAM-LDS служит фундаментальным ресурсом для масштабирования возможностей защиты. По мере того как кибератаки становятся более изощренными и многоэтапными, системы защиты должны уметь отслеживать «нить» атаки в море цифрового шума. Будущее цифровой криминалистики лежит в синергии между высококачественными наборами данных и аналитическими способностями генеративного ИИ, ведя отрасль к будущему, в котором системы обнаружения вторжений будут не просто реактивными, но и интерпретирующими.

Следующим этапом этого исследования станет расширение набора данных CAM-LDS для включения еще более разнообразных сред, таких как облачные (cloud-native) архитектуры и экосистемы IoT. Предоставив воспроизводимый испытательный стенд с открытым исходным кодом, Landauer и его коллеги пригласили мировое сообщество кибербезопасности к дальнейшему совершенствованию этих больших языковых моделей. Цель состоит в том, чтобы достичь такого уровня автоматизации, при котором ИИ сможет не только обнаруживать и интерпретировать атаку, но и рекомендовать точные шаги по устранению последствий в режиме реального времени, эффективно нейтрализуя угрозы по мере их проявления в логах.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Что такое CAM-LDS в кибербезопасности?
A CAM-LDS — это фреймворк под названием Cyber Attack Manifestations for Automatic Interpretation of Logs using Large Language Models (Проявления кибератак для автоматической интерпретации логов с использованием больших языковых моделей), предназначенный для извлечения событий логов, непосредственно возникающих в результате проведения кибератак. Он упрощает анализ проявлений атак в системных логах, фокусируясь на наблюдаемости команд для содействия автоматической интерпретации с помощью LLM. Этот подход выходит за рамки традиционных чат-ботов, обеспечивая точное обнаружение и понимание киберугроз в данных логов.
Q Как работает автоматизированный анализ логов?
A Автоматизированный анализ логов в кибербезопасности использует большие языковые модели для интерпретации системных логов и выявления проявлений кибератак путем извлечения соответствующих событий логов, связанных с выполнением атак. Он обрабатывает огромные массивы данных логов для обнаружения паттернов, аномалий и наблюдаемости команд, указывающих на угрозы, повышая эффективность по сравнению с ручными методами. Такие инструменты, как CAM-LDS, улучшают этот процесс, фокусируясь на событиях, напрямую связанных с атаками, для точного и масштабируемого анализа.
Q С какими трудностями сталкивается ручной анализ логов в цифровой криминалистике?
A Ручной анализ логов в цифровой криминалистике сталкивается с трудностями из-за огромного объема логов, генерируемых в современных системах, что делает тщательную проверку трудоемкой и чреватой ошибками по невнимательности. Аналитикам сложно интерпретировать сложные неструктурированные данные, чтобы связать события с конкретными атаками, часто пропуская едва заметные проявления. Этот трудоемкий процесс замедляет реагирование на инциденты и повышает риск неполного расследования.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!