AI, 사이버 위협 인텔리전스에 숨겨진 20년간의 벤더 편향성 밝혀내다

Breaking News Technology
Digital globe surrounded by flowing data streams being analyzed by a glowing AI matrix revealing hidden colored heatmaps
4K Quality
20년에 걸친 사이버 위협 인텔리전스에 대한 종합적인 분석 결과, 통합된 글로벌 방어 전략보다는 벤더별 사일로 현상으로 인해 파편화된 지형이 드러났습니다. 연구진은 13,000건 이상의 보고서를 처리하기 위해 고정밀 LLM 파이프라인을 활용하여, 현대 디지털 지정학의 이해를 형성하는 심각한 사각지대와 보고 편향성을 정량화했습니다.

사이버 위협 인텔리전스(CTI)는 오랫동안 현대 디지털 방어의 초석 역할을 해왔지만, 한 획기적인 종단적 연구를 통해 20년간의 보고서들이 통합된 글로벌 전략보다는 벤더 사일로(vendor silos)에 의해 정의된 단절된 환경을 조성해 왔음이 밝혀졌다. 연구원인 Mauro Conti, Manuel Suarez-Roman, Francesco Marciori는 최근 13,308개의 오픈 소스 CTI 보고서에 대해 대규모 자동화 분석을 실시했으며, 이 업계가 심각한 "에코 챔버(echo chamber)" 효과를 겪고 있다는 사실을 발견했다. 이러한 단절은 인텔리전스의 양은 폭발적으로 증가했으나, 일관되지 않은 보고 표준과 보안 벤더 생태계에 내재된 구조적 편향으로 인해 장기적인 위협 행위자-피해자 역학에 대한 공동의 이해가 여전히 가려져 있음을 의미한다.

이 연구의 필요성은 디지털 지정학의 복잡성 증대와 보안 업체들이 생성하는 방대한 양의 비정형 데이터에서 기인한다. 역사적으로 사이버 위협 인텔리전스(CTI)는 블로그 포스트부터 기술 백서에 이르기까지 이질적인 형식으로 발표되어 왔으며, 이로 인해 인간 분석가가 20년간의 트렌드를 수동으로 종합하는 것은 거의 불가능했다. 이러한 격차를 해소하기 위해 연구팀은 대규모 언어 모델(LLM)을 활용하여 데이터를 수집하고 구조화하며, 속성 위협 행위자, 동기, 기술 지표와 같은 핵심 엔티티를 추출하는 고정밀 파이프라인을 개발했다. 이 자동화된 접근 방식은 업계 결과물에 대한 최초의 포괄적인 메타 분석을 가능하게 하여, 인텔리전스가 실제로 어떻게 생성되고 공유되는지를 정량화했다.

벤더 특이성이 CTI 분석에 어떤 영향을 미치는가?

CTI 분석에서의 벤더 특이성은 보고서를 특정 벤더의 제품이나 서비스에 결부시킴으로써 더 넓은 통찰력을 제한하며, 잠재적으로 에코 챔버를 형성하고 공급망 전체의 위협을 간과하게 만든다. 이러한 특화된 초점은 종종 지역적 사각지대를 발생시키는데, 벤더의 지리적 본사 위치나 주요 고객 기반에 따라 모니터링하고 보고하는 위협이 결정되기 때문이다. 결과적으로 단일 인텔리전스 소스에 의존하는 조직은 글로벌 위협 환경에 대해 왜곡된 관점을 가질 수 있으며, 이는 디지털 생태계 전반의 상호 연결된 취약성을 고려하지 못한 단절된 리스크 평가로 이어질 수 있다.

연구 결과, 보고 편향은 개별 보안 업체의 상업적 이익 및 기술적 가시성에 깊이 뿌리박혀 있는 것으로 나타났다. 벤더들은 자신들의 특정 시장 도달 범위에 따라 금융이나 정부와 같은 산업을 우선시하는 명확한 분야별 편향을 보여준다. 예를 들어, 북미 지역에서 강력한 입지를 가진 벤더는 동아시아의 국가 주도 해킹에 대해서는 심도 있는 통찰력을 제공할 수 있지만, 남미나 아프리카에서 발생하는 신종 위협에 대해서는 사실상 무지할 수 있다. 이러한 전문화는 인텔리전스가 깊지만 좁은 "사일로" 효과를 만들어내며, 시간이 지남에 따라 위협 행위자가 서로 다른 분야와 지역으로 이동하는 방식에 대한 총체적인 이해를 방해한다.

또한, 이러한 특이성은 실무자가 인텔리전스의 완전성을 평가하는 능력을 복잡하게 만든다. 보고서는 종종 특정 보안 도구 또는 서비스의 가치를 입증하기 위해 맞춤 제작되므로, 제공되는 메타데이터기술 지표(IoC)가 선택적일 수 있다. Mauro Conti와 동료들은 이러한 표준화의 부재로 인해 제공자 간의 데이터를 교차 참조하는 것이 어렵다고 주장한다. 통일된 프레임워크가 없다면 CTI 생태계는 전 세계 사이버 활동을 담은 연속적인 고화질 비디오가 아니라 개별적인 스냅샷의 모음에 불과하게 된다.

20년간의 CTI를 분석하는 데 자동화는 어떤 역할을 하는가?

자동화는 벤더 간의 실시간 알림, 리스크 스코어링 및 위협 상관관계를 제공함으로써 20년에 걸친 방대한 CTI 데이터 세트의 처리 및 분석을 가능하게 한다. 대규모 언어 모델(LLM)을 활용함으로써 연구원들은 수천 개의 비정형 문서를 위협 행위자의 동기 및 피해자 프로필이 담긴 구조화된 데이터베이스로 변환할 수 있다. 이러한 AI 기반 접근 방식은 과거의 편향을 밝혀내고 수동 분석으로는 보이지 않는 장기적인 패턴을 식별하는 데 필수적이며, 수십 년간의 가공되지 않은 데이터를 실행 가능한 통찰력으로 효과적으로 전환한다.

연구팀의 LLM 기반 파이프라인은 서로 다른 시대의 기술 보고서에 나타나는 언어적 뉘앙스를 처리하도록 특별히 설계되었다. 연구 대상인 20년 동안 전술, 기법, 절차(TTP)를 설명하는 데 사용되는 용어는 크게 진화했다. 자동화를 통해 연구원들은 이러한 용어를 정규화할 수 있었으며, 이를 통해 2005년에 설명된 "백도어"를 현대의 지속적 위협 메커니즘과 정확하게 비교할 수 있었다. 보고서가 간단한 일화식 요약에서 수천 개의 침해 지표로 가득 찬 데이터 중심 문서로 변화함에 따라, 이러한 수준의 세밀한 추출은 정보 밀도의 진화를 이해하는 데 매우 중요하다.

단순한 데이터 추출을 넘어, 자동화는 새로운 인텔리전스 소스를 추가하는 가치를 정량화하는 한계 범위 분석을 용이하게 한다. 이 연구는 머신러닝을 활용하여 추가적인 벤더 보고서가 새로운 정보를 제공하는 것을 멈추고 단순히 알려진 데이터를 반복하기 시작하는 시점을 결정했다. 이러한 정량적 접근 방식은 여러 인텔리전스 피드 비용과 그로 인해 얻는 실제 인텔리전스 이득 사이의 균형을 맞춰야 하는 보안 운영 센터(SOC)에 필수적이다. 연구원들의 발견은 자동화가 점점 더 노이즈가 많아지는 정보 환경에서 상황 인식을 유지할 수 있는 유일하게 실행 가능한 방법임을 시사한다.

정보 밀도의 진화와 위협 동기

지난 20년 동안 사이버 위협 인텔리전스(CTI) 보고의 성격은 양과 기술적 깊이 모두에서 극적인 변화를 겪었다. 이 연구는 데이터가 대중에게 제공되는 방식에서 몇 가지 핵심 트렌드를 강조한다:

  • 기술적 세부 사항의 증가: 현대의 보고서는 2000년대 초반 보고서에 비해 훨씬 더 높은 밀도의 침해 지표(IoC)TTP를 포함하고 있다.
  • 동기 추적: 연구원들은 특정 위협 행위자스파이 활동, 금전적 이득 또는 핵티비즘과 같은 그들의 주요 동기 사이의 명확한 상관관계를 확인했다.
  • 전략적 변화: 최근 몇 년 동안 보고서들이 디지털 지정학 및 국가 안보 함의에 더 집중하면서 국가 주도 해킹에 대한 강조가 커지고 있다.
  • 데이터 표준화: 밀도는 높아졌지만, 일관된 보고 표준의 부재는 여전히 업계 전반에서 이러한 데이터의 상호 운용성을 저해하고 있다.

사이버 위협 보고에는 왜 중복이 발생하는가?

사이버 위협 보고의 중복은 벤더들이 개별적인 데이터 한계를 극복하고 클러스터링 및 커뮤니티 구조를 통해 경쟁 우위를 확보하기 위해 인텔리전스를 공유하는 과정에서 발생한다. 이러한 중복성은 종종 CTI의 상품화를 반영하는데, 여기서 여러 업체가 시장에서의 인지도를 유지하기 위해 동일한 세간의 이목을 끄는 사건에 대해 보고한다. 이러한 공유는 집단 지식을 향상시킬 수 있지만, 동일한 편향되거나 불완전한 데이터가 수십 개의 소스에서 반복되어 잘못된 합의를 형성하는 "에코(echoes)" 현상을 만들기도 한다.

이 연구의 한계 범위 분석에 따르면 핵심 제공자들 사이의 인텔리전스 중복도가 놀라울 정도로 높았다. 주요 국가 주도 캠페인이 탐지되면 거의 모든 주요 벤더가 종종 동일한 기본 텔레메트리나 공개된 IoC에 의존하여 보고서를 발표한다. 이는 방어자들에게 수익 체감의 상황을 초래한다. 처음 몇 개의 보고서 이후에 나오는 후속 인텔리전스는 새로운 기술적 통찰력 측면에서 "한계" 가치를 거의 또는 전혀 제공하지 못하는 경우가 많기 때문이다. 이러한 중복성은 위협에 대한 깊은 이해를 제공하지 않으면서 분석가의 시간을 소모하게 하므로 실제로 해로울 수 있다.

이러한 중복은 또한 탐지하기 쉽거나 이미 유행하고 있는 "눈에 띄는" 위협이 대부분의 관심을 받는 업계의 구조적 편향을 가리킨다. 반면, 틈새 분야를 겨냥한 더 미묘하고 장기적인 사이버 스파이 캠페인은 주요 벤더의 보고 템플릿이나 상업적 우선순위에 맞지 않는다는 이유로 전혀 보고되지 않을 수 있다. Mauro Conti 교수팀은 소수의 유명 행위자에게 이러한 노력이 집중되는 현상이 덜 "유명"하지만 똑같이 위험한 위협에 대해 글로벌 디지털 인프라의 상당 부분을 취약하게 만든다고 강조한다.

글로벌 보안 가시성을 위한 향후 방향

에코 챔버를 넘어서기 위해 연구원들은 사이버 위협 인텔리전스(CTI)가 생성되고 소비되는 방식에서 몇 가지 중대한 변화를 제안한다. 무엇보다 중요한 것은 보고의 표준화이다. 공통의 언어와 구조화된 형식이 없다면, 데이터 양이 증가함에 따라 생태계의 단절은 더욱 악화될 뿐이다. 중복된 관찰보다는 고유한 통찰력에 집중하는 자동화된 실시간 공유 프로토콜을 구현하면 현재의 정보 격차를 해소하는 데 도움이 될 수 있다.

또한, AI와 자동화의 역할은 단순한 데이터 추출에서 편향 탐지로 전환되어야 한다. 미래의 CTI 플랫폼은 사용자의 인텔리전스 소스가 지리적 또는 분야별 편향에 기반하여 왜곡된 전망을 제공할 때 이를 경고할 수 있어야 한다. 이러한 고정밀 LLM 파이프라인을 표준 방어 워크플로우에 통합함으로써 조직은 데이터의 완전성을 더 잘 평가하고 진정한 한계 가치를 제공하는 다양한 소스를 찾을 수 있다. 궁극적인 목표는 디지털 지정학을 벤더별 서사들의 모음에서 투명하고 글로벌한 사이버 방어 과학으로 변화시키는 것이다.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 벤더 특정성(Vendor specificity)이 CTI 분석에 어떤 영향을 미칩니까?
A CTI 분석에서 벤더 특정성은 보고서를 특정 벤더의 제품이나 서비스에 결부시킴으로써 더 넓은 통찰력을 제한하며, 잠재적으로 에코 체임버를 형성하고 공급망 전체의 위협을 간과하게 만듭니다. 이는 조직이 생태계 전반에 걸친 상호 연결된 취약성보다는 개별 벤더 리스크에 집중하게 함으로써 포괄적인 리스크 평가를 복잡하게 만듭니다. 이러한 접근 방식은 파편화된 인텔리전스로 이어져 여러 벤더를 표적으로 하는 위협 행위자의 행동 패턴을 탐지하는 능력을 저하시킬 수 있습니다.
Q 20년간의 CTI를 분석하는 데 있어 자동화는 어떤 역할을 합니까?
A 자동화는 벤더 전반에 걸친 실시간 알림, 리스크 점수 산정 및 위협 상관관계 분석을 제공함으로써 20년에 걸친 방대한 CTI 데이터 세트의 처리 및 분석을 가능하게 합니다. AI 기반 도구는 과거 데이터의 편향성과 중복성을 드러내어 가공되지 않은 위협 피드를 개선된 탐지 및 완화를 위한 실행 가능한 통찰력으로 변환합니다. Cyble 및 Bitsight와 같은 플랫폼은 머신러닝을 사용하여 장기 CTI의 규모와 복잡성을 효과적으로 처리합니다.
Q 사이버 위협 보고에 중복이 발생하는 이유는 무엇입니까?
A 사이버 위협 보고의 중복은 벤더들이 개별적인 데이터 한계를 극복하고 클러스터링 및 커뮤니티 구조를 통해 경쟁 우위를 확보하기 위해 인텔리전스를 공유하기 때문에 발생합니다. 이는 벤더 네트워크 내 CTI의 상품화를 반영하며, 보완적인 역량이 단일 기업이 달성할 수 있는 수준 이상의 집단적 지식을 강화합니다. 이러한 공유는 독특한 인텔리전스를 확보하기 위해 대규모 고객 기반이 필요한 '진퇴양난(catch-22)' 상황을 해결하며, 중복되지만 풍부해진 보고를 촉진합니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!