3대 클라우드도 서버 인프라 용량 한계…IT 대란 일상화 위기
오픈AI-구글클라우드 적과의 전략적 협업에도 역부족
오픈AI 서비스 장애 사과·보상 안내 메일 갈무리
(서울=뉴스1) 김민석 기자 = 인공지능(AI) 기술이 기하급수적으로 발전하면서 글로벌 클라우드·서버 인프라가 급증하는 AI 컴퓨팅 수요를 감당하지 못하는 현상이 잇따라 벌어지고 있다.
챗GPT·스포티파이·스냅챗 등 인기 애플리케이션의 잇단 서비스 장애는 전 세계가 언제든 IT 대란에 빠질 수 있는 상황임을 보여준다는 지적이다.
16일 IT 업계와 외신에 따르면 오픈AI의 서비스(챗GPT·소라·API 등) 장애는 미국 동부 기준 10일 오전 2시(한국시간 10일 오후 7시)쯤 시작돼 7시간 이상 지속됐다. 음성 모드 오류율 증가 장애는 다음날까지 15시간 이상 이어졌다.
샘 올트먼 오픈AI CEO X 갈무리
장애 원인으론 AI 서비스 급증에 따른 서버 용량 부족이 꼽혔다. 오픈AI는 "시스템 업데이트 과정에서 다수 서버와의 연결이 일시적으로 끊어졌다"며 "가용 처리 용량이 감소하며 오류 등이 발생했다"고 설명했다.
샘 올트먼 오픈AI CEO는 이전부터 "GPU가 녹아내리고 있다"고 표현할 정도로 컴퓨팅 리소스 부족 문제를 공개적으로 언급해 왔다.
구글 클라우드 ⓒ AFP=뉴스1
지난 12일(현지시간)에는 구글클라우드가 대규모 장애를 일으키며 '스포티파이' '디스코드' '스냅챗' '캐릭터AI' 등 주요 앱 서비스가 동시에 마비됐다. 인터넷 인프라를 담당하는 클라우드플레어도 구글클라우드와 연계한 일부 서비스가 중단되며 피해가 확산됐다.
구글 클라우드 서비스 장애 원인은 API 관리 시스템에 잘못된 자동 쿼터 업데이트였다.
구체적으로는 지난달 29일 추가된 'Service Control' 기능의 쿼터 정책 체크 과정에서 null pointer 오류가 발생한 것으로 확인됐다.
일각에선 구글 클라우드 시스템이 신규 클라이언트(오픈AI 등)의 IAM 인증 데이터를 통합하는 과정에서 예기치 못한 시스템 오류가 발생했을 수도 있다고 추정했다. 오픈AI는 구글 클라우드 서비스를 도입하는 계약을 지난달 체결했다.
다만 현재 공개된 정보로는 두 차례 대규모 서비스 장애 간 직접적인 연관성은 없다는 분석에 무게가 실린다.
전문가들은 생성형 AI 확산으로 많은 앱들이 리소스 집약 기능을 탑재하면서 데이터센터와 클라우드 서버에 추가 부담을 주고 있다고 분석했다.
업계 관계자는 "잇단 서비스 장애는 AI 혁신의 속도를 IT 인프라가 따라가지 못하는 구조적 한계에서 비롯된 것으로 보인다"며 "3대 클라우드 기업인 구글·MS·AWS뿐 아니라 전 세계 인프라 기업 모두 GPU·AI 칩 부족과 전력공급 문제 등으로 서버 인프라 확장에 어려움을 겪고 있다"고 말했다.
ideaed@news1.kr
<용어설명>
■ IAM
IAM(Identity and Access Management·신원 및 접근 관리)는 구글 클라우드 플랫폼(GCP)에서 사용자·서비스·그룹 등 다양한 구성원이 클라우드 리소스에 접근할 수 있는 권한을 체계적으로 관리하는 핵심 보안 서비스다.
■ 리소스 집약 기능
리소스 집약 기능은 일반적으로 소프트웨어나 애플리케이션이 동작할 때 시스템 자원(리소스)을 상대적으로 많이 사용하는 기능을 의미한다.
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.