주철현의 커넥션
(36) P의 함정
연구비를 위해 출판이 중요해진 성과우선주의에 휩쓸리면서, 연구가 담고 있는 내용보다 0.05라는 수치가 더 중요해지는 주객전도 상황이 발생한다. 위키미디어 코먼스
통계만으로 결론을 내린 과학 논문은 잘못된 해석의 위험이 있다. 픽사베이
“예외적 주장에는 강력한 증거가 필요하다.”
칼 세이건(1934-1996)
약 70여년 전 인터페론이 발견되었을 때, 다음과 같은 기사 제목이 신문을 장식했다. “바이러스는 정복되었다.” 암 억제 인자 p53가 발견된 1989년부터 다음과 같은 제목이 매년 약방의 감초처럼 언론에 등장한다. “암 정복 멀지 않아.”
하지만 바이러스 팬데믹은 여전히 발생하고, 암은 압도적 사망 원인의 자리에서 내려올 기미가 없다. 대중의 눈에 과학이 양치기 소년처럼 보이는 것은 가능성 해석의 관점 차이에 기인한다. 논문은 서론, 방법, 결과, 그리고 고찰로 구성된다. 이 가운데 연구 결과의 해석을 제시하는 고찰은 가능성에 대한 상상이 발휘되는 영역이다. 물론 허무맹랑한 것이 아니라 과학적 논리를 바탕으로 한 상상이다. 해당 분야의 기반 지식을 가진 과학자들은 고찰의 한계를 파악하는 것이 어렵지 않다. 하지만 이것이 어려운 대중 미디어는 한계를 넘어 성과를 과대 포장하는 경향이 있다. 대중은 과학에서 희망을 보기를 원하기 때문일 것이다. 실패한 연구에 관심을 주는 대중은 없다. 하지만 대중의 흥미를 자극하는 논문일수록 재현이 어렵다는 것은 잘 알려져 있지 않다.
영국에서 1665년 창간된 ‘철학 통신’은 최초의 과학 학술지다. 철학이 이름에 들어 있는 이유는, 과학과 철학이 분리되기 전이었기 때문이다. 곧이어 뉴턴의 프린키피아가 등장하고 과학 논문의 발표는 9년마다 두배씩 증가해 왔다. 논문의 폭발적 확장은 뉴턴이라는 특이점 이후 진행된 과학 혁명의 결과다. 하지만 논문 출판의 과열 경쟁은 많은 부작용도 양산하고 있다. 특히 ‘출판 아니면 죽음’(publish or perish)이라는 성과주의 확산은 논문의 재현성 위기를 일으키고 있다. 결과가 다수의 연구자에 의해 반복 확인되는 것이 재현성이다. 출판 논문의 낮은 재현성은 연구 설계와 방법의 오류, 결과의 편향적 선택, 결과 검정 부실, 재료의 편차, 결과 해석의 논리적 오류, 악의적인 결과 조작, 그리고 통계 검정 기법의 오남용 등에 의해 발생된다. 특히 통계 기법의 오남용은 의학 연구분야에서 구조적으로 발생하는 문제다. 네이처지의 보고에 따르면 통계 기법이 적용된 연구의 경우 70%가 재현되지 않는다.
다양한 변수가 포함된 논문의 가치를 수치만으로 결정하는 관행은 많은 부작용을 가져온다. 그림은 생성형 인공지능 퍼플렉시티에 “P자 보석이 박힌 왕관을 쓴 여신이 줄자를 꺼내 사슴 발자국과 화살의 위치를 재는 장면을 그려달라”는 지시어를 입력해 얻은 이미지.
통계적 실마리를 과잉 해석하는 오류
옛날 옛적 활을 더 잘 쏜다고 서로 주장하는 두 사냥꾼이 있었다. 어느 날 사슴을 쫒던 둘은 숲의 입구에서 마주친다. 음산한 숲은 사람이 자주 실종되는 곳으로 악명 높았다. 둘은 사슴을 잡아 공평하게 나누기로 약속하고 숲으로 함께 들어간다. 하지만 폭설이 내리치면서 방향을 완전히 잃어버린다. 숲을 헤매다 허기와 추위로 쓰러질 무렵, 그들의 눈앞에 사슴이 나타난다. 둘은 남은 화살을 모두 자기가 쏘겠다고 다툰다. 그러다 반씩 쏜 화살은 모두 빗나가고 사슴은 도망간다. 희망은 좌절을 거쳐 분노로 바뀐다. 둘은 모든 화살을 자기가 쏘아야 했다며 큰 소리로 싸운다. 시끄러운 소란이 울려퍼지자 펑하는 연기와 함께 여신이 나타난다. 여신은 커다란 p자 보석이 박힌 왕관을 쓰고 있었다. 둘의 주장을 들은 여신은 흩어진 사슴 발자국으로 걸어간다. 그리고 줄자를 꺼내 화살이 떨어진 위치를 꼼꼼히 잰다. 한참 계산기를 두들긴 여신은 사냥꾼들에게 엄숙하게 선언하였다. “둘의 실력에는 차이가 없다는 가설은 유의수준 0.05로 기각한다.” 다음날 사람들이 쓰러져 있는 두 사람을 발견한다. 그런데 활짝 웃는 표정의 사냥꾼 이마에는 별(*)이 빛나고 있었다.
기계에서 튀어나온 신, 데우스 엑스 마키나(deus ex machina)는 그리스 희곡에 자주 등장한다. 그녀는 복잡한 갈등 상황에서 튀어나와 뜬금없이 결론을 내린다. 그런데 논리 비약의 대명사인 이 여신이 현대 과학 논문에 점점 자주 출현하고 있다. 특히 의생명과학 분야에서 p값은 사슴을 놓친 사냥꾼 앞에 등장했던 여신과 같다. 기약 없던 연구도 p가 0.05보다 작으면 별표를 달고 희망찬 해석과 함께 논문으로 출판된다. 반대로 아무리 많은 노력이 투입된 연구라도 p가 0.05를 넘어가면 쓰레기통으로 들어간다.
다양한 변수가 포함된 논문의 가치를 수치만으로 결정하는 관행은 많은 부작용을 가져온다. 사람은 수치에 의해 신뢰도가 올라가는 심리적 편향을 가지고 있다. ‘십중팔구’보다 ‘0.85’의 표현에 의해 무의식적 신뢰도가 높아진다. 이와 같은 선입견 오류를 ‘닻 효과’(anchoring effect)라고 한다. 화물의 내용에 상관없이 닻을 내리면 배 전체가 항구에 정박하는 것의 비유다. 이런 효과 때문에 p값으로 논문 전체의 신뢰도를 결정하는 잘못된 인식이 급속도로 퍼지고 있다. “통계적으로 유의하다”는 논문에 가장 많이 등장하는 관용구가 되었다. p가 0.05 이하면 별 하나, 0.01 이하면 별 둘, 0.001 이하면 별 셋을 붙여준다.
“여성은 마늘을 먹는 남자에게 더 매력을 느낀다”, “얼굴이 큰 사람이 CEO가 된다”, “근육질 남성은 보수적이다”, “임신 가능성이 높은 여성은 빨간색 옷을 입는다”, “여성의 월경주기가 정치 성향에 영향을 준다“ 등등 대중의 흥미를 끄는 자극적 제목이 논문 데이터베이스에 흘러 넘친다.
이런 논문들의 공통점은 통계적 실마리를 과잉 해석하는 것이다. 기존의 지식을 부정하는 주장을 할 때는 더 강력한 근거가 필요한 것이 상식이다. 하지만 통계를 이용한 주장은 이런 기본적 상식을 따르지 않는다. 통계적 가설 검정은 의학 통계 교과서의 첫 페이지에 나올 정도로 의학 연구의 중요한 기반이다. 그럼에도 오남용이 빈번해지는 이유를 이해하기 위해서는 통계 기법이 발전해온 역사적 배경을 살펴봐야 한다.
그림1. 연역법과 귀납법의 혼합인 통계적 가설 검정
p값 0.05는 어떻게 탄생했나
자연 현상의 인과관계를 규명하려는 목적으로 과학이 수행된다. 고대 그리스에는 과학이 철학을 품고 있었다. 플라톤은 모든 자연 현상에는 불변의 원리가 존재한다고 생각하였다. 그의 결정론적 철학은 르네상스 과학혁명에 의해 꽃피게 된다. 데카르트는 가설에서 출발해 자연 현상을 설명하는 연역법이라는 과학적 접근법을 확립하였다. 이를 기반으로 뉴턴은 물체를 움직이는 힘을 수학적으로 설명하게 된다(그림 1, 연역법). 플라톤의 결정론, 데카르트의 연역법, 뉴턴의 수학적 기술은 신플라톤주의라고 불리며, 이후 과학 연구의 표준 방법론이 된다. 하지만 많은 자연 현상은 복잡계의 특성을 가지고 있다. 하위 요소의 상호 작용으로 예측할 수 없는 새로운 현상이 창발되는 복잡계는 연역적 접근이 어렵다. 예를 들어 생명 활동은 물리 법칙의 지배를 받지만 물리 법칙만으로 생명 현상을 예측할 수 없다.
관찰에서 출발해 목적론적 가설을 도출하는 귀납법은 복잡계 연구에 적합하다(그림 1, 귀납법). 귀납법은 아리스토텔레스의 자연철학에 뿌리를 두고 베이컨에 의해 피어났다. 복잡계를 다루는 대표적 학문인 생물학은 다윈이 출판한 ‘종의 기원’을 계기로 발전하기 시작한다. 다윈의 사촌인 골턴은 사람의 유전을 연구하며 통계의 기초를 세웠고, 그의 후계자 칼 피어슨은 기술 통계학을 확립한다. 과학을 주도했던 신플라톤주의에서는 측정값의 변동성을 오차로 취급하였다. 라플라스의 도깨비라고 불리던 오차들은 측정 기술의 부족으로 발생한다고 여겼다. 하지만 칼 피어슨은 변동성 자체를 자연에 내재된 특성으로 파악하였다. 그리고 측정 값은 확률적 분포로 발현된다고 생각하였다. 이후 확률은 통계의 핵심 원리로 자리잡는다.
기술 통계가 모집단을 대표 값으로 특정하는 방법이라면, 추론 통계는 복수 집단의 연관성을 추정하는 방법을 다룬다. 추론 통계는 피어슨과 피셔의 치열한 논쟁을 통해 발전하였다. 당시 홍차의 맛만 보고 우유와 차를 따른 순서를 구분할 수 있다고 주장하는 귀부인이 있었다. 귀부인의 능력을 믿지 않았던 피셔는 맛을 구분 못한다는 귀무가설을 설정하고 이를 증명하는 실험을 준비한다. 우유와 차를 다른 순서로 따른 홍차를 4개씩 준비하여, 무작위의 순서로 만든 8개의 홍차를 맛보게 한 뒤 답을 맞추게 한다. 기대와 달리 귀부인은 차를 따른 순서를 모두 맞추었다. 피셔는 '차 마시는 여인' 문제를 통해 귀무가설과 무작위배치를 이용한 증명법을 제시한다. 피어슨은 한걸음 더 나아가 집단 측정치에 차이가 없다는 가상의 귀무가설을 설정하고, 이의 기각을 시도하는 검정법을 완성한다(그림 1, 가설검정).
새로운 혈압 약을 개발하는 현실적 예를 들어보자. 신약은 후보 물질 발굴, 전임상 연구, 임상 연구, 규제 승인의 개발 단계를 거친다. 전임상까지는 동물 실험을 통해 진행되지만 임상 연구 단계부터는 사람이 대상이 된다. 사람을 대상으로 변수를 바꿔가며 직접 실험을 할 수는 없다. 따라서 통계적 검정을 설계해서 연구를 수행한다. 먼저 무작위 샘플링으로 표본 집단을 구성한다. 그리고 신약과 가짜를 무작위로 나눠 주고 측정한다. 그런데 혈압은 사람마다 차이가 있고, 동일인이라도 측정 시기에 의해 차이가 나고, 심지어 혈압계에 의해서도 차이가 발생한다. 이처럼 영향을 미치는 변수가 가득한 측정값을 직접 비교해 차이를 증명하는 것은 쉽지 않다. 대신 ‘신약과 가짜 약을 투여한 집단의 혈압에는 차이가 없다’라는 가설을 먼저 설정한다. 그리고 측정치의 동질성을 검정하면 복잡한 변동성 문제를 우회할 수 있다.
가상의 가설을 귀무가설(null hyphothesis)이라 하며 이것을 지지하는 확률을 p값(probability value)이라 한다. 그리고 귀무가설이 옳다고 판정하는 최소의 p값을 유의수준(significant level)이라 한다. 일반적으로 p값이 0.05보다 작으면 귀무가설은 틀렸다고 기각하며, 이 경우는 신약에 효과가 있다는 결론을 내리게 된다. 이처럼 결과의 관찰을 통해 두 집단의 차이를 확인하는 문제를 동질성을 확인하는 문제로 변환시키면 분석이 명확해진다. 앞서 p의 여신 이야기에서 두 사냥꾼의 활 실력에 차이가 없다는 것이 귀무가설이고, 사슴 발자국과 떨어진 화살의 거리들을 측정하여 기각되었다. 웃으며 쓰러진 사냥꾼의 실력이 더 뛰어나다는 대립가설이 검정된 것이다.
그림 2. 귀무가설과 대립가설은 비동치 관계
귀무가설과 대립가설 사이의 논쟁
여기에는 조심해야 할 논리학적 틈이 있다. 앞의 혈압 약의 검정문제에서 “두 집단의 차이가 없으면 효과가 없다”가 귀무가설이었다. 하지만 귀무가설의 기각으로 채택한 대립가설은 “두 집단의 차이가 있으면 효과가 있다”인데, 이는 귀무가설의 이(inverse)로서 귀무가설의 동치인 대우명제(contrapositive)가 아니다. 실제 데이터의 분석을 통해 얻어지는 두 가설의 확률 분포는 상당부분이 겹치게 된다(그림 2). 따라서 통계적 측정량으로 귀무가설을 기각하면 오류 발생은 불가피하다. 이것이 1종 오류와 2종 오류의 발생 원인이다. 측정 데이터의 확률 분포에서 두 종류의 오류를 동시에 줄이는 것은 불가능하다.
오류에 대한 논쟁은 오랜 기간 이어진다. 피셔는 통계적 가설검정에는 불확실성의 한계가 있어 0.05로 귀무가설을 기각하는 것으로 충분하다고 하였다. 통계적 수단을 벗어나 추가 실험이나 다른 분석을 하는 것이 더 확실하다 생각했기 때문이다. 이에 반해 칼 피어슨의 아들인 이건 피어슨은 검정력을 최대화하는 유의 수준을 매번 새롭게 설정해야 한다고 주장하였다. 피어슨은 피셔의 검정법을 최악이라 평가하였으며, 피셔는 피어슨의 검정법을 유치할 뿐 아니라 악몽이라 평가하였다. 이들은 대를 이어가며 싸웠다. 신플라톤주의가 팽배했던 시기에 연역적 접근이 불가능한 의학과 생물학은 변방으로 밀려나 있었다. 이 상황에서 귀무가설을 이용한 추정 통계는 가뭄의 단비와도 같은 존재였다. 하지만 피셔는 가설 검정의 한계를 인정하고. 이를 통해서는 최소한의 가능성만 확인해야 한다는 관점이었다. 반면 피어슨은 통계만으로 결론을 추정해야 하는 불가피한 상황이 존재하며, 불가피하게 발생되는 오류를 적극적으로 줄여야 한다고 주장하였다. 이렇게 근원적 관점이 달랐기 때문에 논쟁은 끝날 기미를 보이지 않았다. 그리고 결론이 나지 않은 상태에서 피어슨의 귀무가설과 대립가설 설정과, 피셔의 p<0.05로 기각하는 논리가 결합되어 퍼져 나간다.
Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지