제목 : Why Most Published Research Findings Are False, 2005
저자 : john P.A. ioannidis
연구를 진행하면서 다수의 Fake 논문도 보았고 딥러닝, 시계열, 분류분석 등등 블로그에 아직 게재하지 않았지만 재현해본 논문들 중 다수 재현을 하기에는 논문에 수록된 정보가 적었고, 정보가 있어도 결과가 같게 혹은 비슷하게도 나오지 않은 경우가 많았다.
이 논문은 한 의사가 논문 분야에서 이 거짓된 논문들에 대해 분석하는 논문이다.
이 논문은 나의 지도교수님께서 꼭 읽어보라며 추천해주신 논문이다.
코드를 이용해 재현할 부분은 없지만 매우 유명하고 중요한 내용이므로 논문에 적힌 내용을 요약, 정리해보도록 하겠다.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
이 논문은 연구의 거짓된 발견의 문제점을 지적하고 이러한 현상이 매우 증가하고 있다고 한다.
몇몇 학자들은 높은 비복제율 즉, 다시 실험을 진행했을 때 같은 결과가 나오지 않는 비율이 높은 것이 p-value와 같은 통계적 중요성에 의해 평가된 연구에 근거해 결과를 주장하는 편리하지만 근거가 부족한 전략(strategy)의 결과라고 지적하였다.
p-value만으로는 연구를 요약하고 대표할 수 없는데도 많은 연구에 기준으로 쓰이고 있다. 그리고 p-value에 기초해 해석된 내용이 널리 퍼졌다.
연구 결과는 공식적인 통계적 유의성에 도달하는 관계로 정의가 된다.
하지만 여기서는 연구원들이 존재한다고 주장하는 관계를 target으로 잡을 것이다. (null findings 보다는)
일단, 연구 결과는 사전 확률에 의존한다.
이때 R은 (true relationships)/(no relationships)로 정한다.
R은 한 분야의 특징이 되고, 가능성이 높은 관계를 대상으로 하는지 여러개의 가설 중 하나 또는 몇 개의 관계를 대상으로 하는지에 따라 달라진다.
계산의 간결함을 위해 우리는 하나의 관계로 제한하거나 여러 개의 관계의 영향력이 똑같다고 제한을 한다.
이때 사전확률은 $\frac{R}{R+1}$이다.
이유는 사전확률이 $\frac{True}{True+No}$인데 $R = \frac{R}{R+1}$이다. 이때 사전확률에 $No$를 나눠주면 $\frac{R}{R+1}$ 형태가 된다.
여기서 실제로 관계가 있을 때 없다고 결론 내릴 확률은 $\beta$이고, 실제로 관계가 없는데 있다고 결론 내릴 확률은 $\alpha$이다.
이때, 사후확률은 PPV이고 $PPV = (1-\beta)R/(R-\beta R+\alpha)$가 된다.
자세한 확률은 논문을 확인해보면 Table 1에 있다.
우리는 여기서 연상할 수 있는 것이 편향과 세계적으로 독립된 팀들의 실험반복이 현상을 왜곡하고 정말 true일 가능성을 작게 만든다. 즉, 잘못된 결과를 얻을 가능성이 커진다.
Bias
먼저, Bias 즉, 편향은 여러 데이터, 분석 등의 결합이다.
여기서 bias는 variability와 혼동하면 안된다.
variability는 연구 설계, 데이터 등이 모두 완벽해도 우연히 일부의 결과가 거짓이 되는 것이다.
선택적이거나 왜곡된 결과는 bias의 전형적인 형태이다.
$u$는 연구 결과가 아닌 조사된 분석의 비율이다. 하지만 그럼에도 bise때문에 그렇게 보고가 된다.
우리는 $u$가 실제 true 관계 존재 여부에 의존하지 않는다고 가정할 수 있다.
자세한 확률은 Table 2에 있다.
확률에 따르면 bias가 증가하면 연구 결과가 true일 가능성이 상당히 줄어든다. 즉, 역의 관계이다.
이와 반대로, 연구 결과는 종종 reverse bias에 의해 취소가 되기도하다. 즉, 잘못된 결과를 얻을 수 있다.
연구자가 틀릴수도 있고, 숨길수도 있다. 이 빈도에 대한 근거는 아직 없다. 하지만 흔하지 않고, error와 비효율적인 데이터 사용은 문제가 줄어들고 있다.
하지만 아마 reverse bias는 흔하지 않다. 게다가 측정오류와 비효율적인 데이터 사용은 덜 빈번한 문제이다.
reverse bias는 bias와 동일한 방식으로 모델링이 가능하고, 또한, 우연으로 인해 true 관계를 놓칠 수 있는 chance variability(예측모델에 내재된 오류 즉, 예측값과 실제값의 차이)와 혼동되어서는 안된다.
Testing by Several Independent Teams
몇몇 팀들은 같은 연구질문을 다루고 있을 수 있다.
불행히도, 지금까지 우세한 사고방식은 한 팀의 고립된 발견에 초점을 맞추고 고립된 상태에서 연구을 해석하는 것이었다.
점점 더 많은 질문들이 적어도 하나의 연구를 가지고 있고, 일방적인 관심을 받고 있다.
연구 수에 따른 PPV의 변화는 Table 3를 확인하면 된다.
이것은 독립적인 연구 수가 증가하면 PPV가 감소한다는 것이다.
Corollaries
위 사항들을 기초해서 연구결과가 정말로 진실일 확률에 대한 몇가지 결과를 추론할 수 있다.
1. 수행된 연구가 작을수록, 연구 결과가 진실일 가능성은 적어진다.
- 다른 요소들이 다 같다면, 큰 연구를 수행하는 분야의 연구결과가 진실인 가능성이 더 높다.
2. effect size가 작을 수록, 연구 결과가 진실일 가능성은 적어진다.
- 같은 선에서 생각해보면, effect size가 매우 작다면 그 분야에서 거짓 양성 즉, 제 1종 오류의 주장에 의해 어려움을 겪을 가능성이 높다.
3. 수가 많고 검정된 관계 선택은 적을수록, 연구 결과가 진실일 가능성은 적어진다.
- 연구결과는 확증적인 분석 또는 메타분석일 때 진실일 가능성이 더 높다.
- 유용하고 창의적이고 많은 정보가 주어진 분야는 PPV가 낮아야한다.
4. 설계, 정의, 결과, 분석적 모드 에서 유연성이 높을수록, 연구 결과가 진실일 가능성은 적어진다.
- 유연성은 부정 -> 긍정으로 결과가 변화되는 잠재력을 증가시킨다. 그러므로 표분화를 통해 true 결과의 비율을 증가시킨다.
- 정형화된 방법은 true 결과의 비율이 크고, 오직 시험과 best 결과만 보고 하면 true 결과의 비율이 작다.
- 엄격한 연구 설계에서도 bias는 주요한 문제이다.
5. 재정과 다른 이익, 편견이 많을수록 연구 결과가 진실일 가능성은 적어진다.
- 편견은 과학적 이론에 대한 믿음, 그들 자신의 결과에 대한 약속 때문이다.
- 아니면 대학 기반의 연구들이 승진이나 재직기간을 위해 다른 이유없이 수행될 수 있다.
- 권위가 있는 연구자들은 통료 평가 과정을 통해 자신의 결과를 반박하는 결과의 출현과 유포를 억제할 수 있다.
6. 분야가 더 뜨거울수록, 연구 결과가 진실이 가능성은 적어진다.
- 많은 팀이 관여할 때 PPV는 감소한다.
- 이것은 때때로 큰 관심을 끄는 분야에서 실망이 빠르게 뒤따르는지 설명할 수 있다.
- 많은 팀이 동일한 분야에서 작업하고 거대한 데이터가 생성됨에 따라 경쟁을 이기는데 타이밍은 필수적이다. 즉, 각 팀은 가장 인상적인 긍정 결과를 추구하고 전파하는 것에 우선순위를 둘 수 있다.
- Proteus phenomenon은 극단적인 주장과 극단적으로 반대되는 반박을 빠르게 번갈아하는 현상을 묘사한다.(통계적 편향)
Corollaries는 각각 분리되어 생각되기도 하지만 종종 서로에게 영향을 미치기도 한다. 예를 들어 effect size가 적은 분야에서 일하는 연구자가 큰 분야에서 일하는 연구자보다 큰 연구를 수행할 가능성이 높다. 또는 뜨거운 분야에서 편견이 만연해 연구 결과의 예측 가치를 더욱 더 훼손할 수 있다.
Most Research Findings Are False for Most Research Designs and for Most Fields
PPV는 50%가 넘는 것이 매우 어렵다.
다양한 상황에 대한 PPV를 계산해본 결과가 Table 4에 있다.
이를 결과를 해석해보면 잘 수행되는 무작위 실험에서 결과는 사전 확률 50%부터 약 85%가 된다.
또한 좋은 퀄리티의 무작위 실험의 확중적 메타분석에 대해서도 약 85%로 예상이 된다.
하지만 낮은 검정력을 수정하기 위해 풀링을 사용한 결론적이지 않은 메타분석 결과는 R이 1:3 이하일 때 거짓일수도 있다.
초기 임상실험의 결과는 4번 중 1번 또는 편견이 있는 경우에는 사실일 가능성이 훨씬 적어진다.
전염병학의 연구에서는 R이 1:10일 경우, 잘 작동하더라도 20%로 예상이 된다.
마지막으로 테스트된 관계가 실제 관계의 1000배를 초과하는 방대한 테스트를 통한 discovery-oriented 연구에서 PPV는 극히 낮다. 심지어 표준화를 해도 낮다.
Claimed Research Findings May Often Be Simply Accurate Measures of the Prevailing Bias
현대 생물학 연구의 대다수는 사전 및 사후 확률이 매우 낮다.
연구 분야에서 발견할 수 있는 결과가 전혀 없다고 가정해보자. 과학의 역사는 우리에게 과학적 정보가 전혀 없는 헛된 노력만들인 분야에서 현재의 이해에만 근거하여 종종 과학적 노력을 했다는 사실을 가르쳐준다.
PPV가 매우 낮은 분야의 경우, 소수의 관계는 전체를 왜곡하지 않는다.
전통적으로 연구자들은 크고 매우 중요한 영향을 중요한 발견의 사인으로 보았습니다.
매우 크고 중요한 영향은 현대 연구의 대부분 분야에서 큰 편향의 사인일 가능성이 높습니다.
그래서 연구자들은 데이터, 분석, 결과에서 잘못된 것이 있는지 신중하게 생각해야합니다.
How Can We Improve the Situation?
어떤 주요한 문제도 100% 확실성을 갖는 것은 불가능하다.
하지만 몇몇 방법은 사후확률을 향상시킬 수 있다.
먼저, 대규모 연구나 편향이 적은 메타 분석이 도움이 될 수 있다. 하지만 대규모 연구는 편견이 존재하며 수백만개의 연구 질문에 대규모 연구를 하는 것은 불가능 하다.
대규모 연구는 사전 확률이 이미 높은 연구를 대상으로 하며, 사후 확률로 이어지는 것이다.
또, 대규모 연구는 구체적인 질문 보다는 주요 개념을 테스트 할 때 하는 것이다. 그러면 특정 주장이 아닌 전체 분야나 그 상당한 일부를 반박할 수 있다.
그리고 대규모 연구는 실질적으로 무효한 값인 사소한 효과에 대해 통계적으로 유의한 차이를 보인다고 나올 가능성이 높을 수 있다. 이것을 주의해야한다.
두번째는 대부분 연구는 많은 팀에서 다루며, 하나의 팀의 유의한 결과를 강조하는 것은 주의해야한다.
중요한 것은 증거의 총량이다. 향상된 연구 기준을 통해 편견을 줄이는 것이 도움이 될 것이다.
하지만 이것은 어려우므로 무작위 실험과 같은 연구의 사전 등록을 통해 도움을 받을 수 있다.
분야에서 데이터 수집 또는 연구자들을 등록하고 연결하는 것이 각 가설 실험을 등록하는 것보다 더 가능성이 있다.
마지막으로, 통계적 중요성을 추정하기 보다는 R 값의 범위 이해를 향상시켜야한다.
실험을 실행하지 전에 진실이 아닌 것을 검정하고 있을 가능성을 고려해야한다.
그리고 확립된 것으로 간주되는 연구들에 대해 대규모 연구를 통해 실제로 확인이 되는지 확인해야한다.
새로운 발견은 낮은 사전확률을 가진 가설 검정 연구로부터 나올 것이다.
단일 연구의 보고가 관련된 분야와 외부에서 얼마나 검증되었는지 알지 못한 채 부분적인 것만 제공하는 것을 인정해야한다.
관련 연구분야와 연구설계를 통해 조사된 것들 중 얼마나 많은 관계가 참일 것으로 예상되는지 근사하게 가정하는 것은 불가피하다.
광범위한 분야는 고립된 연구 프로젝트에 대한 확률을 추정하기 위해 몇가지 유도를 할 것이다.
다른 인근의 분야에서 발견된 bias의 경험도 유용하게 쓰일 것이다.
이러한 가정들이 매우 주관적일지라도, 연구 주장을 해석하고 문맥에 그 주장을 넣는데 매우 유용할 것이다.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
여기까지가 내가 이해하고 해석한 논문의 내용이다.
예시가 의학 분야와 관련되기도 했고 문장이 길고 익숙하지 못한 단어들이 꽤 있어 해석하는데 어려움이 많았다.
매우 유명한 논문이고 퀄리티도 높은 논문이라고 알고 있다. 그래서인지 매우 딥한 내용을 다루고 있었고 짧은 논문이지만 이해하는데 많은 시간을 쏟았다.
이 논문에서 말하는 바는 현재 진실이라고 믿고있는 부분들이 또, 앞으로의 많은 연구들이 틀린 사실을 맞다고 말하고 있을지도 모른다는 것 같다.
fake 논문도 그렇고 내가 연구를 진행하면서 재현을 시도했을 때 재현이 불가능한 논문이 꽤 많았고, 재현을 하더라도 값이 다른 경우가 꽤 있었다.
유용한 모델을 숨긴 것인지 아니면 잘못된 결과를 얻은 것인지 아니면 데이터나 결과를 조작한 것인지는 모른다.
혹은 내가 틀린 것일지도 모른다.
하지만 대부분 모델이나 세부 데이터에 대한 설명이 부족해 모델을 재현하기 어려운 경우가 상당수였다.
특히, 분류분석, 딥러닝 부분에서는 파라미터나 layer에 의해 결과가 천차만별로 달라지고, 주가 예측에서는 데이터나 변수가 너무나도 다양하다.
그러므로 재현을 위해서는 자세한 설명이 필요한데 그렇지 못한 경우가 많아 재현을 할 수 없었다.
나의 결과를 얻기 위해서 다른 논문들의 결과가 재현이 되는지가 우선이라고 배웠다.
하지만 다른 논문들의 결과가 재현되지 않는 것을 보고 많이 힘들었다.
이 논문이 많은 생각을 하게 만드는 논문이었다고 생각한다.
+) 해석을 하는데 너무 어려웠습니다. 혹시 틀린 해석이나 내용이 있다면 댓글 달아주시면 감사할 것 같습니다.
'논문 > 논문 리뷰' 카테고리의 다른 글
논문리뷰 4. 주가 예측(2) (0) | 2023.04.21 |
---|---|
논문리뷰 4. 주가 예측(1) (0) | 2023.04.21 |
논문 리뷰 2. Stock Price Movement Prediction Using Sentiment Analysis and CandleStick Chart Representation() (0) | 2023.03.08 |
논문 리뷰 2. Stock Price Movement Prediction Using Sentiment Analysis and CandleStick Chart Representation(1) (0) | 2023.02.21 |
논문 리뷰 1. Stock Market Forecasting Using Machine Learning Algorithms (0) | 2023.02.08 |