본문 바로가기
퀀트

데이터의 윤리 – 숫자는 거짓말하지 않지만, 해석은 거짓말한다

by 퀀트쟁이 2025. 10. 31.
반응형

⑦ 데이터의 윤리

숫자는 거짓말하지 않지만, 해석은 거짓말한다


“데이터는 진실을 말한다.”
그렇다면 왜 같은 데이터를 보고도
한쪽은 “매수 신호”를, 다른 쪽은 “폭락 경고”를 외칠까?

이유는 단순하다.
데이터는 인간의 손끝에서 다시 ‘해석’되기 때문이다.

퀀트의 세계는 숫자의 세계처럼 보이지만,
그 안에는 여전히 욕망과 확증, 그리고 자기합리화의 그림자가 있다.


1. 왜: 데이터는 중립적이지만, 인간은 중립적이지 않다

우리는 “데이터 기반 투자”라는 말을 들으면
객관적이고 냉철한 세계를 떠올린다.

하지만 그 데이터를 수집하고 정제하고 해석하는 건 인간이다.
즉, 데이터는 객관적이지만 데이터 분석은 주관적이다.

예를 들어보자.
어떤 투자자는 “PER 10 이하면 저평가”라고 정의하고,
다른 투자자는 “PER 5 이하는 진짜 저평가”라고 주장한다.
둘 다 데이터를 사용하지만, 기준의 차이가 결과를 바꾼다.

이건 단순한 기준의 문제가 아니다.
행동경제학적으로 보면 이는 확증편향(Confirmation Bias)의 연장이다.
우리는 자신이 믿고 싶은 데이터를 선택하고,
그 데이터를 “증거”라 부른다.


2. 무엇: 퀀트를 타락시키는 세 가지 ‘데이터의 죄’

데이터가 우리를 속이는 게 아니라,
우리가 데이터를 자신에게 유리하게 변형하기 때문이다.

다음은 퀀트의 세계에서도 자주 발생하는 세 가지 왜곡이다.

유형 설명 투자에서의 실제 예시
① 백테스트 오염 (Backtest Contamination) 과거 데이터를 ‘이미 알고 있는 상태’에서 전략을 조정 “이 시점엔 금리 인상 직전이었으니까 그건 빼자.”
② 과최적화 (Overfitting) 우연한 패턴을 전략으로 착각 “2002~2007년엔 이 조합이 완벽했어!”
③ 생존자 편향 (Survivorship Bias) 실패한 종목을 제외한 데이터만 분석 “과거 ETF 성과가 높았네!” → (망한 ETF는 제외된 결과)

이 세 가지는 퀀트를 ‘숫자로 포장된 자기위안’으로 만든다.
결국 우리는 “데이터로 투자한다”고 말하지만,
실은 “자신의 믿음을 숫자로 증명하고 있을 뿐”이다.


3. 어떻게: 데이터 해석에 윤리를 세워라

퀀트의 윤리는 도덕이 아니라 절차의 투명성이다.
즉, “무엇을, 언제, 왜” 했는지를 명시하는 습관이 윤리다.

(1) 검증과 훈련 데이터를 분리하라

  • 전략을 개발할 때 전체 데이터를 한 번에 쓰지 말고,
    70%는 ‘훈련용’, 30%는 ‘검증용’으로 나눠라.
  • 훈련 데이터에 맞춘 전략은 과거에만 통하고 미래에선 망한다.
  • 윤리란, 유혹(최적화)을 스스로 차단하는 설계다.

(2) 실패 데이터를 숨기지 마라

  • 잘 된 케이스만 기록하는 순간, 당신의 시스템은 신앙이 된다.
  • 전략이 깨졌던 구간을 공개하고 기록하라.
  • 실패의 투명성이 퀀트의 신뢰도를 만든다.

(3) 숫자에 철학을 입혀라

  • 데이터는 방향을 알려주지만,
    그 방향이 당신의 원칙과 맞는지는 다른 문제다.
  • 수익률 15%의 전략이 윤리적이지 않다면,
    당신의 시스템은 이미 인간보다 위험하다.

4. 예시: 데이터 해석이 만든 투자 실패의 역사

(1) 롱텀캐피탈매니지먼트(LTCM)의 몰락

노벨상 수상자들이 만든 초정밀 수학 모델이 있었다.
수천 개의 방정식, 완벽한 백테스트.
그들은 “과거의 상관관계는 절대 무너지지 않는다”고 믿었다.
하지만 러시아 디폴트 사태로 시장 구조가 바뀌자,
모델은 현실을 따라잡지 못했고 펀드는 폭발했다.
데이터는 과거를 설명했지만, 미래는 설명하지 못했다.

(2) 과최적화의 전형 – 1990년대 미국 모멘텀 붐

수많은 펀드가 모멘텀 전략으로 폭발적인 수익을 올렸다.
하지만 그들은 동일한 기간의 동일한 데이터에 기반해 있었다.
즉, 모두 같은 패턴을 학습한 집단적 착각.
결국 시장이 구조를 바꾸자, 전략은 동시에 무너졌다.


5. 실전 조언: 윤리적 퀀트를 만드는 다섯 가지 원칙

  1. 데이터는 검증의 도구, 믿음의 증거가 아니다.
    당신의 전략이 맞는지 증명하려 하지 말고, 틀린 점을 찾아라.
  2. 최적화보다 단순함을 택하라.
    변수가 많을수록 결과는 불안정하다.
    단순한 규칙이 시장을 오래 견딘다.
  3. 과거 데이터의 기간을 명시하라.
    백테스트의 범위를 숨기지 마라.
    “이 전략은 2003~2023년 데이터 기준이다” — 이 한 줄이 윤리다.
  4. 수익률보다 재현성을 중시하라.
    수익률 100%보다, 다른 사람도 같은 방식으로 재현 가능한 전략이 진짜다.
  5. 데이터를 신처럼 대하지 마라.
    데이터는 나침반이지, 목적지가 아니다.
    방향을 알려주지만, 걸을지는 당신의 철학이 결정한다.

6. 결론: 데이터가 진실을 말하게 하려면, 해석자가 정직해야 한다

데이터는 거짓말하지 않는다.
그러나 욕망은 데이터를 이용해 거짓을 말한다.

퀀트의 윤리는 도덕적 구호가 아니라,
“유혹을 방지하는 구조”다.
숫자를 믿는다는 건,
그 숫자를 해석하는 나 자신을 의심하는 일이다.

결국 데이터의 윤리란
“정확히 맞히는 능력”이 아니라
“틀릴 때를 인정할 용기”다.

반응형