'기본'에 해당되는 글 1건

  1. 2013.04.28 데이터 사이언티스트가 가져야 할 기본 자세
Data Science/Analytics2013.04.28 23:44

2012 IT의 화두 중 하나는 단연 빅데이터이다. 기업은 데이터가 기하급수적으로 많아지면서 어떻게 하면 늘어나는 데이터를 잘 활용할 수 있을까 고민하게 되었고, 데이터를 활용하여 기업에게 인사이트를 제공할 수 있는 사람을 가리켜 데이터 사이언티스트라고 부르고 있다.

데이터 사이언티스트는 한국말로 번역하면 데이터 과학자이다. 만약 데이터 과학자라고 불리게 된다면, 과학자의 한 명으로 인정받는 것이다.

최근에 과학자로서의 자세라는 글을 보게 되었다. 예전 학부 수업 당시 교수님이 과학자로서 가져야 할 자세라며 꼭 읽어보라고 하며 주신 글이다. 데이터 사이언티스트에 관심이 많은 이 시점에 과학자로서의 자세라는 글은 흥미로운 소재였다. 아래는 영문으로 적힌 글을 의역한 내용이다.

 

o 과학자는 기존에 있던 이론을 비판적으로 볼 수 있어야 한다. 예를 들어, Van Mannen의 명성에 의해 많은 과학자들이 은하계에서 성운의 위치를 비판 없이 받아들였는데, 사실 이것은 틀렸다.

 

o 과학자가 올바른 결정을 내리기 위한 대부분의 지식과 스킬은 개인적인 경험과 다른 과학자와의 상호작용으로부터 나온다. 이는 과학자의 작업은 홀로 하는 것이 아니라는 말이다.

 

o 가설은 엉뚱한 결과가 나오지 않도록 견고하게 짜여야 한다. 좋은 가설은 개별적인 관찰을 통합할 수 있어야 한다. 또한 중요한 점은 가설의 단순함(simplicity)이며, 다른 정제된 말로 표현하자면 고상(elegance)함이다.

 

o 과학에서부터 분리될 수 없고, 또 그래서는 안 되는 것은 가치이다. 열심히 연구하고자 하는 것은 인간적인 가치로부터 나온다. 또한 정직함과 객관성이 유지되고 관리되어야 한다.

 

o 과학분야에서 인용(citations)은 보상의 하나이다. 다른 사람들의 작업을 습관적으로 인용을 하지 않는 자들은 동료들과의 유대에서 멀어질 수 있다.

 

o 새로운 법칙을 발견하고자 하는 욕망은 증거를 무시하는 행동을 낳기도 한다.

 

o 정직한 오류와, 부주의로 인한 오류에 이어 3번째 오류는 속임(deception)에 의한 오류이다. 데이터나 결과를 날조(fabrication), 변조(falsification), 그리고 다른 사람의 작업을 정당한 인용 없이 사용하는 표절(plagiarism)이 있다. 이 모든 게 과학의 중심가치에 반하는 행위이다.

 

이상 과학자로서의 자세에 대해 알아보았다.

 

데이터 사이언티스트라면 본인의 업무를 수행할 때 위의 내용을 숙지해야 할 것이다. 예를 들어, 데이터 사이언티스트가 어떤 기업으로부터 색다른 비즈니스 기회를 찾아달라는 작업을 부탁 받으면, /그녀는 분석을 통해 기업에게 의미 있는 것을 찾아내기 위해 노력할 것이다. 하지만 아무리 분석을 해도 기업에게 유용한 정보가 나오지 않고 상식적인 수준에 그친다면, 작업을 하게 된 데이터 사이언티스트는 초조해질 수 밖에 없을 것이다. 그럴 때 상기해야 할 것이 과학자로서의 자세이다. 본인이 가진 가설에 대해 충분한 분석을 하고, 다양한 시도를 해보았지만, 기존과 다른 의미 있는 결과는 없었다는 것을 문서화 하고 발표할 수 있는 용기가 그들에게 요구된다.

또한, 그들은 기존에 상식적으로 통용되는 것에 대해 의문을 갖고 분석하는 습관을 가져야 할 것이다. 사람들이 상식적으로 알고 있는 것은 분석에 의해 명확해질 수 있다. 카이스트의 장영재 교수께서 세미나에서 소개해준 사례를 예로 들자면, 박빙의 승부에서 번트를 시도하는 것이 과연 점수를 낼 확률이 높을지에 관한 것이다. 상식적으로 생각하면, 번트를 통해 1점을 낼 확률이 다른 방법보다 더 높아 보인다. 이를 직접 분석한 결과를 보면, 무사 1루에서 번트 없이 1점 날 확률은 0.4, 무사 1루에서 번트를 시도했을 때 1점 날 확률은 0.417 0.017로 높다. , 확률적으로 아주 큰 차이가 나는 것은 아니지만, 실제로 번트를 통해 1점을 낼 확률이 더 높다.

앞으로 데이터가 많아지면 많아질수록 기업에게 데이터 사이언티스트는 없어서는 안 될 존재가 될 것이 분명하다. 그들은 과학자로서의 기본소양을 항상 숙지하고 업무를 수행해서 과학자로도 인정받는 사람이 되어야겠다.

Posted by Insight jsl416