Data Science/BigData2012.11.17 00:23

빅데이터는 새롭지 않다. 빅데이터는 기존과 다른 완전히 새로운 이론이나 원칙이 아니며, 현 시대의 현상이다. 빅데이터 시대에서도 데이터를 분석 하는 방법은 기존과 동일하다. , 이제는 다양한 데이터를 빠르게 분석해야 하는 상황에 왔다 - 이러한 이유로 데이터의 패턴을 쉽고 빠르게 표현할 수 있는 시각화가 중요해지고 있는 상황이다.

빅데이터란 무엇일까?

빅데이터는 흔히 3V로 정의할 수 있다. 여기서 3V Variety(종류), Velocity(속도), Volume(크기)를 말한다. 다양한 종류의 데이터가 빠른 속도로 생성되어 엄청난 크기의 데이터를 만들어 내서, 기존의 데이터 처리 기술로 저장, 처리, 관리, 분석하기 힘든 데이터를 빅데이터라 할 수 있다.

빅데이터 시대에서 종류(Variety)가 다양하게 된 계기는 비구조적 데이터 (Multi-structured)가 모바일, 2.0, SNS 등에서 발생하는 것이 큰 원인이 되었다. 이러한 비구조적인 데이터는 현재 생성되는 데이터의 용량 대비 80% 정도라고 한다.

데이터가 생성되는 속도(Velocity)는 가히 놀랍다. 작년까지 기업이 관리하는 데이터가 1.8 ZB였다면, 2015년에는 이의 4배가 넘는 7.9 ZB 크기의 데이터가 생성/관리된다고 한다. ZB는 제타 바이트 Zetta byte의 약자로, 1ZB 바이트는 현재 하드디스크에 많이 쓰이는 1TB(테라 바이트)의 백 만배에 달하는 숫자이다.

위의 맥락과 함께, 과거보다 빠른 속도로 생성되는 데이터의 축적은 데이터의 크기(Volume)를 기하급수적으로 증가시키는 결과를 낳았고 앞으로 계속될 것이다.

빅데이터란 개념이 생겨날 수 있게 된 계기는 무엇일까? 가장 큰 주요 원인으로는 기술의 발전을 들 수 있다. 스마트폰의 대중화, SNS의 보편화, 하드디스크 가격의 저하, 컴퓨터 CPU의 속도 향상 및 가격 하락 등, 이 모든 것이 빅데이터에 기여하고 있는데, 이는 기술의 발전으로 가능하게 되었다.

그렇다면, 빅데이터 시대 전후를 기준으로 달라진 점은 무엇일까?

첫 번째로 데이터의 처리 속도에 있다. 데이터를 저장 및 관리할 수 있는 속도가 기술의 발전으로 엄청나게 빨라졌다. 또한, 인메모리(In-memory) 방식의 데이터 분석이 가능해지고 있기 때문에 분석 결과를 보다 빨리 볼 수 있게 되었다. 데이터 분석 도구인 R SAS 모두 인메모리 방식을 지원하여, 데이터의 처리 속도를 확연히 향상시켰다. 데이터 분석을 시각화를 통해 보다 편리하게 분석하게 해주는 Spotfire Tableau 역시 이러한 인메모리 기능을 도입하는 추세이다. 따라서 데이터를 처리 속도가 눈에 띄게 향상된다. 컴퓨터 하드디스크를 SSD로 바꾸면, 컴퓨터 부팅 속도 및 게임 실행 속도가 확연히 빨라지는 것과 같은 이치이다.

두 번째는 기존보다 다양하고 많아진 데이터를 저장 및 분석함으로써, 예측 및 분석결과가 보다 정확해질 수 있다. 예를 들어, 기존에는 고객 행동에 대한 패턴을 알아보기 위해서는 고객이 제공하는 설문 결과에 의존하였지만, 지금은 불특정 다수의 고객이 발생하는 소셜 데이터, 다수의 고객이 홈페이지에서 생성하는 로그 데이터, 다양한 고객의 의견을 접수하는 콜센터 데이터 등을 통해 다수 고객의 성향 및 행동 범위를 보다 정확하게 파악하는 것이 가능해졌다. 보안에 유의하면서 얻어진 다양한 데이터는 고객 행동 유형을 파악하게 하는데 큰 기여를 할 수 있다.

결론적으로, 향상된 데이터 처리 속도 기반에서 다양한 데이터를 볼 수 있는 능력과 이를 분석해서 어떤 가치 있는 결과를 얻을 수 있다면, 비로서 빅데이터 시대가 기존의 데이터 분석시대와 다른 의미를 가질 수 있을 것이다. 또한, 이러한 일을 하는 사람들은 데이터 과학자(Data Scientist)로 인정받고 활동할 수 있는 시대가 온 것이다.

2012.11.17. JS

Posted by Insight jsl416