Data Science/Analytics2013.05.21 09:19

   네이버 트랜드 (trend.naver.com)는 네이버에서 검색되는 키워드를 기준으로 검색량을 시계열 그래프 형태로 보여준다. 예를 들어, 최근 미국 메이저 리그에서 활약을 하고 있는 류현진을 네이버 트랜드 검색해보면, 네이버에서 류현진으로 검색된 양 추이를 알 수 있다. PC에서 검색된 검색어의 경우는 20071월부터, 모바일의 경우는 20101월부터의 검색 결과를 보여준다. 또한, 검색이 크게 증가한 지점에서 뉴스 클릭이 집중된 뉴스는 관련 뉴스 (결과 그래프 하단)로 보여준다. 그래프의 검색수치는 최대검색량을 100으로 환산한 비율로 계산한 값이며, 0은 검색량이 없거나 충분한 검색량이 없다는 의미이다.

 

   네이버 트랜드에서 키워드는 검색어 입력 창 우측의 + 버튼을 클릭하여 최대 5개의 검색어를 입력할 수 있고, 입력한 여러 검색어의 검색 추이를 한 번에 비교해 볼 수 있다. 입력된 검색어는 공백제거와 대문자 소문자 변환이 이뤄진다. 예를 들어, '모차르트검색 결과는 중간에 공백이 포함된 모차 르트검색어와 동일 검색어로 처리되며, ‘네이버블로그로 조회 시 네이버 블로그’, ‘네이버블로그가 동일하게 'nhn' 조회 시에는 ‘NHN’‘nhn’의 검색어가 동일하게 처리된다. 맞춤법 오류 및 다른 표기로 기입한 단어는 다른 검색어로 처리된다: ‘모짜르트는 다른 검색어로 처리된다.

 

참조 : 네이버 트렌드 FAQ

 

Posted by Curator jsl416
Data Science/Analytics2013.04.28 23:44

2012 IT의 화두 중 하나는 단연 빅데이터이다. 기업은 데이터가 기하급수적으로 많아지면서 어떻게 하면 늘어나는 데이터를 잘 활용할 수 있을까 고민하게 되었고, 데이터를 활용하여 기업에게 인사이트를 제공할 수 있는 사람을 가리켜 데이터 사이언티스트라고 부르고 있다.

데이터 사이언티스트는 한국말로 번역하면 데이터 과학자이다. 만약 데이터 과학자라고 불리게 된다면, 과학자의 한 명으로 인정받는 것이다.

최근에 과학자로서의 자세라는 글을 보게 되었다. 예전 학부 수업 당시 교수님이 과학자로서 가져야 할 자세라며 꼭 읽어보라고 하며 주신 글이다. 데이터 사이언티스트에 관심이 많은 이 시점에 과학자로서의 자세라는 글은 흥미로운 소재였다. 아래는 영문으로 적힌 글을 의역한 내용이다.

 

o 과학자는 기존에 있던 이론을 비판적으로 볼 수 있어야 한다. 예를 들어, Van Mannen의 명성에 의해 많은 과학자들이 은하계에서 성운의 위치를 비판 없이 받아들였는데, 사실 이것은 틀렸다.

 

o 과학자가 올바른 결정을 내리기 위한 대부분의 지식과 스킬은 개인적인 경험과 다른 과학자와의 상호작용으로부터 나온다. 이는 과학자의 작업은 홀로 하는 것이 아니라는 말이다.

 

o 가설은 엉뚱한 결과가 나오지 않도록 견고하게 짜여야 한다. 좋은 가설은 개별적인 관찰을 통합할 수 있어야 한다. 또한 중요한 점은 가설의 단순함(simplicity)이며, 다른 정제된 말로 표현하자면 고상(elegance)함이다.

 

o 과학에서부터 분리될 수 없고, 또 그래서는 안 되는 것은 가치이다. 열심히 연구하고자 하는 것은 인간적인 가치로부터 나온다. 또한 정직함과 객관성이 유지되고 관리되어야 한다.

 

o 과학분야에서 인용(citations)은 보상의 하나이다. 다른 사람들의 작업을 습관적으로 인용을 하지 않는 자들은 동료들과의 유대에서 멀어질 수 있다.

 

o 새로운 법칙을 발견하고자 하는 욕망은 증거를 무시하는 행동을 낳기도 한다.

 

o 정직한 오류와, 부주의로 인한 오류에 이어 3번째 오류는 속임(deception)에 의한 오류이다. 데이터나 결과를 날조(fabrication), 변조(falsification), 그리고 다른 사람의 작업을 정당한 인용 없이 사용하는 표절(plagiarism)이 있다. 이 모든 게 과학의 중심가치에 반하는 행위이다.

 

이상 과학자로서의 자세에 대해 알아보았다.

 

데이터 사이언티스트라면 본인의 업무를 수행할 때 위의 내용을 숙지해야 할 것이다. 예를 들어, 데이터 사이언티스트가 어떤 기업으로부터 색다른 비즈니스 기회를 찾아달라는 작업을 부탁 받으면, /그녀는 분석을 통해 기업에게 의미 있는 것을 찾아내기 위해 노력할 것이다. 하지만 아무리 분석을 해도 기업에게 유용한 정보가 나오지 않고 상식적인 수준에 그친다면, 작업을 하게 된 데이터 사이언티스트는 초조해질 수 밖에 없을 것이다. 그럴 때 상기해야 할 것이 과학자로서의 자세이다. 본인이 가진 가설에 대해 충분한 분석을 하고, 다양한 시도를 해보았지만, 기존과 다른 의미 있는 결과는 없었다는 것을 문서화 하고 발표할 수 있는 용기가 그들에게 요구된다.

또한, 그들은 기존에 상식적으로 통용되는 것에 대해 의문을 갖고 분석하는 습관을 가져야 할 것이다. 사람들이 상식적으로 알고 있는 것은 분석에 의해 명확해질 수 있다. 카이스트의 장영재 교수께서 세미나에서 소개해준 사례를 예로 들자면, 박빙의 승부에서 번트를 시도하는 것이 과연 점수를 낼 확률이 높을지에 관한 것이다. 상식적으로 생각하면, 번트를 통해 1점을 낼 확률이 다른 방법보다 더 높아 보인다. 이를 직접 분석한 결과를 보면, 무사 1루에서 번트 없이 1점 날 확률은 0.4, 무사 1루에서 번트를 시도했을 때 1점 날 확률은 0.417 0.017로 높다. , 확률적으로 아주 큰 차이가 나는 것은 아니지만, 실제로 번트를 통해 1점을 낼 확률이 더 높다.

앞으로 데이터가 많아지면 많아질수록 기업에게 데이터 사이언티스트는 없어서는 안 될 존재가 될 것이 분명하다. 그들은 과학자로서의 기본소양을 항상 숙지하고 업무를 수행해서 과학자로도 인정받는 사람이 되어야겠다.

Posted by Curator jsl416
Data Science/Analytics2013.04.16 02:37

  소셜 미디어의 등장으로 마케팅은 이제 전통적인 마케팅 영역에 더해 온라인 부문인 소셜 네트워크도 포함해서 봐야한다.

 

    마케팅 효과측정은 크게 정성적, 정량적으로 구분 지을 수 있다. 정성적에는 관계, 신뢰, 콘텐츠를 포함한다. 정량적 측정은 크게 네트워크 및 콘텐츠를 기준으로 하며 4가지 측정부문 UV(user view), PV(page view), IMP(Impression), CTR(click to through)가 있다.

 

    인지 -> 판단 -> 행동의 행동패턴에서 기존 마케팅은 인지 부분을 담당했다면, 새로운 마케팅영역은 판단 부문에 영향을 미친다.

 

   예전에 온라인상 인간행동의 모델은 AIDMA(Attention, Interest, Desire, Measure, Action) 모델을 따랐지만, 이제는 AISAS(Attention, Interest, Search, Action, Share) 모델로 변했고, 더 나아가 SearchAction 사이에 Compare가 들어갈 수 있고, 소셜 네트워크가 가미되면서 Viral(입소문) 부문도 추가 된다.

 

    앞으로의 온라인 분석대상은 청중, 영향력, 참여 및 대화로 볼 수 있다. 리드 매니지먼트에서는 내부고객뿐만 아니라 접촉자 및 단순 방문자까지 포함해서 관리하는 것으로 볼 수도 있다. 또한, 빅 마우스가 중요하다.

 

   소셜 성과분석의 기준은 세부적으로 구분해서 볼 수 있다. 수립된 다양한 성과분석 기준에서 어떤 도구를 활용해서 측정할 수 있는지 정리할 필요가 있다. 예를 들어, Google Analytics와 같은 도구를 통해 특정 키워드에 대한 빈도 분석을 할 수 있다.

 

   소셜 분석에는 크게 자체적으로 제공하는 정형화된 프레임워크 분석과 API를 통하여, Query와 데이터를 끌고 와 분석하는 두 가지 방법이 있다. 다른 말로 표현하면, 소셜 분석은 페이스북의 좋아요를 누른 팬 (내부 고객) 대상으로 하는 경우가 하나 있고, 미리 키워드를 세팅하고 그에 맞는 정보를 긁어모은 데이터로 기반하여 분석하는 형태가 있다. 예를 들어, 페이스북의 경우 자체 프레임워크로 제공하는 insights 분석이 있다. (사이트는 www.facebook.com/insights 이다.) 페이스북에서 자체적으로 제공하는 분석 프레임워크 말고, 페이스북에 관한 다양한 관점의 분석 정보를 제공해주는 Socialbakers.com 사이트도 있다.

Posted by Curator jsl416
Data Science/Analytics2012.10.26 00:56

 

  • 예측 분석(Predictive Analytics) : 예측 분석은 미래 이벤트를 예측하기 위해 현재 및 과거 사실을 분석하는 모델링, 머신 러닝, 데이터 마이닝, 게임 이론의 다양한 통계적 기술을 포함한다.(Wikipedia,http://en.wikipedia.org/wiki/Predictive_analytics)

 

 

  • 감성 분석(Sentimental Analytics) : 감석 분석 또는 오피니언 마이닝은 근본 자료에서 주관적인 정보를 선별하고 추출하기 위해 자연언어 프로세싱, 컴퓨터 언어학, 그리고 텍스트 분석의 응용을 가리킨다.(Wikipedia,http://en.wikipedia.org/wiki/Sentiment_analysis)

 

Posted by Curator jsl416
Data Science/Analytics2012.10.26 00:50

출처 : Wikipedia(http://en.wikipedia.org/wiki/Sentiment_analysis)에 나온 Sentiment 분석에 대한 소개를 요약하면 다음과 같다.

o 감성 분석의 기본 타스크는 주어진 문서, 문장, 또는 특성 레벨에서 텍스트의 양극성을 선별하는 것이다. - 문서에서 표현된 생각, 문장, 또는 엔티디 특성/모습이 긍정적인지, 부정적인지, 또는 중립적인지를 말이다. 더 나아가, "양극성을 넘어서" 감성선별은 감정적 상태, 예를 들어 "화가난", "슬픈", 그리고 "행복한"으로 나타날 수 있다.

 

o 또 다른 방법으로는 긍정적, 부정적, 또는 중립적이라고 판단된 감성에 대해 -5 ~ +5(가장 부정적에서 가장 긍정적)의 스코어를 정하는 것이다. 자연언어프로세싱을 이용해 비구조적인 텍스트를 분석할 때, 텍스트를 이해하고 그것들이 컨셉에 어떻게 관계되는지 관련 컨셉[인용 필요]이 분석된다. 각 컨셉은 감성 단어가 컨셉에 관계된 것에 기반하여 점수가 주어지고, 그것들의 연관 점수도 매겨진다.

 

o 또 다른 방법에는 Subjectivity/objectivity identification이 있다. 문장이 주관적인지, 객관적인지 파악하는 것인데, 양극성을 파악하기 전에 객관적인 문장을 배제하면 양극성 파악이 보다 용이하다고 한다.

 

o Feature/aspect-based sentiment analysis도 있다. 이는 어떤 엔티티(대상)의 특성에 대해 표현된 생각, 감성을 분석하는 것이다. 특성 또는 모습이란 엔티티(대상)의 특징 또는 요소이다. 예를 들어, 휴대폰의 스크린, 디지털 카메라의 사진 품질을 말할 수 있다. 이 분석의 어려운 점은 어떤 것이 엔티티의 요소인지 파악하는 면과, 그 요소에 대한 양극성을 선별하는 것이 이슈이다.

 

"Sentiment Analysis : A Combined Approach"에서 활용한다고 소개한 감성분석방법(P6)에는 o NLP(Natural Language Processing)와 패턴 기반 방법
o Unsupervised learning
o Maching Learning : Support Vector Machines(SVM), ID3, RIPPER
o Hybrid Classification
이 있다.

 

지금까지 정리한 것에 의하면, 감성 분석은 양극성으로 선별할 수 있고, 이를 점수를 매겨 측정하는 방법이 있다라는 것을 알 수 있다.

Posted by Curator jsl416