빅데이터 정의, 등장 배경, 특징과 의미
빅데이터란 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고 생성 주기도 짧고 형태도 수치 데이터뿐만 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다. 빅데이터 환경은 과거에 비해 데이터의 양이 급증했다는 점과 함께 데이터의 종류도 다양해져 사람들의 행동은 물론 위치정보와 SNS를 통해 생각과 의견까지 분석하고 예측할 수 있습니다.
1. 빅데이터의 정의와 등장 배경입니다
디지털 경제의 확산으로 우리 주변에는 규모를 가늠할 수 없을 정도로 많은 정보와 데이터가 생산되는 '빅데이터(Big Data)' 환경이 도래하고 있습니다. 빅데이터란 과거 아날로그 환경에서 생성된 데이터에 비해 그 규모가 방대하고 생성 주기도 짧으며 형태도 수치 데이터뿐만 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말합니다.
PC와 인터넷, 모바일 기기 이용이 생활화되면서 사람들이 곳곳에 남긴 발자국(데이터)은 기하급수적으로 증가하고 있습니다(정영찬2012a). 쇼핑의 예를 들어보겠습니다. 데이터의 관점에서 보면 과거에는 가게에서 물건을 살 때만 데이터가 기록되어 있었습니다. 반면 인터넷 쇼핑몰의 경우에는 구매를 하지 않아도 방문자가 돌아다닌 기록이 자동으로 데이터로 저장됩니다. 어떤 상품에 관심이 있는지, 얼마나 쇼핑몰에 머물렀는지 알 수 있습니다. 쇼핑뿐만 아니라 은행, 증권과 같은 금융거래, 교육과 학습, 여가활동, 자료검색과 이메일 등 하루 대부분의 시간을 컴퓨터와 인터넷에 할애하고 있습니다. 사람과 기계, 기계와 기계가 서로 정보를 주고받는 사물지능통신(M2M, Machine to Machine)의 확산도 디지털 정보가 폭발적으로 증가하는 이유입니다.
사용자가 직접 제작하는 UCC를 비롯한 동영상 콘텐츠, 휴대폰이나 SNS(Social Network Service)에서 생성되는 문자 등은 데이터의 증가 속도뿐만 아니라 형태나 질에서도 기존과는 다른 양상을 보이고 있습니다. 특히 블로그나 SNS에서 유통되는 텍스트 정보는 내용을 통해 글을 쓴 사람의 성향뿐만 아니라 소통하는 상대방의 연결 관계까지도 분석이 가능합니다. 게다가 사진이나 동영상 컨텐츠를 PC를 통해서 이용하는 것은 이미 일반화 되어 있고, 방송 프로그램도 TV 수상기를 통하지 않고 PC나 스마트폰으로 보는 세상입니다.
트위터(twitter)에서만 하루 평균 1억5500만 건이 발생하고 유튜브(YouTube)의 하루 평균 동영상 재생 건수는 40억 회다. 글로벌 데이터 규모는 2012년에 2.7 제타바이트, 2015년에는 7.9 제타바이트로 증가할 것으로 예측하고 있습니다(IDC, 2011). 제타바이트는 1000엑사바이트(exabyte)이고, 1엑사바이트는 미 의회도서관 인쇄물의 10만 배에 해당하는 정보량입니다(Lynman, P., & Varian, H., 2003).
주요 도로와 공공 건물은 물론 심지어 아파트 엘리베이터 안에까지 설치된 CCTV가 촬영하고 있는 영상 정보의 양도 상상을 초월할 정도로 엄청납니다. 그야말로 일상생활 행동 하나하나가 빠짐없이 데이터로 저장되어 있는 셈입니다.
민간 분야뿐만 아니라 공공 분야도 데이터를 양산 중입니다. 인구조사를 비롯한 다양한 사회조사, 국세자료, 의료보험, 연금 등의 분야에서 데이터가 생산되고 있습니다. 스마트 워크의 본격화도 데이터 증가를 가속화할 전망입니다」(방송통신위원회, 2011).
2. 빅데이터의 특징과 의미입니다.
빅데이터의 특징은 3V로 요약하는 것이 일반적입니다.즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미합니다(O'Reilly Radar Team, 2012). 최근에는 가치(Value)라든지 복잡성(Complexity)을 덧붙이기도 합니다.
이처럼 다양하고 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원으로 활용할 수 있다는 점에서 주목받고 있습니다. 대규모 데이터를 분석하여 의미 있는 정보를 찾아내는 시도는 이전에도 존재했습니다. 하지만 현재의 빅데이터 환경은 과거에 비해 데이터의 양은 물론 질과 다양성 측면에서 패러다임 전환을 의미합니다. 이러한 관점에서 빅데이터는 산업혁명 시기의 석탄처럼 IT와 스마트 혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천으로 간주되고 있습니다(McKinsey, 2011).
기업은 보유하고 있는 고객 데이터를 활용하여 마케팅 활동을 활성화하는 고객 관계 관리(CRM, Customer Relationship Management) 활동을 1990년대부터 시작했습니다. CRM이란 기업이 보유한 데이터를 통합하는 데이터 웨어하우스(Dataware house), 고객 데이터 분석(Data Mining)을 통한 고객 유지 및 이탈 방지 등의 다양한 마케팅 활동을 하는 것을 의미합니다. 기업의 CRM 활동은 자사 고객 데이터뿐만 아니라 제휴사의 데이터를 활용한 제휴 마케팅도 포함합니다. 최근에는 구매 이력 정보와 웹로그 분석, 위치기반서비스(GPS) 결합을 통해 소비자가 원하는 서비스를 적기에 적절한 장소에서 제안할 수 있는 기술 기반을 갖추고 있습니다.
이러한 고객 분석은 빅데이터 시대를 맞아 전환점을 맞고 있습니다. 분산 처리 방식과 같은 빅데이터 기술을 활용해 과거와 비교할 수 없을 정도의 대규모 고객 정보를 빠른 시간 내에 분석할 수 있습니다. 트위터와 인터넷에 생성되는 기업 연관 검색어와 댓글을 분석하여 자사의 제품과 서비스에 대한 고객 반응을 실시간으로 파악하여 즉시 대처하고 있습니다.
소프트웨어와 하드웨어도 오픈소스 형태의 Hadoop이나 분석용 패키지인 R과 분산 병렬 처리 기술, 클라우드 컴퓨팅 등을 활용하면 기존의 높은 스토리지와 데이터베이스를 기반으로 고비용 데이터 웨어하우스를 구축하지 않고도 효율적인 시스템 운용이 가능합니다.
특히 빅데이터에 기반한 분석 방법론은 과거에 불가능했던 것을 가능하게 하고 있습니다. 구글은 독감과 관련된 검색어 빈도를 분석해 독감 환자 수와 유행 지역을 예측하는 인플루엔자 동향 서비스를 개발했다(google.org/flutrends)). 이는 미국 질병관리본부(CDC)보다 예측력이 뛰어난 것으로 나타났습니다.
데이터 규모가 중요하다는 것을 확인시켜 준 사례로는 구글의 자동번역 시스템이 있습니다. 구글은 수천만 권의 도서 정보와 유엔과 유럽의회, 웹사이트 자료를 활용해 64개 언어 간 자동번역 시스템 개발에 성공했습니다. IBM도 캐나다 의회 문서를 활용해 영어·프랑스어 자동번역 시스템 개발을 시도했지만 실패한 경험이 있습니다. 이는 기술의 차이보다는 사용 데이터의 규모 차이에 따른 결과로 평가합니다. 서울시장 보궐선거도 새로운 데이터 분석의 효과를 입증한 사례입니다. 전통적인 여론조사 결과는 선거 당일까지 근소한 차이의 승부를 예상했지만 트위터 분석은 당선자 측의 우위를 예측했기 때문입니다.
기업의 빅데이터 활용은 고객의 행동을 미리 예측하고 대처 방안을 마련하여 기업 경쟁력을 강화시키고 생산성 향상과 비즈니스 혁신을 가능하게 합니다(McKinsey, 2011).
공공기관 입장에서도 빅데이터의 등장은 시민들이 요구하는 서비스를 제공할 수 있는 기회로 작용합니다. 이것은 「사회적 비용 절감과 공공 서비스의 품질 향상」을 가능하게 합니다. 미국 대통령과학자문위원회는 2010년 발간한 '디지털 미래전략(Designinga Digital Future)' 보고서에서 "모든 연방정부기관은 빅데이터 전략이 필요하다"고 강조했습니다. 2012년 열린 다보스 회의에서도 위기에 처한 자본주의를 구하기 위한 '사회기술 모델(Social and Technological Models)'을 제시하며 '빅 데이터'가 사회 현안 해결에 강력한 도구가 될 것으로 예측했습니다(Vital Wave Consulting, 2012). 한국의 국가정보화전략위원회도 2011년, 「빅 데이터를 활용한 스마트 정부 실현(안)」을 보고했습니다. 빅데이터는 민간기업은 물론 정부를 포함한 공공부문의 혁신을 수반하는 패러다임의 변화를 의미합니다.
댓글