반응형 빅 데이터3 [빅데이터] 빅데이터의 기반기술 2 (빅 데이터의 충격) ※ 본 포스팅은 '빅데이터의 충격'을 읽고 정리한 내용임을 밝혀둡니다. 스트림 데이터 처리 스트림 데이터 처리는 빅데이터의 특징을 나타내는 3V 가운데, 속도(발생빈도, 갱신빈도)를 만족하기 위해서 대두된 기술이다. 즉 지속적으로 유입되는 대량의 데이터(스트림 데이터)를 실시간으로 처리하는 기술이 스트림 데이터 처리(실시간 데이터 처리)기술이다. 스트림 데이터 처리에서는 입력된 데이터를 하드디스크에 기록하지 않고 메모리에서 데이터 처리가 이루어지므로 빠른 속도로 처리할 수 있다. 또한 바로 직전에 처리한 결과를 중간 데이터로서 가지고 있어 데이터를 모두 처리할 필요가 없으며, 메모리에서 흘러가는 데이터에서 중간 데이터와의 차이가 난 데이터양 만큼만 처리하면 된다. 이런 방식으로 1초당 수십만 건부터 수백.. 프로그래밍/2. 시스템관리 2013. 2. 12. [빅데이터] 빅데이터의 기반기술 1 (빅데이터의 충격) ※ 본 포스팅은 '빅데이터의 충격'을 읽고 정리한 내용임을 밝혀둡니다. 하둡이란? 하둡이란 오픈소스로 공개된 대규모 데이터의 분산처리 기술이다. 특히 대량의 비구조화 데이터 처리 성능이 뛰어나고, 비용이 저렴하며, 스케일 아웃으로 용량 증가에도 대응하기 쉽다는 점에서 주목받고 있다. 하둡은 구글이 2004년에 발표한 맵리듀스 : 대형클러스터의 데이터 처리 단순화(MapReduce : Simplified Data Processing on Large Clusters)라는 대규모 데이터의 분산처리에 관한 논문이 기반이 되었다. 현재는 야후와 야후에게서 갈라져 나온 호튼웍스가 중심이 되어 아파치 소프트웨어 재단에서 개발을 진행하고 있다. 맵듀리스는 분산처리라는 데이터 ‘처리 방식’이고 하둡은 이 처리 방식을 오.. 프로그래밍/2. 시스템관리 2013. 2. 11. [빅데이터] 1장 빅데이터란 무엇인가? (빅데이터의 충격) ※ 본 포스팅은 '빅데이터의 충격'을 읽고 정리한 내용임을 밝혀둡니다. 1. 빅데이터란 무엇인가? “빅데이터란 기존의 일반적인 기술로는 관리하기 곤란한 대량의 데이터 군이다.” 예를 들어 ‘기존의 일반적인 기술로는 관리하기 곤란’하다는 것은 현재 기업의 데이터베이스의 주류를 차지하는 관계형 데이터베이스로는 관리할 수 없는 복잡한 구조의 데이터를 가리킨다. 또한 데이터양이 증가해서 데이터에 대한 쿼리(질의) 응답시간이 허용 범위를 넘는 상태를 가져오는 방대한 데이터를 가리킨다. 3V로 나타내는 빅데이터의 특성 빅데이터의 특성은 다음처럼 V로 시작하는 세 가지 키워드로 나타낼 수 있다. 데이터 양(Volume) 빅데이터의 정의로 본다면 기존 기술로는 관리할 수 없는 데이터양으로 현재는 수십 테라바이트에서 수.. 프로그래밍/2. 시스템관리 2013. 2. 8. 이전 1 다음 반응형