프로그래밍/2. 시스템관리

[빅데이터] 빅데이터의 기반기술 1 (빅데이터의 충격)

핫호빵 2013. 2. 11.
반응형


 

※ 본 포스팅은 '빅데이터의 충격'을 읽고 정리한 내용임을 밝혀둡니다. 


하둡이란?

 

하둡이란 오픈소스로 공개된 대규모 데이터의 분산처리 기술이다. 특히 대량의 비구조화 데이터 처리 성능이 뛰어나고, 비용이 저렴하며, 스케일 아웃으로 용량 증가에도 대응하기 쉽다는 점에서 주목받고 있다. 하둡은 구글이 2004년에 발표한 맵리듀스 : 대형클러스터의 데이터 처리 단순화(MapReduce : Simplified Data Processing on Large Clusters)라는 대규모 데이터의 분산처리에 관한 논문이 기반이 되었다. 현재는 야후와 야후에게서 갈라져 나온 호튼웍스가 중심이 되어 아파치 소프트웨어 재단에서 개발을 진행하고 있다.

 

맵듀리스는 분산처리라는 데이터 처리 방식이고 하둡은 이 처리 방식을 오픈소스로 구현한 프레임워크.

 

데이터 처리 관점에서 중요해진 것이 구글의 논문 중 맵리듀스를 프로그램으로 구현한 하둡 맵리듀스이다.하둡 맵리듀스는 고성능 CPU와 저장장치가 탑재된 컴퓨터가 아닌 일반 컴퓨터 여러 대를 나열해 구성한 클러스터로 대규모 데이터를 분산 처리하는 프레임워크다. 대량의 데이터를 각 클러스터에 분산해서 분석하게 하고 취합하여 결과를 도출한다.

 

하둡을 통해서 비용 및 시간의 효율성이 높아짐에 따라 그동안 표본 데이터에 의존한던 분석에서 벗어나 연관된 모든 데이터를 분석할 수 있게 되었으며, 다양한 관점의 분석이 가능해졌다. 따라서 기존에는 얻을 수 없었던 가치 있는 정보를 얻을 가능성이 커졌다.

 

NoSQL 데이터베이스

 

빅데이터를 지탱하는 기반 기술로서 하둡과 함께 관심이 높아지는 기술이 NoSQL 데이터베이스이다. RDBMS와 NoSQL을 비교해보면 아래 표와 같다.



 

RDBMS 

NoSQL 

데이터 타입

구조화 데이터  비구조화 데이터가 메인 
스키마

사전에 관계 정의가 필요하며 고정적

사전에 관계 정의가 필요 없고 유연하게 변경가능(스키마 없음) 

데이터 일관성

ACID 특성에 의해 일관성이 엄밀하게 유지된다. 

일시적으로 일관성이 엄밀하게 유지되지 않는 상태가 있다(결과 정합성) 

확장성 

스케일 업이 기본. 데이터 일관성을 엄밀하게 유지하기 위한 성능저하기 있다. 

스케일 아웃 때문에 대량 데이터에 접속해서 발생하는 성능 저하가 적고 선형적으로 확장한다. 
서버  1 대에서 가동하는 것이 전제 

분산 · 협조해 동작하는 것이 전제 

장애 허용성 

장애 허용성을 높이는 비용이 비싸다. 

단일 장애점이 없는 것이 많고 비용이 싸다. 
질의 언어 

SQL 

SQL이 아닌 복수 언어 지원 
데이터 양 

NoSQL보다 상대적으로 소규모 데이터

RDBMS보다 상대적으로 대규모 데이터 


간단히 말해 NoSQL데이터의 일관성을 다소 희생하는 대신 유연성, 확정성을 추구한 데이터베이스라고 할 수 있다






주목받은 분석적 데이터베이스

 

최근 많은 기업들이 차세대 데이터 웨어하우스 제품인 분석적 데이터베이스에 관심을 쏟고 있으며 개발에 박차를 가하고 있다. 분석적 데이터베이스에는 다음과 같은 특징이 있다.

 

MPP Architecture

MPPMassively Parallel Processing의 약자다. 대규모 데이터 처리를 복수의 독립된 처리로 나누어 복수의 노드에서 병렬로 처리함으로써 처리 성능을 비약적으로 향상시키는 아키텍처다.

 

Shared Nothing Architecture

각 컴퓨터의 노드가 네트워크를 제외하고는 리소스를 공유하지 않은 채, 독립한 상태에서 자율적으로 기능하는 구조다. 따라서 단일 장애점이 없어지고 어떤 노드에서 장애가 발생하더라도 다른 노드는 영향을 받지 않는 이점이 있다.

 

칼럼 지향

기존의 관계형 데이터베이스가 행 단위로 데이터를 보유하는 데 반해 칼럼지향(열 지향) 데이터베이스는 데이터를 열 단위로 보유한다. 이에 따라 대규모 데이터를 분석할 때 관계형 데이터베이스처럼 행 전체를 읽어 들이지 않고 필요한 열만 추출할 수 있으므로 성능이 크게 향상된다.

 

데이터 압축 기능

칼럼 지향 데이터베이스는 같은 열에 문자나 수치와 같은 자료형의 정보가 나열되어 있을 가능성이 커, 그만큼 데이터 압축 효율도 높아진다. 제품에 따라 다르지만, 원본의 1/10 정도까지 데이터를 압축할 수 있다. 많은 데이터를 저장할 때 필수적인 기능이다.

 

범용 하둡에서 동작 가능

제품의 대부분은 범용 하둡에서 동작할 수 있는 소프트웨어로 설계했다. 따라서 저비용으로도 스케일 아웃할 수 있다는 장점이 있다.

 

어플라이언스로 제공

하드웨어와 소프트웨어를 하나로 묶어 각종 설정, 검사, 최적화를 사전에 시행한 어플라이언스 모델로 제공된다. 이 떄문에 설정을 최소한으로 끝내고 곧바로 이용할 수 있다.

 

하둡 지원

하둡/맵리듀스에서 처리한 데이터(출력 결과)를 빠르게 분석적 데이터베이스에 로드할 수 있는 커넥터를 제공한다. 또한 테라데이터가 사들인 애스터데이터처럼 표준 SQL로 맵리듀스를 처리하는 제품도 있다.

 

분석적 데이터베이스는 대용량의 데이터 처리에 중점을 두고 설계되었으며 하둡을 지원함으로써 비구조화 데이터에 대한 대응력도 강화한다. 또한 구조화 데이터와 비구조화 데이터를 통합해 분석함으로써 사용자에게 새로운 통찰을 제공해 줄 수 있다. 그러므로 분석적 데이터베이스와 하둡은 상반된 것이 아니라 보완 관계라고 할 수 있다.



 

도움이 됐다면 버튼을 클릭해주세요.


반응형

댓글