본문 바로가기

프로그래밍/2. 시스템관리

[빅데이터] 빅데이터의 기반기술 2 (빅 데이터의 충격)

반응형

 


※ 본 포스팅은 '빅데이터의 충격'을 읽고 정리한 내용임을 밝혀둡니다. 

 

스트림 데이터 처리

스트림 데이터 처리는 빅데이터의 특징을 나타내는 3V 가운데, 속도(발생빈도, 갱신빈도)를 만족하기 위해서 대두된 기술이다. 지속적으로 유입되는 대량의 데이터(스트림 데이터)를 실시간으로 처리하는 기술이 스트림 데이터 처리(실시간 데이터 처리)기술이다.

 

스트림 데이터 처리에서는 입력된 데이터를 하드디스크에 기록하지 않고 메모리에서 데이터 처리가 이루어지므로 빠른 속도로 처리할 수 있다. 또한 바로 직전에 처리한 결과를 중간 데이터로서 가지고 있어 데이터를 모두 처리할 필요가 없으며, 메모리에서 흘러가는 데이터에서 중간 데이터와의 차이가 난 데이터양 만큼만 처리하면 된다. 이런 방식으로 1초당 수십만 건부터 수백만 건의 초고속 처리를 실현한다.

 

다양한 분석 기술

빅데이터에서 유용한 의미를 효율적으로 끌어낸다는 점에서 중요해지는 것은 기계학습이나 통계 분석과 같은 기술이다. 관련 기술은 다음과 같다.

 

기계학습 : 인공지응 연구 과제 중 하나로 인간의 학습 능력을 컴퓨터로 구현하는 기술 및 방법을 말한다. 샘플 데이터를 분석해 그 데이터에서 유용한 규칙, 지식표현, 판단 기준을 추출한다. 메일의 스팸 필터, 추천 엔진, 일기예보, 기기의 고장 예측, 유전자 분석 등에서 광범위하게 이용되고 있으며, 하둡에서 동작하는 머하웃이나 자바로 구현된 웨카 등 질 높은 오픈소스 기계학습 라이브러리도 공개되어 있다.

 

데이터 마이닝 : 대량의 데이터를 분석하고 그 속에 숨어 있는 항목 사이의 상호관계와 패턴을 찾는 방법으로 클러스터링이나 신경망 네트워크’, ‘회귀 분석’, ‘결정 트리’, ‘연관 분석등의 방법을 이용해 대량의 데이터 속에서 지식과 패턴을 기계적으로 찾아낼 수 있게 하는 것이다.

 

클러스터링 : 비슷한 데이터 끼리 모아 몇 개의 그룹으로 분류하는 것. 사용자를 그룹별로 분류해두고 해당 그룹에 유용한 정보를 추천하는 방식으로 많이 쓰인다.

 

신경망 네트워크 : 두뇌의 신경 회로망 계산 방식을 컴퓨터에서 구현하는 것이다. 문자 및 음성 인식처럼 패턴 인식에서 가장 잘 활용한다. 또한 신용이나 대출위험관리 등의 분야에서 활용된다.

 

회귀분석 : 특정 변수의 움직임이 다른 변수와 서로 연결 될 때 그 관계를 나타내는 구체적인 수식을 구하는 통계분석 방법이다.

 

결정트리 : 예측이나 분류에 이용하는 분석 기법으로 의사나 행동을 결정하기까지의 조건을 트리 모양으로 나타낸 것이다. 하나의 조건에서 YES일때와 NO 일 때 각각의 처리를 기술한다.

 

연관분석 : 마켓바스켓 분석이라고도 불리며, ‘A를 산 사람은 B도 사는 경향이 있다는 상황처럼 2 개 이상의 상품 중에서 함께 사는 상품의 조합을 밝히는 분석 방법이다.

 





자연어 처리와 그 밖의 기술

 

자연어 처리 : 사람이 일상적으로 의사소통에 사용하는 언어를 컴퓨터 프로그램으로 해석해서 이용하는 것이다. 대량의 텍스트 데이터로부터 유용한 정보를 추출하는 텍스트 마이닝이나 소셜 미디어에서 텍스트 마이닝을 이용한 상품과 서비스 평판 분석 등에 적용된다.

 

시멘틱 검색 : 단어를 기호로 간주해 검색하는 키워드 검색이 아니라, 검색 문장 안 품사 간의 관련성에서 언어의 의미를 분석하는 방식으로 검색의 정밀도를 높인 기술이다.

 

링크 마이닝 : 소셜 미디어와 웹 페이지 사이의 링크 구조, 메일의 송수신 관계, 논문의 인용 관계 등 다양한 온라인 연결을 분석하는 마이닝 기술이다. 소셜 미디어에서 알 수도 있는 사람(친구 추천)’이나 영향력이 큰 소설 인플레이선발견에 활용한다.

 

A/B 테스트 : 웹 페이지의 최적화를 위해 북수의 버전(AB )을 동시에 제공해 어느 쪽이 좋은 평가를 받는지를 테스트 한다. 각각의 버전에서 페이지의 콘텐츠, 디자인, 레이아웃, 설명문 등을 변경하고 실제 클릭수나 전환율을 비교해 어느 쪽이 우수한지 결정한다.

 

도움이 됐다면 버튼을 클릭해주세요.



반응형