SMALL Apache Spark2 (Apache Spark) 인메모리 방식이란? 서론 하드웨어 관점에서, 데이터 분석 시스템은 다음과 같은 세 가지 구성요소로 이루어짐 연산을 수행하는 프로세서 처리의 대상이 되는 데이터를 저장할 저장장치 둘 사이에 데이터를 전송하는 전송 시스템 전체 데이터 분석 시스템의 성능을 저하하는 **병목(bottleneck)**은 가장 느린 구성요소 병목은 저장장치 하드디스크 시스템이 전체 시스템의 성능을 저하하는 병목 병목현상을 극복하고자 오랫동안 사용된 방법 캐시 — 메모리 — 하드디스크로 구성된 메모리 계층 구조 하지만, 무어의 법칙에 따라 CPU의 성능이 급격하게 발전하여 CPU와 하드디스크의 속도 차이가 점점 증가, 인공지능이나 빅데이터, 사물인터넷 같은 새로운 기술의 발전에 따라 IT 시스템이 처리해야 할 데이터 양이 기존의 캐시 시스템으로 지원하.. 2020. 11. 9. (Apache Spark) 개요 Spark 소개 및 특징 What is Spark? 인메모리 기반의 대용량 데이터 고속 처리 엔진 Apache Spark 는 오픈 소스 범용 분산 클러스터 컴퓨팅 프레임워크 범용적이면서도 빠른 속도로 작업을 수행할 수 있도록 설계한 클로스터용 연산 플랫폼이자 스트림 처리를 효과적으로 수행하는 인-메모리 방식의 분산 처리 시스템 최초 데이터 로드와 최종 결과 저장시에만 디스크 사용 메모리에 분산 저장하고,병렬 처리 구조 Hadoop vs Spark 디스크 입출력 방식을 인-메모리 데이터 처리 방식으로 전환 기존 맵리듀스 디스크 입출력 방식보다 평균 10~100배 정도의 속도 향상 기존 디스크 입출력에 대한 지연 시간 개선 메모리를 사용하여 반복적인 작업이나 스트리밍 데이터를 효율적으로 처리 빅데이터 애플리.. 2020. 11. 9. 이전 1 다음 반응형 LIST