티스토리 뷰

클라우데라에서 임팔라를 사용하여 데이터 분석하는 법



1.    클라우데라 설치


1. 클라우데라 설치


Cloudera홈페이지에서 QuickStart를 다운받는다. 





   비워진 칸에 정보를 입력하고 컨티뉴를 누르면 다운받을 수 있다.



2. 클라우데라 실행


클라우데라를 설치하고 실행시키면 Centos 배경에서 Cloudera가 실행된다.

Analyze Your Data 를 누르면 다양한 에코 시스템을 사용해서 데이터를 분석할 수 있다.





화면을 들어가면 Impala를 이용하여 테이블을 만들거나 데이터를 분석할 수 있다.






3. 데이터 넣기


    Centos 데스트탑 환경이기 때문에 UI가 지원된다 그래서 FTP를 사용하지 않아도 쉽게 넣을 수 있다




      2.    데이터 분석 및 시각화


   1. 테이블생성


쿼리문 작성을 작성한다.


CREATE EXTERNAL TABLE SUBWAY_DATA6 (subway_day int, linename STRING, stationname STRING, innum INT, outnum int, enrollment_day int)

PARTITIONED BY (dataday int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE

LOCATION '/USER/hive/warehouse';


    2. 테이블에 데이터 적용


임팔라가 overwrite를 지원하지 않아서 데이터로드는 하이브를 사용하였다. 

콘솔을 이용하여 데이터 로드를 할수도 있지만 터미널로 생성하는 법을 적어두었다.

hive와 다양한 시스템들이 기본적으로 home 디렉토리에 깔려있기 떄문에 바로

hive 라는 명령어는 치면 hive로 들어갈 수 있다





다음 테이블을 DESCRIBE 명령어로 확인한 다음 데이터를 넣는다.






이렇게 데이터를 넣고 재부팅을 하면 테이블을 보면 데이터가 들어간 것을 샘플로 확인 가능하다




     3. 데이터 분석


데이터 분석을 하는 SELECT문을 입력하면 자동으로 Result가 뜬다.

그리고 차트 버튼을 누르면 원하는 값을 기준으로 시각화를 시켜준다.

 

SELECT subway_day, linename, AVG(innum) AS avg_in_num, AVG(outnum) AS avg_out_num

FROM subway_data6 where subway_day IN (20190110) group by subway_day, linename order by subway_day, linename;


값을 기준으로 오름차순과 내림차순 정렬도 가능하다.





4. 데이터  출력


다운로드 버튼을 누르면 출력자료를 원하는 형식으로 다운로드가 가능하다.




다운로드한 파일은 /user/cloudera/Downloads 폴더에 들어간다.

폴더에 들어가보면 데이터가 다운받아진 것이 보인다.





* 데이터 제공 : 서울시





'빅데이터' 카테고리의 다른 글

빅데이터 분석중 부딪힌 오류들 2  (0) 2019.02.11
빅데이터 분석중 부딪힌 오류들 1  (0) 2019.02.11
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함