클라우데라에서 임팔라를 사용하여 데이터 분석하는 법 1. 클라우데라 설치 1. 클라우데라 설치 Cloudera홈페이지에서 QuickStart를 다운받는다. 비워진 칸에 정보를 입력하고 컨티뉴를 누르면 다운받을 수 있다. 2. 클라우데라 실행 클라우데라를 설치하고 실행시키면 Centos 배경에서 Cloudera가 실행된다. Analyze Your Data 를 누르면 다양한 에코 시스템을 사용해서 데이터를 분석할 수 있다. 화면을 들어가면 Impala를 이용하여 테이블을 만들거나 데이터를 분석할 수 있다. 3. 데이터 넣기 Centos 데스트탑 환경이기 때문에 UI가 지원된다 그래서 FTP를 사용하지 않아도 쉽게 넣을 수 있다. 2. 데이터 분석 및 시각화 1. 테이블생성 쿼리문 작성을 작성한다. CREAT..
환경 구성 TYPEOSCPURAMStorageNIC비고MAINWin10I7-770024GBHDD 1TBRealtek VMCenTOS2P 2C8GBHDD 100GBNAT싱글노드-hadoop 컴퓨터를 껐다가 킨 뒤 하이브에서 추가적으로 데이터 분석을 위해 하이브를 실행 시켰지만 오류가 났다. ./sbin/start-all.sh를 사용하여 모든 노드들을 켜줬지만 jps를 해보니 DataNode가 작동하지 않았다. 초기화를 하는 과정에 namenode는 알아서 데이터가 들어있는 폴더를 삭제하는데, datanode는 간혹 삭제하지 않는 경우가 있었다. 그래서 직접 삭제해주는 과정이 필요하다. hdfs-site.xml 파일에서 설정한 /home/hadoop/data/dfs/datanode를 rm -rf 로 삭제시킴..
환경 구성 TYPE OS CPU RAM Storage NIC 비고 MAIN Win10 I7-7700 24GB HDD 1TB Realtek VM CenTOS 2P 2C 8GB HDD 100GB NAT 싱글노드-hadoop 분석을 하였을때 오류 (NULL) 값이 나왔다. 데이터 분석을 위해 csv 파일을 Centos 환경에 넣었지만, " 들이 남아있었다. 테이블을 생성했을 때 string 값과 int 값으로 구분을 했기 때문에 "을 인식하지 못해 오류가 났다. sed문으로 글에 있는 " 들을 전부 삭제하는 명령을 데이터파일이 들어있는 위치에서 실행시켰다. # sed 's/"//g' datafile_NEW.csv > datafile_NEW2.csv " 들이 없어진것을 확인하였다. 그 뒤에 데이터를 다시 테이블..