log - Dev. Blog

[Log] Spark 현재 날짜 조회 및 형변환

2020-09-10 log zeppelin spark

ElasticSearch의 인덱스를 불러와서 Zeppelin에서 사용하려고 했다. 인덱스를 제목-날짜(yyyy.MM.dd) 형식으로 만들어서 날짜를 항상 오늘 날짜로 사용하고 싶었다. 이를 위해서 현재 시간 정보를 불

[Log] Zeppelin 크론 설정하기

2020-08-27 log zeppelin cron

이번에 프로젝트를 수행하면서 일별로 데이터를 분석할 필요가 있었다. 처음엔 수동으로 작업을 했는데 자동으로 구동되면 좋을 것 같아서 찾아보니 역시나 기능이 있었다. $ZEPPELIN_HOME/conf/zeppelin-site.xml 에서 주석으로 돼있는 내용을 풀고 다음과 같이 수정하면 된다. (zeppelin.notebook.cron.folders 에

[Log] ElasticSearch _default_ mapping 문제 해결

2020-05-28 log elasticsearch _default_ mapping

ElasticSearch에서 다음과 같은 로그가 발생했었다. [WARN ][o.e.d.i.m.MapperService ] [_default_] mapping is deprecated since it is not useful anymore now that indexes cannot have more than one type 이 로그는 _default_ mapping을 사용해서 발생하는 문제로 6.0.0 부터 Deprecated 되어 실제 적용된 매핑 타입으로 적용하면 된다. 그

[Log] HDFS Web UI Permission denied

2020-04-02 log hadoop

HADOOP을 설치하고 웹에서 파일을 추가하거나 삭제할 수 있는데 다음과 같은 에러가 나면서 되지 않았다. Permission denied: user=dr.who, access=WRITE, inode="/path/to/file":current_user:supergroup:drwxr-xr-x 현재 HADOOP이 실행되고 있는 환경의 사용자 권한이 추가되지 않아 생기는 에러로 etc/hadoop/co

[Log] librdkafka 빌드하기

2020-03-26 log golang kafka

golang 프로젝트의 로그를 수집하기 위해 confluent-kafka-go를 이용했다. 이를 위해서 librdkafka를 설치해야 하는데 confluent-kafka-go 최신 버전의 경우 1.3.0 이상을 사용해야 한다는 에러가 났다. CeontOS 7에서 yum으로 설치하는

[Log] Logstash 403 에러 해결

2020-03-19 log logstash elasticsearch

ELK를 구성하여 로그를 잘 쌓고 있었는데 어느 날 로그가 수집되고 있지 않았다. 원인을 찾기 위해 Logstash의 로그(/var/log/logstash/logstash-plain.log)를 열어봤다. [INFO ][logstash.outputs.elasticsearch] retrying failed

[Log] Airflow 설치

2020-03-12 log airflow spark

Spark에서 하는 일을 주기적으로 수행하기 위해 무엇이 있는지 조사했다. 여러 가지 도구들이 있었는데 그 중에서 Airflow와 Luigi가 좋아보였다. 둘 중에 어떤 걸로 정할 지 고민하다 Airflow로 정했다. 두 가지 모두

[Log] Zeppelin 설치 및 Spark 연동

2020-03-05 log spark zeppelin

Zeppelin은 웹 기반으로 다양한 인터프리터를 이용해서 데이터 분석을 도와주는 도구이다. 설치를 위해서 다음과 같이 하면 된다. $ sudo yum install -y java-1.8.0-openjdk.x86_64 $ wget http://mirror.apache-kr.org/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgz $ tar xf zeppelin-0.8.2-bin-all.tgz && cd zeppelin-0.8.2-bin-all 다음과 같이 실행하면 Zeppelin이 구동된다. $ bin/zeppelin-daemon.sh start

[Log] NoNodesAvailable 에러 해결

2020-02-27 log fluentd

다음과 같이 각 서버에 Fluentd를 설치해 수집하는 서버로 로그를 전송하고 Kafka를 일종의 버퍼로 하여 ELK 스택이나 다른 것들을 이용할 수 있도록 구성했다. 각 서버에서 tail로 로그 파일을 읽어서 forward로 송/수신

[Log] Spark ElasticSearch Parquet

2020-01-23 log spark elasticsearch parquet

로그를 ElasticSearch에 쌓아서 실시간으로 보고 있었는데 로그의 양이 많아서 차지하는 용량이 계속 커지고 있었다. 파일로도 로그를 남겨두기는 해서 한동안은 80 ~ 90% 정도 되면 인덱스를 지워서 용량을 확보했다. 하지만 다년