저작권 안내: 저작권자표시 Yes 상업적이용 No 컨텐츠변경 No

스프링5 입문

JSP 2.3

JPA 입문

DDD Start

인프런 객체 지향 입문 강의

'yarn'에 해당되는 글 1건

  1. 2014.05.19 하둡2 YARN 짧게 보기 자료 (2)

하둡2의 YARN 짧게 보기 자료입니다.



Posted by 최범균 madvirus

댓글을 달아 주세요

  1. 해피데이 2014.08.04 18:31 신고  댓글주소  수정/삭제  댓글쓰기

    안녕하세요? 올려주신 hadoop2 자료로 대략적인 이해 및 개념이 잡혔습니다.
    감사합니다.

    해당 ppt를 보면서는 hadoop1의 JobTraker, TaskTraker, namenode, datanode가 별 의미가 없어졌다고 생각했는데,
    hadoop2 설치 및 start/stop 커맨드를 보니, namenode와 datanode를 별도로 start/stop 하더라구요.

    hadoop2에서 namenode, datanode, JobTraker, TaskTraker는 어떤 의미를 가지고 yarn과 관련해서는 언제, 어떻게 동작하는지 설명해 주실 수 있을까요?

    그리고...
    Hadoop Federation 이라고 하는 개념도 어떤 것인지 궁금합니다.

    • 최범균 madvirus 2014.08.04 19:01 신고  댓글주소  수정/삭제

      우선, Hadoop은 크게 두 개의 기능을 제공하는데, 하나는 File 보관을 위한 HDFS이고, 다른 하나는 연산을 위한 MapReduce 입니다.
      이들을 위한 데몬이 다음과 같죠.
      * HDFS: namenode, datanode
      * MR: JobTracker, TaskTracker

      Hadoop1의 MR은 한계가 있었고, 이를 극복하기 위해 Hadoop2에서 연산 부분을 MR1에서 좀더 범용적인 YARN을 개비를 했습니다.
      그러면서, 다음과 같이 연산을 위한 데몬이 바뀌게 되죠.

      * HDFS: namenode, datanode (동일!)
      * YARN: ResourceManager, NodeManager

      즉, Hadoop2에서 Namenode와 datanode는 그대로 남아 있고,
      Hadoop1에서 MR을 위해서 존재하던 JobTracker와 TaskTracker가 사라지고(?)
      YARN을 위한 ResourceManager와 NodeManager로 대체되었습니다.

      Hadoop1에서 MR만 실행할 수 있었던 JobTracker/TaskTracker와 달리
      Hadoop2의 YARN은 MR 뿐만 아니라 다양한 연산을 실행할 수 있는 범용적인 프레임워크입니다.
      예를 들어, YARN을 기반으로 Spark나 스톰, JBoss 등을 실행할 수 있습니다.

      그리고, Namenode Federation은 Namenode의 단점을 해소하기 위해 나왔습니다.
      Namenode는 기본적으로 1대에서 모든 HDFS의 파일 정보를 제공하게 되는데, 이는 확장성에 한계를 갖게 만듭니다.
      그래서, 여러 대의 서버에 파일 정보를 나눠서 보관함으로써 처리 용량을 확장할 수 있게 만든게 Namenode Federation 입니다.

      Namenode가 죽으면 HDFS의 모든 서비스가 중지됩니다. 그래서 Namenode가 SPOF(Single Point Of Failure)가 됩니다.
      따라서, 한 대의 Namenode가 죽어도 서비스를 유지하기 위해 동일한 Namenode를 두 대 만드는데,
      이를 Namenode HA(high availability)라고 합니다.

      제가 이쪽 전문가는 아니어서 이 정도 밖에 설명을 못 드리겠네요.
      자료를 찾는데 단초가 되었으면 하고 바래봅니다.