Bewerbungsmaster kostenlos herunterladen

In den Versionen 6.3.3 und höher ist das Proof of Concept-Installationsprogramm nur für lizenzierte Benutzer verfügbar. Weitere Informationen zum Abrufen einer Lizenz und der Authentifizierungsanmeldeinformationen, die zum Herunterladen von cloudera-manager-installer.bin erforderlich sind, finden Sie unter Cloudera Manager 6 Version und Downloadinformationen. In diesem Beitrag untersuchen wir jede der Technologien, aus denen eine typische Hadoop-Bereitstellung besteht, und sehen, wie sie alle zusammenpassen. Wenn Sie bereits mit HDFS, MapReduce und YARN vertraut sind, können Sie mit Teil 2 fortfahren, um direkt in die wichtigsten Leistungsmetriken von Hadoop einzutauchen. Wenn der Cloudera Manager Server nicht gestartet wird, finden Sie weitere Informationen unter Beheben von Installationsproblemen. Navigieren Sie von der Ambari-Benutzeroberfläche zu MapReduce2 > Configs > Advanced > Custom mapred-site. Um die Funktion des SecondaryNameNode zu verstehen, ist eine Erläuterung des Mechanismus erforderlich, mit dem der NameNode seinen Status speichert. HDFS basiert auf einer Leader/Follower-Architektur. Jeder Cluster besteht in der Regel aus einem einzelnen NameNode, einem optionalen SecondaryNameNode (für die Datenwiederherstellung im Falle eines Fehlers) und einer beliebigen Anzahl von DataNodes. Laden Sie das Cloudera Manager-Installationsprogramm auf den Clusterhost herunter, auf dem Sie cloudera Manager Server installieren.

Standardmäßig installiert die automatisierte Installer-Binärdatei (cloudera-manager-installer.bin) die höchste Version von Cloudera Manager. Anwendungsprotokolle (und die zugehörigen Containerprotokolle) sind beim Debuggen problematischer Hadoop-Anwendungen von entscheidender Bedeutung. YARN bietet ein schönes Framework zum Sammeln, Aggregieren und Speichern von Anwendungsprotokollen mit Log Aggregation. Der ResourceManager und der NodeManager bilden das Datenberechnungsframework. Der ResourceManager ist die ultimative Autorität, die Ressourcen zwischen allen Anwendungen im System abspricht. Der NodeManager ist der Framework-Agent pro Computer, der für Container verantwortlich ist, deren Ressourcennutzung (CPU, Arbeitsspeicher, Datenträger, Netzwerk) überwacht und dasselbe an den ResourceManager/Scheduler meldet. Hadoop hat eine weit verbreitete Akzeptanz von vielen Unternehmen gesehen, darunter Facebook, Yahoo!, Adobe, Cisco, eBay, Netflix und Datadog. Um Ihren Cluster so zu skalieren, dass ein höherer Verarbeitungsdurchsatz unterstützt wird, können Sie die automatische Skalierung oder skalierung Ihrer Cluster manuell mit einigen verschiedenen Sprachen verwenden. Jede Anwendung, die auf Hadoop ausgeführt wird, verfügt über eine eigene dedizierte ApplicationMaster-Instanz.

Diese Instanz befindet sich in einem eigenen, separaten Container auf einem der Knoten im Cluster. Der ApplicationMaster jeder Anwendung sendet regelmäßig Taktnachrichten an den ResourceManager sowie bei Bedarf Anforderungen an zusätzliche Ressourcen. Zusätzliche Ressourcen werden vom ResourceManager durch die Zuweisung von Containerressourcenleasen gewährt, die als Reservierungen für Container in NodeManagers dienen. Hadoop hat drei Kernkomponenten, plus ZooKeeper, wenn Sie hohe Verfügbarkeit aktivieren möchten: In früheren Versionen von Hadoop stellte der NameNode einen einzelnen Fehlerpunkt dar – sollte der NameNode fehlschlagen, würde der gesamte HDFS-Cluster nicht mehr verfügbar sein, da die Metadaten, die die Datei-zu-Block-Zuordnungen enthalten, verloren gehen würden. Wählen Sie in der Liste der Dienste auf der linken Seite YARN aus. Hadoop 2.0 brachte viele Verbesserungen, darunter einen hochverfügbaren NameNode-Dienst. Wenn ZooKeeper in Verbindung mit QJM oder NFS verwendet wird, wird ein automatisches Failover aktiviert. Die Funktion Protokollaggregation macht den Zugriff auf Anwendungsprotokolle deterministischer. Es aggregiert Protokolle über alle Container auf einem Workerknoten und speichert sie als eine aggregierte Protokolldatei pro Workerknoten. Das Protokoll wird nach Abschluss einer Anwendung im Standarddateisystem gespeichert. Ihre Anwendung kann Hunderte oder Tausende von Containern verwenden, aber Protokolle für alle Container, die auf einem einzelnen Workerknoten ausgeführt werden, werden immer zu einer einzelnen Datei aggregiert. Es gibt also nur 1 Protokoll pro Workerknoten, der von Ihrer Anwendung verwendet wird.

Die Protokollaggregation ist standardmäßig für HDInsight-Cluster ab Version 3.0 aktiviert.