13 October 2011 Azure, Hadoop, NoSQL, Windows Azure Robert Muehsig

Microsoft hat auf der gerade stattfindenden SQLPass die Roadmap für die Thematik “Big Data” vorgestellt. Das Apache Projekt Hadoop wird dabei ein zentralen Punkt einnehmen.

Hadoop? Mhh… ?

Hadoop ist ein Framework oder ein System, welches verschiedene Komponenten umfasst. Ziel ist es immer, riesige (auch “ungeordnete”) Datenmengen zu verwalten und/oder zu analysieren:

The project includes these subprojects:

  • Hadoop Common: The common utilities that support the other Hadoop subprojects.
  • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
  • Hadoop MapReduce: A software framework for distributed processing of large data sets on compute clusters.
  • </ul>

    Other Hadoop-related projects at Apache include:

    • Avro™: A data serialization system.
    • Cassandra™: A scalable multi-master database with no single points of failure.
    • Chukwa™: A data collection system for managing large distributed systems.
    • HBase™: A scalable, distributed database that supports structured data storage for large tables.
    • Hive™: A data warehouse infrastructure that provides data summarization and ad hoc querying.
    • Mahout™: A Scalable machine learning and data mining library.
    • Pig™: A high-level data-flow language and execution framework for parallel computation.
    • ZooKeeper™: A high-performance coordination service for distributed applications.
    • </ul></blockquote>

       

      Hadoop selbst ist mit Java entwickelt und ist eher auf der Linux-Welt beheimatet, daher war die Ankündigung auch recht überraschend.

      Hadoop & Windows Azure/Server

      Laut Ankündigung soll Hadoop auch vollständig auf Windows Server laufen und es wird als Dienst in Windows Azure integriert. Die erste Beta soll bereits Ende des Jahres kommen. Danach im nächsten Jahr die Live-Schaltung.

      Was heisst große Daten? Wer nutzt das?

      Facebook hat vermutlich den größten Hadoop Cluster – in diesem Blogpost sind ein paar Zahlen und Fakten genannt. Beeindruckend auf alle Fälle.

      Javascript ist überall!

      Eine kleine Sache, welche mich als Entwickler zum Schmunzeln gebracht hat (und die wahrscheinlich viele DBAs in den Wahnsinn treiben wird):

      For developers, we will enable integration with Microsoft developer tools as well as invest in making Javascript a first class language for Big Data. We will do this by making it possible to write high performance Map/Reduce jobs using Javascript. Yes, Javascript Map/Reduce, you read it right.

      Ha!

      Toolunterstützung

      Für den SQL Server soll es Konnektoren geben, welche die Kommunikation zwischen der NoSQL Welt und der SQL Welt bewerkstelligen. Auch Excel und co. sollen entsprechend die neuen Möglichkeiten nutzen können.Weitere technische Details erfahrt ihr in diesem Blogpost.

      Auch wenn ich selbst jetzt direkt nicht von dieser Neuigkeit betroffen bin, find ich es jedoch clever von Microsoft nicht sein eigenes Süppchen zu kochen sondern mal über den eigenen Tellerrand zu schauen. Ein paar mal hätte es jedenfalls in der Vergangenheit nicht schaden können.


Written by Robert Muehsig

Software Developer - from Saxony, Germany - working on primedocs.io. Microsoft MVP & Web Geek.
Other Projects: KnowYourStack.com | ExpensiveMeeting | EinKofferVollerReisen.de