Was ist eigentlich ein Petabyte ?

Hallo liebe Leser meines Blogs,

der Wetterfrosch im Radio heute morgen beim Aufstehen hatte sich um ne gute Stunde verschätzt: Es hieß gegen 17:00 soll es hier in München regnen, tja aber seit ca. ner halben Stunde regnet es bereits und nun ist gerade kurz nach vier. Naja sei’s drum, vor lauter Klausurvorbereitung für morgen konnte ich ebensowenig vom sonnigen Wetter heute Vormittag profitieren.

In diesem Eintrag möchte ich, wie jede Woche, zu meinem Kurs Informationskompetenz die Leitfragen beantworten und über die Videotutorials sowie die zusätzlichen Unterlagen reflektieren, aber eins nach dem anderen.

Wissen oder die Suche nach der Nadel im Heuhaufen

Thema der Tutorials war diese Woche die Suche im WWW und Internet. Dafür gibt es viele, teils mehr teils weniger bekannte Dienste von Firmen. Der Branchenprimus ist zweifelsohne (ohne Beleg!) die Suchmaschine der Frima Google www.google.de oder www.google.com. Dass Google auch unzweifelhaft die Suchmaschine mit dem größten Marktanteil ist (89,1% im Mai 2011 laut http://www.seo-besser.de) führt auch zu weiteren, teils sehr kritischen Fragen.

CO2 Ausstoß – greenIT – Erderwärmung – Treibhausgas – call it what you like

Viele Skeptiker sehen im Internet eine Bedrohung für unser Klima. Fakt ist, dass Google und Firmen wie Yahoo oder Microsoft, aber auch Facebook sehr viele Server benötigen, die alle Strom verbrauchen. Jeder Internetuser ist damit indirekt ebenfalls für einen Anteil des Ausstoßes von CO2 verantwortlich, welches bei der Stromerzeugung für diese Server entsteht. Bei heise.de habe ich einen Eintrag von 2009 gefunden, in dem Gartner den Anteil der ITK Branche am weltweiten CO2 Ausstoß mit 2% ebenso groß einschätzt, wie ihn etwa die Luftfahrtbranche verursacht. Weitere Berechnungen geben an, dass pro Google Suche etwa bis zu 10g CO2 ausgestoßen werden – Google bestreitet das und präsentiert eigene Zahlen: 0,2g.

Personalisierung

Wenn etwas personalisiert wird, dann gehe ich im ersten Moment davon aus, dass dies was gutes ist. Jemand ist an mir persönlich interessiert, an dem was ich machen, was ich sehen, was ich wissen möchte. Das Angebot eines Internetdienstes wird auf mich (und nur auf mich) zugeschnitten, was natürlich dem Ego jedes Einzelnen schmeichelt. Aber es gibt auch eine Kehrseite der Medaille – wie so oft! Der TED Talk von Eli Pariser verdeutlicht das sehr gut: http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html – anschauen, geht 9 Minuten und lohnt sich echt!

Wir überlassen mehr und mehr den Maschinen, oder besser gesagt Algorithmen die Entscheidung was für uns wichtig ist. Ich fand das angeführte Beispiel mit den unterschiedlichen Suchergebnisse nach Ägypten sehr beeindruckend. Wir als Individuum bekommen von dieser Manipulation recht wenig mit – mal ehrlich: wie oft kommt es vor, das mehr als zwei Personen genau den gleichen Suchbegriff eingeben und dann auch noch ihre Suchergebnisse vergleichen.

Eines steht außer Frage: die Informationsflut in der heutigen Informationsgesellschaft muss gefiltert werden, sonst ertrinkt der Einzelne, die Frage stellt sich nach dem WIE!

Google hat mit seiner Suchmaschine etwas geschafft, was nicht viele erreichen: der Ausdruck “googeln” ist bereits in den Sprachgebrauch eingeflossen (Moment, das googel ich mal eben). Ebenso hat es das Wort auch ins englische Wörterbuch geschafft: to google sth. (im Internet nach etw. suchen; laut Online PONS).

Aber neben Google gibt es noch andere Anbieter von Suchfunktionen für das WWW und Internet, wenn auch deren Marktanteile vergleichsweise gering sind. Die große Hoffnung von Mircosoft in den Bereich heißt “bing”, kann aber mit einem Marktanteil von ca 3,5% nicht viel ausrichten.

Ich persönlich nutze überwiegend die Google Suchmaschine und werde meist auch auf den ersten beiden Seiten an Treffen fündig. Dass es auch eine erweiterte Suche gibt war mir durchaus bewusst, genutzt habe ich sie allerdings eher selten bis garnicht. Ich weiß, dass es über die Filterung nach Dateitypen diverse Informationslöcher gibt, z.B. könnten Powerpoint Präsentationen oder andere sensible Dokumente gefunden werden, die so nicht für die Öffentlichkeit gedacht waren. Wie das kommt? Ganz einfach: die Dateien liegen irgendwo im htdocs eines Webservers, der Nutzer verlinkt sie nicht und glaub sich auf der sicheren Seite. Der Robot (Crawler/Bot) allerdings indexiert alle Dateien (auch unverlinkte) wenn er nicht über die robots.txt ausgesperrt wird, und wie wir alle wissen: Einmal im Netz – immer im Netz, das Netz vergisst nichts (siehe Google: Seite aus Cache laden, oder das Internetarchive: http://www.archive.org/)

Alleine die gigantischen Datenmassen sprengen mittlerweile die Vorstellungskraft. Ich möchte hier ein kleines Gedankenexperiment anstrengen, damit man sich die Dimensionen des Googlesuchindex von 2009 mit ~ 100 Petabyte vorstellen kann:

Ich bediene mich hier des ASCII Zeichensatzes, bei dem jedes Zeichen mit einem Byte codiert wird. Auf einer DIN-A4 Seite lassen sich mit einer Schreibmaschine 80 Zeichen pro Zeile und 53 Zeilen pro Seite schreiben. Damit passen 4.240 Zeichen (80 x 53) auf eine einseitig bedruckte DIN-A4 Seite.

Der Einfachkeit halber vernachlässige ich im folgenden Dateisysteme und Header Informationen, welche zusätzlichen Platz beanspruchen würden – aber am Ende wird ersichtlich, das dies auch keinen großen Unterschied machen wird.

Rechnen wir mit 4.000 Zeichen (80 x 50) pro A4 Seite, was dann 4.000 Byte oder ~ 3,9 KiB oder 4 KB entspricht (?iB vs ?B). Eine heutige handelsübliche Festplatte, welche mit 2 Terabyte angepriesen wird, fasst (wie jede Festplatte), allerdings deutlich weniger. Das ist dem Umstand zu schulden, das die Hardware Hersteller bei der Größenberechnung durch 1.000 (10^3) dividieren, anstatt der angebrachten 1.024 (2^10). Aber auch dieser Umstand soll uns hier nicht weiter stören. Der Einfachkeit halber nehme ich auch hier an, ich habe eine Festplatte mit 2 Terabyte Fassungsvermögen, also 2.000.000.000.000 Byte.

Ok, wir sehen schon, wir arbeiten hier mit sehr großen Zahlen. Um das alles etwas greifbarer zu machen eine Relation:

ein Stapel Papier, A4, 100 Seiten hat etwa eine Höhe von 1 cm. Wie groß ist nun der Papierstapel, wenn ich den gesamten Inhalt meiner 2TB Festplatte einseitig auf Papier in ASCII Symbolen mit 80×50 Zeichen pro Blatt ausdrucken würde?

2.000.000.000.000 Byte / 4.000 Byte pro Seite = 500.000.000 Seiten Papier

500.000.000 Seiten / 100 Seiten pro 1 cm = 5.000.000 cm / 100 = 50.000 m / 1.000 = 50 km

Das entspricht etwa einem Papierstapel von München nach Rosenheim – Luftlinie! Hier kann man es nachprüfen: http://www.daftlogic.com/projects-google-maps-distance-calculator.htm

Ein Petabyte ist die nächstgrößere Einheit nach Terabyte, somit sind 1000 TB = 1 PB und damit 100 PB = 100.000.000.000.000.000 Byte. Wir kommen zu folgender Rechnung:

100.000.000.000.000.000 Byte / 4.000 Byte pro Seite = 25.000.000.000.000 Seiten Papier

25.000.000.000.000 Seiten / 100 Seiten pro 1 cm = 250.000.000.000 cm / 100 = 2.500.000.000 m / 1.000 = 2.500.000 km

Dieser Papierstapel würde ~ 62 mal um den Erdäquator verlaufen, bei ca 40.000 km Erdumfang.

Man führe sich vor Augen: der Mittlere Abstand Erde <> Mond beträgt etwa 384.400 km. Damit würde der Papierstapel etwa 6,5 mal bis zum Mond reichen, und die angenommenen 100 Petabyte waren 2009! Mittlerweile haben wie 2011 und der Goolge Suchindex soll um mehrere hundert TB/Tag wachsen (laut Skript), aber ich denke mittlerweile konnte ich ein Gefühl für die Datenmengen vermittel, über die wir hier reden.

Abschließend möchte ich noch ein Resumee über die Veranstaltung ziehen. Wie ich bereits mehrfach in meinen Posts anklingen lassen habe, beabsichtige ich im kommenden Semester meine Masterthesis zu schreiben. Dafür fand ich insbesondere die Vorstellung der unterschiedlichen Such und Recherchemöglichkeiten im Katalog der TUM sehr hilfreich.

Auch die Präsentation über Fachdatenbanken wird sich denke ich als nützlich erweißen, da ich meine Arbeit mit einer Literaturrecherche beginnen werde und mir von den vorgestellten Werkzeugen verspreche, eine möglichst umfassende Übersicht über bereits geleistete Arbeit in meinem Themengebiet zu erlangen.

Den Inhalt dieser Veranstaltung sehe ich als sehr hilfreich an und würde mir wünschen, das bereits im 3. oder 4. Semester Bachelor Studium die Belegung der Veranstaltung nahegelegt wird, was der Recherche für Seminare oder Semesterarbeiten erheblich zu gute käm.

Damit möchte ich diesen Eintrag schließen und bedanke mich fürs Lesen.

Advertisements

4 thoughts on “Was ist eigentlich ein Petabyte ?

  1. hei,
    zum Thema “Wissenschaftliches Arbeiten” gibt´s in der Tat eine Menge zu bedenken, allerdings glücklicherweise auch eine Menge Hilfen…
    Habe mich gerade selbst damit in einem Projekt befasst, vielleicht hilft´s dir ja auch weiter 😉
    unter http://www.diigo.com/list/mbm-sharing/Tutorials gibt´s ein paar gefundene Tutorials und unter http://www.diigo.com/list/mbm-sharing/Recherche habe ich mal Recherchemöglichkeiten inklusive Deepweb-Suchmaschinen auseinandergedröselt 😉
    VG
    Nici

  2. Gut gemachte Erklärung der Datenmengen mit anschaulichen Bezügen. Erst dadurch kann sich der Normaluser etwas unter diesen schnellgesagten Größenbezeichnungen etwas darstellen.
    Nur sollte man die heutigen Datenformate (Video, Farbe, Skalierbarkeit der Zeichen usw) nicht ganz ausser Acht lassen. So kommen schnell sehr große Datenmengen zusammen. Aber… dafür haben wir ja alle unsere Terabyte HDs!!
    In meiner Tätigkeit hörte ich bei der Erläuterung der Datengrößen all die Jahre immer wieder die Frage : “Wer braucht denn soviel Speicher?”
    Ich denk das erklärt der Lauf der Zeit inzwischen von alleine….
    Machs gut und danke für Deine ausführlichen Darstellungen.

  3. Der Erdradius liegt bei ca. 6.300 km nicht der Erdumfang, dieser liegt bei ca. 40.000 km. Sollte man evtl. korrigieren, da die Rechnung auch schon Fachzeitschriften falsch zitiert haben.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s