Scheinbar sind es Microsoft-Forscher nicht gewohnt, Szenenapplaus während ihrer Vorträge zu bekommen. Aber ausgerechnet Microsoft zeigt Google gerade, wo in Sachen Bildverstehen und Mustererkennung der Hammer hängt.
Denn das, was Microsoft-Forscher Blaise Aguera y Arcas da beim diesjährigen TED in knackigen 7 Minuten lässig präsentierte, ist ziemlich sensationell.
In den ersten Minuten präsentiert er Seadragon, eine beindruckende neue Methode, innerhalb extrem hochaufgelöster Bilder zu navigieren. Der Clou ist dabei, daß die Bilder auf einem Server liegen und die Performanz der Darstellung abhängig ist vom Verhältnis der Bildschirmauflösung zu der zu Verfügung stehenden Bandbreite.
Zugegeben: Vermutlich steht hinter der Bühne der Server mit den Bildern und sein kleines Notebook hängt an einem Gigabit-Netz. Aber immerhin.
Der Hauptteil seiner Präsentation beschäftigt sich jedoch mit Photosynth, einer wirklich spektakulären Software. Bilder werden auf ihren Inhalt hin analysiert, in einen quasi semantischen Zusammenhang gebracht und zu dreidimensionalen Grosskollagen umgerechnet. In der Demo zeigt Aguera y Arcas das am Beispiel der Notre Dame de Paris, auf Grundlage einiger tausend Flickr-Fotos.
Anscheinend sind Microsoft einige bemerkenswerte Fortschritte gelungen, was Bildverstehen und Mustererkennung betrifft. Für die Zukunft eröffnen sich damit grandiose Chancen. Zum Beispiel können kollaborativ entstandene Bildarchive (social!) intelligent genutzt werden, um komplexe, fotorealistische 3D-Visualisierungen von Orten (metaverse!) zu erstellen.
Mit Photosynth kann man online herumspielen. Vorausgesetzt man hat einen Windows-Rechner und eine entsprechend schnelle Leitung zur Verfügung. Kann das mal jemand ausprobieren? Mein MacBook findet AtiveX-Controls nicht so sexy. Erfahrungsberichte gerne in die Kommentare!
Ich installier es grade. Absturz erwartet in ca. 1 Minute.
Edith sagt: Nettes Spielzeug, der Rundumblick ist wirklich beeindruckend.
Die Idee dahinter ist wirklich großartig. Aus der Summe der im Netz existierenden Fotos und ihrer Tags können somit dreidimensionale Welten entstehen. So gut die Idee auch ist, scheint die Welt dafür lange noch nicht bereit zu sein. Was nutzt solch eine Software wenn sie proprietär ist und nur den Windowsnutzern zur Verfügung steht? Wie sieht das ganze lizenztechnisch aus? Solange Inhalte (in dem Fall die Fotos) nicht „frei“ verfügbar und somit wirklich sozial, teilbar und nutzbar sind, wird diese Idee nur eine Idee bleiben. Bevor solch ein Vorhaben Realität werden kann, muss ein grundlegendes Umdenken (was die Lizenzierung von Netzinhalten angeht) stattfinden.
Fünf Worte: Oh mein Gott, wie großartig!
Gerade installiert – ActiveX, ok… der einzige Knackpunkt. Aber es lohnt sich. Selbst in dieser frühen Phase, erahnt man sofort das Potential und die schiere Marktmacht, die in dieser Anwendung steckt. Die Collections, die man sich jetzt schon anschauen kann, lassen sich intuitiv durchforsten und lassen einen erahnen, wie unglaublich toll das wird, wenn das mit dem GoogleEarth Clone von Microsoft verheiratet wird.
Ich denke, wenn Google nicht mind. ähnliches plant und bald zeigen kann, ist Microsoft damit der erste Schritt gelungen, Google zumindest in einem Marktsegment vom Thron zu stoßen.
Armer Johnny… Du verpasst wirklich was!!
Erwähnte ich, wie unglaublich beeindruckend die Rekonstruktion einer Point Cloud im 3D Raum aus 2D Fotos umgesetzt wurde? :)
OK, ein rudimentär negatives Detail fällt doch auf. Die Collections, die man bisher anschauen kann, sind zum großen Teil aus Fotos erstellt, die wohl mit der Entwicklung der Software im Hinterkopf geschossen wurden. Zumindest laut dem Begleittext in der Sidebar, in dem den Fotografen gedankt wird und auch explizit dafür, dass viele High-Res Detailaufnahmen gemacht wurden.
Trotzdem beeindruckend!
Microsoft-Software auf meinem Firefox…ich brech ab…
Ne habs mal installiert, und was MS mir da bietet ist der Wahnsinn. Hätte man mich gestern gefragt wann so etwas möglich ist, hätte ich wahrscheilich 2020 oder ähnlich geschätzt.
Und Microsoft zeigt gleich noch eine Nutzungsmöglichkeit: Ein ganzes Kunstatillier wurde hochauflösend digitalisiert. Ein interessantes Gefühl, sich da durch die Bilder „zu fotografieren“.
Ein Problem hab ich aber, man fühlt sich bei mir wie im Weltraum; vielleicht liegts am langsamen Internet oder dem Firefox.
Anhang, da Kommentar nicht mehr editierbar:
Wenn man die Fotos ne Weile anschaut, sieht man, dass auf das Vorhandensein großflächiger Strukturen geachtet wurde. So wurde zum Beispiel beim Petersplatz keine der Heiligen in Nahaufnahme abgebildet. Das soll natürlich nicht die Leistung der Programmierer schmälern, die ist weiterhin beeindruckend.. aber bis zum automatischen grepen getaggter Fotos aus dem Internet und dem Einfügen in ein solches Modell wird noch einige Zeit vergehen, anders als im Video suggeriert wird. Sag jedenfalls ich. Aber in Vorhersagen hab ich ja auch meine Schwächen..
@Stefan: Im Video ist die Rede von den näcshten Jahren. Entwicklungstechnisch ist das viel Zeit. Ich prognostiziere mal 2010 werden wir die erste funktionierende Verschmelzung von VirtualEarth, der entsprechenden StreetView und Photosynth sehen, die die Daten komplett aus den versch. Fotonetzwerken bezieht.
Und 2013 das ganze dann natürlich in Echtzeit mit live reingerenderten Webcams, wo es geht.
Die demo ist schon cool. Microsoft hatte schon vor ner ganzen Weile ein paar Videos davon gezeigt (z.B.: dieses). Ich glaube aber noch nicht dran, dass das wirklich vollautomatisch läuft.
nitpicking: „scheinbar“ (es scheint nur so, ist aber nicht so) oder „anscheinend“ (es sieht so aus, als wäre was dran)? ;)
unfassbar. läuft hier rasend schnell und fühlt sich sofort richtig an. wenn das später wirklich mit beliebigen flickr-fotos auch so funktioniert, kann man seinen enkeln den mechanismus eines fotoalbums nicht mehr glaubwürdig vermitteln.
Das ist sexy, schnell und funktioniert ganz wunderbar.
Im zweiten Eindruck nervt die Navigation ein wenig, es zuckt manchmal beim Laden und der Sinn, sich eine Kirche auf 80.000 verschiedenen Bildern anzusehen, erschliesst sich mir nicht wirklich.
Wenn ich aber irgendwann selbst so ein Set/Ding/wieauchimmerdasheisst erstellen kann, dann finde ich das unfassbar gut.
Bin gespannt, wie das gehen soll …
@ntropie: oh, du hast recht. ich hab das zweite scheinbar durch ein anscheinend ersetzt. danke :)
He, He :D
Photosynth.
Sag ich doch: Microsofts erste Killeraplikation im Apple Stil.
Die Faszination an Photosynth erschliesst sich mir nicht so wirklich. Nette Spielerei, aber vom Nutzen sehr beschränkt imo.
Seadragon auf der anderen Seite ist hier das eigentlich coole Produkt.
Auf http://fotowoosh.com/ kann man sich aus einem einzelnen Photo dreidimensionale Bilder und in Zukunft sogar Videos errechnen lassen. Und es läuft auch auf nicht windoze-rechnern.
wow das ist das beste was ich je von Microsoft gesehen habe. Fast schon ein Grund doch keine MacBook zu kaufen!
,,, ohne absturz auf’m firefox – ja waaaaaahnsinn! Oder, auch ein blindes huhn findet mal ein korn ;)
Was ist ein semantischer Zusammenhang? Was ist überhaupt die Semantik eines Bildes?
Das Verfahren ist durchaus alter Wein in neuen Schläuchen. Die ursprünglichen Schöpfer sitzen an der Universität in Washington. Die Idee stammt im Wesentlichen von Steven Seitz und wurde von seinem PhD Studenten Noah Snavely prototypisch umgesetzt und auf der SIGGRAPH im Sommer 2006 in Boston vorgestellt. Da hat Microsoft mit Forschungsgeld gewinkt und nun ist es eine Microsoft-Core-Entwicklung. So läuft das heute.
Übrigens Google schläft auch nicht, was die Erkennung von Bildinhalten angeht.
Man versuche mal die Bildsuche mit dem Anhängsel „&imgtype=face“ oder „&imgtype=news“ am Ende.
Genaueres kann man hier nachlesen.
sorry this shit doesnt run on your graphics hardware… das is natürlich sauarm. naja, dann nerdet halt mit eurer überflüssigen software ohne mich rum, M$.
@ drni (19): nun, wenn du ein system hast, dass weiss, was auf verschiedenen bilder zu sehen ist und es in der lage ist diese bilder in einen sinnvollen zusammenhang zu bringen – dann hast du durchaus sowas wie eine sematische beziehung.
Ihr glaubt die Panoramen können automatisch generiert werden? Das ist.. niedlich. Da müssen wir noch warten, bis GPS-Infos von mehr Leuten direkt in Fotos abgelegt werden. Solange wird der Heimanwender noch:
– ein 3D-Model von dem Platz haben und
– die Bilder selbst positionieren müssen.
Nett, aber keine ‚rocketscience‘
@ Thomy (25):
Wer spricht von rocketscience? Klar bauen die Panoramen sich nicht vollständig alleine. Wäre ja noch schöner…
Ein weiterer perverser Versuch von Microsoft, die user zu zwingen sich bessere Komponenten für die work-station zu kaufen.
Ich werde solche Angebote weiterhin meiden, genauso wie windoof.
> Ihr glaubt die Panoramen können automatisch generiert werden? Das
> ist.. niedlich. Da müssen wir noch warten, bis GPS-Infos von mehr
> Leuten direkt in Fotos abgelegt werden.
Wenn ich mich nicht täusche ist genau davon die Rede. Aus einem Haufen von Bildern werden Strukturen wie Wände/Türen etc. erkannt, Bilder mit ähnlichen Merkmalen einander zugeordnet und dann daraus das 3D Modell erzeugt. Scheint mir mit genügend Bildmaterial durchaus ein Ding der Möglichkeit zu sein.
@marianfux: so ein käse. das ist forschung. und sowas findet inzwischen oft in der industrie statt. siehe kommentar #20. vom produkt dürfte das teil noch gute 2-3 jahre weg sein.
@Thomy: Bilderkennung sagt Dir was? Es ist durchaus denkbar aus sich überlappenden Bereichen Panoramen zu erstellen. Und anscheinend haben sie es geschafft, das ganze effizient zu leisten. Es geht hier ja nicht um Meta Informationen, sondern um semantische Bezüge zwischen Bildern.
@mah(#20): Und? Was ist daran verkehrt? Es wurde in dem Vortrag erwähnt, dass dort Forschungsarbeit eingeflossen ist. Das Geld muss irgendwo her kommen und ich finde es nur fair, wenn eine Firma wie Microsoft das bezahlt und dann natürlich auch ihren Gewinn sieht, der wiederrum daraus entstehen wird. Alles andere ist bei der derzeitigen Marktlage pure Phantasie.
Faszinierende und dennoch beängstigende Möglichkeiten tun sich auf. So ewig wird man auf eine erste Software sicherlich nicht mehr warten müssen. Hat ein bisschen was von Minority Report. Da passt Surface doch perfekt ins Bild.
>@Thomy: Bilderkennung sagt Dir was?
Anscheinend mehr als Dir
>Es ist durchaus denkbar aus sich überlappenden Bereichen
>Panoramen zu erstellen.
Dann solltest Du den Leuten, die was davon Verstehen vielleicht mal erklären, wie man ganz „Banale“ probleme löst, wie z.B. den Abstand zu einem Objekt auf einem Bild zu messen.
>Und anscheinend haben sie es geschafft, das ganze
>effizient zu leisten. Es geht hier ja nicht um Meta
>Informationen, sondern um semantische Bezüge zwischen Bildern.
Versteh mich nicht falsch, ich toleriere gläubige Menschen. Ich denk nur ihr solltet nicht zu weit abheben, gibt nur Enttäuschungen
@ Thomy (#36) Worauf stützt sich eigentlich Deine hier zur Schau gestellte Arroganz? Und was hat das ganze mit Glauben zu tun?
Mal davon abgesehen dass da jemand beim Spiegel wieder in Geographie nicht aufgepasst hat (nein, England ist nicht das gleiche wie Grossbritannien…), der Spiegel hat es auch aufgegriffen und liest hier sogar Kommentare mit:
http://www.spiegel.de/netzwelt/tech/0,1518,487167,00.html