KI-Food-Bildgeneratoren können Food-Fotografen nicht ersetzen

Abgelegt unter:

Mit endlosen Garnelenringen und starren Calamari-Türmen geraten die Versuche von AI in der Food-Fotografie ins Unheimliche

Wenn Sie etwas über einen Eater-Link kaufen, erhält Vox Media möglicherweise eine Provision. Sehen Sie sich unsere Ethikrichtlinie an.

Neulich habe ich, wie es so oft ist, 10 Minuten damit verschwendet, mit einem KI-Bildgenerator herumzuspielen. Damals war ich hungrig, und so begann ich schließlich, mir Optionen für ein hypothetisches Mittagessen auszudenken: eine schattige Wurstplatte, die wie die Ruinen einer antiken Stadt in die Höhe ragte, mit einem Sonnenuntergang im Hintergrund; Ringe aus starr wirkenden Calamari, scheinbar aus Plexiglas oder Glas, kunstvoll schief gestapelt angeordnet; und ein Kreis aus 12,5 cartoonartigen, glatten, durchscheinend roten Garnelen unter einem Banner mit kursivem Text, auf dem einfach „Shimp“ stand. Einige der Bilder sahen aus wie Essen; keines davon sah essbar aus.

Wie mein Mittagsexperiment gezeigt hat, muss man wissen, was man tut, um KI dazu zu bringen, ein qualitativ hochwertiges Bild zu erzeugen – beginnend mit gut geschriebenen Aufforderungen (über „einen Teller mit Garnelen“ hinaus), ein entscheidender Schritt, den ich nicht getan hatte. Manchmal sind die Ergebnisse erstaunlich, wie die KI-generierten Bilder, die Bon Appétit kürzlich beim Künstler Bobby Doherty in Auftrag gegeben hat und die einen Artikel über das Gespräch eines Redakteurs mit ChatGPT bei der Entwicklung von Gerichten für ein hypothetisches New-American-Restaurant begleiteten. Einige von AIs Ideen für die Speisekarte waren Augenrollen, wie es bei neuen amerikanischen Restaurants der Fall sein kann, aber Dohertys lebendige, jenseitige Kunst sieht immer noch zum Anbeißen aus.

Es scheint jedoch, dass das durchschnittliche KI-generierte Essensbild nicht ganz vorhanden ist. In verschiedenen Ecken von Reddit und Google Images überlappen sich Pizzastücke und -blätter seltsam oder gehen ineinander über, Currys schimmern an den Rändern, Truthähne haben ungewöhnliche Beine an ungewöhnlichen Stellen und andere vermeintliche Lebensmittel sind überhaupt nicht erkennbar. Auf Adobe Stock können Benutzer KI-generierte Kunst monetarisieren, sofern sie über die entsprechenden Rechte verfügen, und ihre Uploads als Illustrationen kennzeichnen. Die meisten fotorealistischen Stillleben und Tischlandschaften auf der Plattform sind passabel, obwohl einige ins Groteske abdriften: ein endloser Ring aus Garnelen, nur Körper und ohne Kopf, oder sein unmöglicher Cousin mit Köpfen an beiden Enden. Bilder wie diese und auch solche, die weniger absurd sind, befinden sich oft irgendwo im unheimlichen Tal – einem viel diskutierten Schauplatz, der in vielen Gesprächen über KI eine große Rolle spielt.

Doch während Technologieunternehmen die Anwendungen von KI für die Rezeptentwicklung und sogar die Vermittlung von Kochtechniken anpreisen, halten künstliche neuronale Netze auch Einzug in die Welt der Lebensmittelfotografie. Einige Stockfoto-Agenturen, darunter Shutterstock, haben bei der Entwicklung ihrer eigenen Bildgenerierungstools mit KI-Plattformen zusammengearbeitet. Startups wie Swipeby und Lunchbox wollen Restaurants und Lieferbetriebe umwerben, die visuelle Elemente für ihre Online-Speisekarten benötigen. Natürlich gibt es bereits eine Möglichkeit, Bilder zu erstellen – Food-Fotografen dafür zu bezahlen, dass sie ihre Arbeit erledigen. Und darüber hinaus stellt der ethische Morast ein unmittelbareres rechtliches Problem dar: Einige KI-Modelle wurden mit kreativen Werken trainiert, die häufig nicht lizenziert und aus dem Internet stammen, und können auf Anfragen reagieren, bestimmte Künstler nachzuahmen. Verständlicherweise beginnen die Künstler, vor Gericht zu gehen.

Abgesehen von allen moralischen Bedenken sieht Essen in den Händen von Food-Fotografen, Videofilmern sowie Food- und Requisiten-Stylisten zumindest vorerst immer noch am zuverlässigsten lecker aus. Was macht die KI also falsch? Karl F. MacDorman, ein Wissenschaftler für Mensch-Maschine-Interaktion und stellvertretender Dekan an der Luddy School of Informatics, Computing, and Engineering der Indiana University, sagt, dass es viele Theorien darüber gibt, was dazu führen könnte, dass bestimmte Darstellungen bei ihrer Annäherung Gefühle von Unheimlichkeit oder Unbehagen hervorrufen volle Genauigkeit. „Das unheimliche Tal wird oft mit Dingen in Verbindung gebracht, die im Grenzbereich sind“, sagt MacDorman, etwa wenn wir nicht sicher sind, ob etwas lebendig oder tot, tierisch oder nicht-tierisch, real oder computeranimiert ist. Dies kann besonders ausgeprägt sein, wenn ein Bild unterschiedliche Kategorien vermischt oder einem Thema Merkmale zuordnet, die normalerweise zu sehr unterschiedlichen Dingen gehören. Es ist vielleicht nicht überraschend, dass die KI zu diesem relativ frühen Zeitpunkt mit all dem zu kämpfen hat.

Während sich die ursprüngliche Uncanny Valley-Hypothese, die 1970 vom Robotiker Masahiro Mori aufgestellt wurde, nur auf humanoide Figuren bezog, wurden seitdem andere Uncanny Valleys nachgewiesen. Ein ähnlicher Effekt kann bei Tierdarstellungen auftreten, und in einer Studie aus dem Jahr 2021 fanden MacDorman und der Psychologe Alexander Diel heraus, dass auch Häuser unheimlich sein können. MacDorman weist darauf hin, dass auch Essen eine unheimliche Wirkung haben kann, weil es so eng mit unserem Leben verbunden ist.

John S. Allen, Autor von „The Omnivorous Mind“ (veröffentlicht 2012), hat diesen Zusammenhang sowohl aus wissenschaftlicher als auch aus kultureller Sicht untersucht. Als Anthropologe, der sich auf die Entwicklung menschlicher Kognition und Verhaltensweisen spezialisiert hat, spekulierte Allen darüber, warum manche KI-Lebensmittel so abstoßend sein können. „Die vertrauten, aber leicht abweichenden Bilder sind vielleicht die beunruhigendsten“, schrieb er in einer E-Mail, nachdem ich ihm einige meiner seltsamsten Funde geschickt hatte. „Vielleicht interpretiere ich das so, als würde ich etwas betrachten, das ich normalerweise essen würde, das aber verdorben oder schimmelig geworden ist, einen Parasiten beherbergt oder auf andere Weise nicht ganz richtig ist.“

In „The Omnivorous Mind“ argumentiert Allen, dass kleine Kinder etwas entwickeln, was er als eine Ernährungstheorie ansieht („sozusagen eine Muttersprache“, sagt er), die im Laufe der Zeit durch unterschiedliche Erfahrungen und kulturelle Einflüsse geprägt wird. „Unsere ersten visuellen Eindrücke von dem, was wir essen, wecken auf Erfahrung und Erinnerung basierende Erwartungen darüber, wie etwas schmecken sollte oder ob es uns schmeckt oder nicht“, sagt Allen. „Wenn das Essen schlecht aussieht, weckt das eine negative Erwartung.“

MacDormans Forschung unterstützt eine ähnliche Idee. Wenn es um „konfigurale Verarbeitung“ geht – das gleichzeitige Reagieren auf viele Merkmale gleichzeitig, wie bei der Gesichtswahrnehmung – verlassen sich Menschen seiner Meinung nach auf Modelle, die wir für die Nahrung, die wir essen, entwickelt haben. „Wir haben ein Modell dafür, wie eine Garnele aussehen sollte, was ein gutes Beispiel oder ein schlechtes Beispiel für Garnelen ist“, erklärt er. Wenn Sie eine Garnele sehen, die seltsam lang und dünn ist, ist das nicht unheimlich, weil es neuartig ist; Es ist unheimlich, weil es an ein bekanntes Modell erinnert, und wenn wir versuchen, sie zusammenzufügen, „entspricht etwas definitiv nicht Ihren Erwartungen.“

Dennoch glaubt MacDorman, dass bei einer negativen Reaktion auf ein KI-generiertes Essensbild auch andere Gefühle als das Unheimliche im Spiel sein können. „Es könnte sogar Empathie sein“, schlug er vor. Bei einer kopflosen Garnele zum Beispiel „könnte es sein, dass man sich schlecht fühlt, weil man es nicht sein möchte.“

Einige Lebensmittel können stärkere Reaktionen hervorrufen als andere. „Für mich ist es in erster Linie das Fleisch“, sagt die in San Francisco lebende Food-Fotografin Nicola Parisi. „Ich glaube schon, dass es sehr schwer ist, Fleisch im Allgemeinen zu fotografieren, selbst als Mensch, und ich sehe einige der gleichen Probleme mit der KI.“ Sie glaubt, dass es auch andere Dinge, die manche Menschen nur schwer begreifen können, wie Komposition, Styling und das Bleiben im Trend, noch nicht beherrschen muss. Ein veralteter Hintergrund oder eine Beschichtungstechnik, die nicht mehr in Mode ist, lösen möglicherweise keine tiefgreifenden psychologischen Phänomene aus, können aber durchaus zu einer Gesamtwertbeurteilung eines KI-generierten Bildes beitragen. „Ein Foto kann mit einer schönen Kamera aufgenommen werden und man kann es gut beleuchten, aber es kann langweilig sein oder das Styling wird nicht großartig sein“, sagt Parisi. „Ein qualitativ hochwertiges Bild könnte immer noch schlecht sein, wissen Sie, was ich meine?“

Glücklicherweise gibt es Profis, die wissen, wie man Essen jedes Mal großartig aussehen lässt, und im Gegensatz zu KI können sie tatsächlich essen.

Hannah Walhout ist eine in Brooklyn ansässige Autorin und Redakteurin.

Täglich die aktuellsten Nachrichten aus der Lebensmittelwelt

Überprüfen Sie Ihren Posteingang auf eine Willkommens-E-Mail.

Hoppla. Etwas ist schief gelaufen. Bitte geben Sie eine gültige E-Mail-Adresse ein und versuchen Sie es erneut.

Täglich die aktuellsten Nachrichten aus der Lebensmittelwelt

Überprüfen Sie Ihren Posteingang auf eine Willkommens-E-Mail.

Hoppla. Etwas ist schief gelaufen. Bitte geben Sie eine gültige E-Mail-Adresse ein und versuchen Sie es erneut.

Die Mädchen erobern New York City und jetzt auch Los Angeles. Hier erfahren Sie, wo Sie essen können, wenn Sie mitmachen möchten.

Aktie(erforderlich)(erforderlich)