Text, the Universal Interface

GitHub Repository

Unterschrift lernen

In diesem Thema setzen wir uns damit auseinander, was mit Text und APIs in Kombination mit LLMs möglich ist. LLMs (Large Language Models) sind künstliche Intelligenzen, die mit sehr viel Text trainiert wurden und dadurch menschliche Sprache verstehen und generieren können.
Unsere Aufgabe war es, Anwendungsfälle für LLMs zu finden, die über ein einfaches „Chatten mit einer Figur“ hinausgehen. Dabei sollten die Nutzer*innen durch Eingaben wie Texte, Bilder oder Echtzeitdaten, die über APIs an große Sprachmodelle gesendet werden, mit unserem Webprojekt interagieren können. Eine API (Application Programming Interface) ist eine Programmierschnittstelle, die es einem Programm ermöglicht, Informationen, Daten oder Funktionen von einem anderen Programm abzufragen oder zu nutzen – wie ein Übersetzer oder Bote zwischen zwei Programmen. Entwickler*innen können über eine API auf die vorhandenen Funktionen und Daten anderer Anwendungen zugreifen, ohne deren interne Funktionsweise kennen zu müssen. Das beschleunigt und vereinfacht den Datenaustausch.

Der Prozess begann mit der Recherche zu LLMs, dem Experimentieren mit verschiedenen Eingabemöglichkeiten und dem Erstellen kleiner Prototypen.Für die Projektentwicklung habe ich anschließend frei Ideen gesammelt, die mir in den Kopf kamen:

Generieren von „Bildern“ nur aus Punkten und Strichen (Sonderzeichen der Tastatur)
Eingabe von Zutaten → Rezept als Ausgabe
Irgendwas mit Kleidung / Outfitberatung
Sprichwörtergenerator
Eingabe von handgeschriebenem Text → KI bewertet die Lesbarkeit
Antwort der KI in (Straßen-)Schildern
Bildeingabe → KI ermittelt, wo das Bild aufgenommen wurde
Eingabe von gezeichneten Kinderbildern → KI generiert realistisch aussehende Tiere
Hunde werden zu Menschen oder umgekehrt (Anspielung auf die Ähnlichkeit zwischen Hunden und Besitzern)

Viele der Ideen, die ich besonders interessant fand – wie die letzten beiden – basierten darauf, dass man Bilder als Eingabe und wieder als Ausgabe hat. Leider war dieser Prozess technisch aufwändiger und – soweit ich mich erinnere – mit der kostenlosen Version nicht umsetzbar. Deshalb habe ich diese Ideen verworfen. So blieb ich an der Idee hängen, dass die Nutzerinnen handgeschriebenen Text eingeben, der von der KI weiterverarbeitet, bewertet oder auf andere Weise interpretiert wird.
Die erste Idee, die ich weiterverfolgt habe, befasste sich mit der unleserlichen Schrift von Ärzt*innen auf Rezepten. Die Eingabe sollte über Fotos erfolgen, die Ausgabe in Textform. Die Aufgabe der KI war es, angeblich zu versuchen, die Schrift zu entziffern – aber letztlich daran zu scheitern.

content: 'Du sollst eine Hilfe sein, um schwer leserliche Schriften auf Rezepten vom Arzt zu entziffern. Aber du kannst es selber nicht. Du redest lange drum herum und versuchst es zu lesen, bis du selber sauer, traurig oder frustriert wirst und den Arzt beschimpfst. {result: string}‘

Dabei war es egal, ob die KI die Schrift wirklich nicht lesen konnte oder es eigentlich geschafft hätte – das Ziel war eine humorvolle Kritik an der mangelnden Lesbarkeit ärztlicher Handschriften. Die Idee: Die Schrift ist so schlimm, dass selbst die KI sie nicht lesen kann. Eine mögliche Erweiterung wäre gewesen, dass Nutzer*innen selbst schreiben und ihre Schrift auf Lesbarkeit überprüfen lassen.
In der Kursbesprechung entstand daraus die Idee, diesen Aspekt zu vertiefen. Daher verschob sich der Schwerpunkt des Projekts auf die Schwierigkeit von Unterschriften auf Touchpads – z. B. bei Formularen, Paketzustellungen oder ähnlichem. Unterschriften sind fest in unserem Alltag verankert – von eher belanglosen Dingen wie dem „Muttizettel“ bis hin zum Abschluss eines Kaufvertrags oder der Bestätigung der eigenen Identität. Die Aufgabe der KI bestand darin, die Unterschrift zu entziffern und über den Inhalt des Formulars zu informieren.

content: 'Informiere den Nutzer zuerst auf sehr lustige, humorvolle und kreative Weise über den Inhalt von dem Hintergrundbild. Warne den Nutzer auch davor, wenn etwas wichtiges beachtet werden muss. Der Nutzer wird darauf unterschreiben, jeder Strich wird als Unterschrift gewertet. Versuche die Unterschrift zu lesen und bewerte sie anhand der Lesbarkeit. Wenn die Unterschrift lesbar ist, reagiere überschwänglich positiv und freu dich. Wenn die Unterschrift nicht lesbar ist, sei gemein, traurig, enttäuscht und frustriert und fordere den Nutzer auf, es besser zu machen. Antworte auf Deutsch in mindestens 4 Sätzen und ohne Emojis. Du musst am Ende auf jeden Fall entscheiden, ob die Schrift leserlich ist und ob der Nutzer noch einmal unterschreiben soll. Beschreibe, was du siehst in einem JSON-Format {result: string}'

Das Ziel ist es, Nutzer*innen spielerisch darauf aufmerksam zu machen, wie wichtig es ist, Dokumente gründlich zu lesen, bevor man unterschreibt, damit man sich nicht versehentlich zu etwas verpflichtet, das man gar nicht möchte. Die Anspielung lautet: „Haben Sie denn auch das Kleingedruckte gelesen?“
Ich habe sieben verschiedene Dokumente in Form von Bildern eingebunden – sicher wären noch viele weitere Formulararten denkbar.
Insgesamt hat die Umsetzung recht gut funktioniert, auch wenn das Interface noch verbessert und responsive gestaltet werden könnte. In den meisten Fällen entsprach die Antwort der KI meinen inhaltlichen Erwartungen – teilweise könnten sie noch etwas humorvoller sein. Wenn Nutzer*innen sehr ordentlich und in Druckbuchstaben schreiben, gelingt es der KI, die Unterschrift korrekt zu lesen.