39C3

Hakuna Data: Eine (sehr kurze) Einführung in Kiswahili, lexikographische Daten auf Wikidata und Wikifunctions
2025-12-28 , Workshop Area

Swahili, lexikographische Daten in Wikidata und Wikifunctions. Ein Team so stark wie Timon und Pumbaa.


Angenommen du reist nach Nairobi zu einer Wikimedia-Konferenz, lernst gerade so Touri-Phrasen wie "Hujambo" und "Asante", und plötzlich beginnst du dich für die Datenstruktur der Sprache zu interessieren. Das ist mir dieses Jahr passiert. Swahili ist eine faszinierende Sprache, zu der ich ein bisschen was erzählen werde. Es geht u.a. um Nominalklassen und Verbtabellen und wie sie in einen Pandas DataFrame passen.

Leider gibt es ein Problem: Wikidata enthält kaum Swahili-Lexeme. Wörterbucheinträge sind rar und Definitionen noch rarer, sagt SPARQL, Das ist ein echtes Problem. Denn schließlich bedeuten mehr Swahili-Daten in Wikidata auch mehr Swahili im Semantic Web.

Mit Wikifunctions könnten wir Funktionen bauen, die automatisch Sätze wie einen Wikpedia-Artikela nfang erzeugen ("Nairobi ist eine Stadt”), zum Beispiel in Swahili, auf Knopfdruck! Stell dir vor, ein Wikifunction-Generator erzeugt Swahili-Sätze, während Wikidata die nötigen Lexeme stellt. Das klingt wie ein Märchen? Wenn wir kollaborativ zusammenarbeiten, kann es Wirklichket werden.