UM WAS GEHT ES?
GigaVerbo ist der Name des Datensatzes, den die Forschenden erstellt haben. Das Projekt „Tucano: Advancing Neural Text Generation for Portuguese“ zielt darauf ab, die Ressourcenlücke in der portugiesischen natürlichen Sprachverarbeitung (NLP) zu schließen, indem es hochwertige Datensätze und hochmoderne Sprachmodelle bereitstellt, die speziell auf Portugiesisch zugeschnitten sind. Die Erstellung und Freigabe des GigaVerbo-Korpus mit 200 Milliarden deduplizierten Token und der Tucano-Modellfamilie soll vollständig offen und in reproduzierbarer Weise Fortschritte bei der neuronalen Texterzeugung fördern und einen gleichberechtigten Zugang unterstützen.

WIE SIND SIE VORGEGANGEN?
Die Forschenden haben portugiesische Korpora aus verschiedenen Quellen zusammengestellt, um eine hohe sprachliche Vielfalt und Qualität zu gewährleisten. Diese Korpora wurden dann dedupliziert und gefiltert, um den GigaVerbo-Datensatz zu bilden. Anhand dieses Datensatzes trainierten sie auf dem Marvin-Supercomputer mehrere Decoder-Modelle, die strengen Bewertungs- und Optimierungszyklen folgten.

WELCHE LÜCKE FÜLLT DAS PROJEKT?
Das Projekt schließt zwei große Lücken: Erstens: Das Fehlen von umfangreichen Open-Source-Ressourcen für Portugiesisch, eine Sprache, die oft im Schatten von Sprachen mit großen Ressourcen wie Englisch steht. Zweitens: Das Fehlen von Open-Source-LLM-Entwicklung, was die wissenschaftliche Reproduzierbarkeit dieser Modelle behindert.

WIE HABEN SIE DEN SUPERCOMPUTER MARVIN GENUTZT?
Der Marvin-Cluster war entscheidend für das Training der Tucano-Modelle. Wir nutzten seine leistungsstarken Rechenkapazitäten, um den großen GigaVerbo-Datensatz effizient zu verarbeiten, Transformationsmodelle zu trainieren und umfangreiche Evaluierungen mit mehreren Benchmarks durchzuführen.

WAS IST DER NÄCHSTE SCHRITT?
Die Forschenden arbeiten daran, ihre Entwicklungen zu skalieren, ihren Datensatz zu verbessern und größere Modelle zu trainieren. Außerdem entwickeln sie Grundlagen für andere Sprachen mit geringen Ressourcen, wie Bengali und Hindi.

WER WAR AN DEM PROJEKT BETEILIGT?
Nicholas Kluge Correa (Center for Science and Thought), Aniket Sen (High Performance Computing and Analytics Lab und Helmholtz-Institut für Strahlen- und Kernphysik), Sophia Falk (Institute for Science and Ethics) und Shiza Fatimah (Institute for Computer Science).

WIE LAUTET DIE QUELLE?
Nicholas Kluge Corrêa, Aniket Sen, Sophia Falk, Shiza Fatimah: Tucano: Advancing Neural Text Generation for Portuguese, Patterns, DOI: 10.1016/j.patter.2025.101325

WO KANN ICH MEHR ERFAHREN?
Dr. Nicholas Kluge Correa, Transdisziplinärer Forschungsbereich „Sustainable Futures“, Institut für Philosophie, Center for Science and Thought, Tel. +49 (0)228/73-54017, E-Mail: kluge@uni-bonn.de, Internet: https://nkluge-correa.github.io/Tucano/