{"id":288645,"date":"2025-07-23T21:40:11","date_gmt":"2025-07-23T21:40:11","guid":{"rendered":"https:\/\/www.europesays.com\/de\/288645\/"},"modified":"2025-07-23T21:40:11","modified_gmt":"2025-07-23T21:40:11","slug":"forschende-entwickeln-ein-chatgpt-fuer-portugiesisch-universitaet-bonn","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/de\/288645\/","title":{"rendered":"Forschende entwickeln ein ChatGPT f\u00fcr Portugiesisch \u2014 Universit\u00e4t Bonn"},"content":{"rendered":"<p><strong>UM WAS GEHT ES?<\/strong><br \/>GigaVerbo ist der Name des Datensatzes, den die Forschenden erstellt haben. Das Projekt \u201eTucano: Advancing Neural Text Generation for Portuguese\u201c zielt darauf ab, die Ressourcenl\u00fccke in der portugiesischen nat\u00fcrlichen Sprachverarbeitung (NLP) zu schlie\u00dfen, indem es hochwertige Datens\u00e4tze und hochmoderne Sprachmodelle bereitstellt, die speziell auf Portugiesisch zugeschnitten sind. Die Erstellung und Freigabe des GigaVerbo-Korpus mit 200 Milliarden deduplizierten Token und der Tucano-Modellfamilie soll vollst\u00e4ndig offen und in reproduzierbarer Weise Fortschritte bei der neuronalen Texterzeugung f\u00f6rdern und einen gleichberechtigten Zugang unterst\u00fctzen.<\/p>\n<p><strong>WIE SIND SIE VORGEGANGEN?<\/strong><br \/>Die Forschenden haben portugiesische Korpora aus verschiedenen Quellen zusammengestellt, um eine hohe sprachliche Vielfalt und Qualit\u00e4t zu gew\u00e4hrleisten. Diese Korpora wurden dann dedupliziert und gefiltert, um den GigaVerbo-Datensatz zu bilden. Anhand dieses Datensatzes trainierten sie auf dem Marvin-Supercomputer mehrere Decoder-Modelle, die strengen Bewertungs- und Optimierungszyklen folgten.<\/p>\n<p><strong>WELCHE L\u00dcCKE F\u00dcLLT DAS PROJEKT?<\/strong><br \/>Das Projekt schlie\u00dft zwei gro\u00dfe L\u00fccken: Erstens: Das Fehlen von umfangreichen Open-Source-Ressourcen f\u00fcr Portugiesisch, eine Sprache, die oft im Schatten von Sprachen mit gro\u00dfen Ressourcen wie Englisch steht. Zweitens: Das Fehlen von Open-Source-LLM-Entwicklung, was die wissenschaftliche Reproduzierbarkeit dieser Modelle behindert.<\/p>\n<p><strong>WIE HABEN SIE DEN SUPERCOMPUTER MARVIN GENUTZT?<\/strong><br \/>Der Marvin-Cluster war entscheidend f\u00fcr das Training der Tucano-Modelle. Wir nutzten seine leistungsstarken Rechenkapazit\u00e4ten, um den gro\u00dfen GigaVerbo-Datensatz effizient zu verarbeiten, Transformationsmodelle zu trainieren und umfangreiche Evaluierungen mit mehreren Benchmarks durchzuf\u00fchren.<\/p>\n<p><strong>WAS IST DER N\u00c4CHSTE SCHRITT?<\/strong><br \/>Die Forschenden arbeiten daran, ihre Entwicklungen zu skalieren, ihren Datensatz zu verbessern und gr\u00f6\u00dfere Modelle zu trainieren. Au\u00dferdem entwickeln sie Grundlagen f\u00fcr andere Sprachen mit geringen Ressourcen, wie Bengali und Hindi.<\/p>\n<p><strong>WER WAR AN DEM PROJEKT BETEILIGT?<\/strong><br \/>Nicholas Kluge Correa (Center for Science and Thought), Aniket Sen (High Performance Computing and Analytics Lab und Helmholtz-Institut f\u00fcr Strahlen- und Kernphysik), Sophia Falk (Institute for Science and Ethics) und Shiza Fatimah (Institute for Computer Science).<\/p>\n<p><strong>WIE LAUTET DIE QUELLE?<\/strong><br \/>Nicholas Kluge Corr\u00eaa, Aniket Sen, Sophia Falk, Shiza Fatimah: Tucano: Advancing Neural Text Generation for Portuguese, Patterns, DOI: <a data-linktype=\"external\" href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2666389925001734?via%3Dihub\" target=\"_self\" title=\"\" rel=\"nofollow noopener\">10.1016\/j.patter.2025.101325<\/a><\/p>\n<p><strong>WO KANN ICH MEHR ERFAHREN?<\/strong><br \/>Dr. Nicholas Kluge Correa, Transdisziplin\u00e4rer Forschungsbereich \u201eSustainable Futures\u201c, Institut f\u00fcr Philosophie, Center for Science and Thought, Tel. +49 (0)228\/73-54017, E-Mail: <a href=\"https:\/\/www.uni-bonn.de\/de\/neues\/mailto:kluge@uni-bonn.de\" rel=\"nofollow noopener\" target=\"_blank\">kluge@uni-bonn.de<\/a>, Internet: <a href=\"https:\/\/nkluge-correa.github.io\/Tucano\/\" rel=\"noopener nofollow\" target=\"_blank\">https:\/\/nkluge-correa.github.io\/Tucano\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"UM WAS GEHT ES?GigaVerbo ist der Name des Datensatzes, den die Forschenden erstellt haben. Das Projekt \u201eTucano: Advancing&hellip;\n","protected":false},"author":2,"featured_media":4215,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1842],"tags":[1741,3364,29,30,1209],"class_list":{"0":"post-288645","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-bonn","8":"tag-bonn","9":"tag-de","10":"tag-deutschland","11":"tag-germany","12":"tag-nordrhein-westfalen"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@de\/114904722520986428","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/288645","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/comments?post=288645"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/288645\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media\/4215"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media?parent=288645"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/categories?post=288645"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/tags?post=288645"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}