Eine grundlegende technische Differenz, die m.E. jede wissenschaftspolitische LLM Strategie berücksichten muss:

Generative (autoregressive) Modelle (die würden wir z.B. für Code Generation brauchen) sind etwas anderes als autoencoding Modelle (für z.B. Klassifikation) oder seq2seq Modelle (für z.B. (multimodale) Übersetzungen). Die autoencoders müssten im Vergleich zu GPT, Claude & Co. - bei gleicher Skalierungsstufe wohlgemerkt - Klassifikation und Informationsextraktion *viel besser* beherrschen, kein ausbeuterisches RLHF benötigen und nur wenig für Halluzinationen anfällig sein. Sie sind halt von den kommerziellen Anbietern nicht auf dieselbe Stufe hochskaliert worden wie die "Chat" Modelle.

Das müssten wir in der Wissenschaft vielleicht selber machen, aber das hätte ja auch Vorteile.

Technische Frage: Ist es eigentlich möglich, ein autoencoding oder seq2seq Modell so zu trainieren, dass es - wie die bekannten Chat-Modelle - beliebige Anweisungen in natürlicher Sprache entgegennehmen und verarbeiten kann, oder ist dazu die generative Architektur unabdingbar?

Das ist ja vielleicht der größte Vorteil des Trainings, das diese Modelle erfahren haben.

0

If you have a fediverse account, you can quote this note from your own instance. Search https://hcommons.social/users/anwagnerdreas/statuses/114115366819521350 on your instance and quote it. (Note that quoting is not supported in Mastodon.)