Eine grundlegende technische Differenz, die m.E. jede wissenschaftspolitische LLM Strategie berücksichten muss:

Generative (autoregressive) Modelle (die würden wir z.B. für Code Generation brauchen) sind etwas anderes als autoencoding Modelle (für z.B. Klassifikation) oder seq2seq Modelle (für z.B. (multimodale) Übersetzungen). Die autoencoders müssten im Vergleich zu GPT, Claude & Co. - bei gleicher Skalierungsstufe wohlgemerkt - Klassifikation und Informationsextraktion *viel besser* beherrschen, kein ausbeuterisches RLHF benötigen und nur wenig für Halluzinationen anfällig sein. Sie sind halt von den kommerziellen Anbietern nicht auf dieselbe Stufe hochskaliert worden wie die "Chat" Modelle.

Das müssten wir in der Wissenschaft vielleicht selber machen, aber das hätte ja auch Vorteile.

0

If you have a fediverse account, you can quote this note from your own instance. Search https://hcommons.social/users/anwagnerdreas/statuses/114115349996232853 on your instance and quote it. (Note that quoting is not supported in Mastodon.)