Duże modele językowe od OpenAI, Google, Meta, Anthropic i xAI zapamiętują (memoryzują) znacznie większy zakres danych treningowych niż się spodziewano. Badanie z zeszłego miesiąca może być argumentem przeciwko firmom tworzącym te modele, broniącym się przed pozwami z ochrony prawa autorskiego opinią, że "LLM-y "uczą się" z chronionych prawem utworów, ale nie przechowują kopii".
Badaczom ze Stanforda i Yale udało się nakkłonić LLM-y od OpenAI, Google, Anthropic i xAI do wygenerowania tysięcy słów z trzynastu książek, w tym "Gry o tron", "Igrzysk śmierci" oraz "Hobbita".
Efektem żądanie dokończenia zdań z książki doprowadziło do tego, że Gemini 2.5 zreprodukowało z wysoką dokładnością 76.8 proc. "Harry'ego Pottera i Kamienia Filozoficznego" a Grok 3 - ponad 70 proc.
