대략 알고는 있었지만... 대부분의 이미지 생성 AI의 근간에 인터넷의 이미지 58억 5천만장을 닥치는 대로 크롤링한 비영리단ㅊ에 오픈소스(!!!!!!) 데이터셋 LAION-5B 가 있군요. 저작권 있는 자료는 물론이고 각종 음란물에 불법 포르노까지 포함되서 난리였고 진행중이라고. 과연 이게 데이터가 '청소'가 되었을리가 없지. 차분하게 정리하면 끔찍할 것 같다.

0

If you have a fediverse account, you can quote this note from your own instance. Search https://bsky.brid.gy/convert/ap/at://did:plc:a6qvfkbrohedqy3dt6k5mdv6/app.bsky.feed.post/3mctd6ryztk2w on your instance and quote it. (Note that quoting is not supported in Mastodon.)