What is Hackers' Pub?

Hackers' Pub is a place for software engineers to share their knowledge and experience with each other. It's also an ActivityPub-enabled social network, so you can follow your favorite hackers in the fediverse and get their latest posts in your feed.

Been thinking a lot about @algernonI'm in my database, and I don't like it's recent post on FLOSS and LLM training. The frustration with AI companies is spot on, but I wonder if there's a different strategic path. Instead of withdrawal, what if this is our GPL moment for AI—a chance to evolve copyleft to cover training? Tried to work through the idea here: Histomat of F/OSS: We should reclaim LLMs, not reject them.

AI 企業(기업)이 F/OSS 코드로 LLM 訓練(훈련)하는 걸 막을 게 아니라, 訓練(훈련)한 모델을 公開(공개)하도록 要求(요구)해야 한다고 생각합니다.

撤收(철수)가 아니라 再專有(재전유)! GPL이 그랬던 것처럼요.

訓練(훈련) 카피레프트에 ()한 글을 썼습니다: 〈F/OSS 史唯(사유): 우리는 LLM을 拒否(거부)할 게 아니라 되찾아 와야 한다〉(한글).

4
1
2
0

빨리 저런 라이센스가 제대로 잘 만들어져서 내 레포에 적용하고 싶다.

근데 그런 라이센스가 있다한들 AI 기업들이 그걸 존중할까 하는 걱정이 있는데. 한가지 긍정적인건 LLM들이 원본 데이터를 하도 잘 외워서(이게 꼭 긍정적이지만은 않다), 가령 유명한 소설 '위대한 개츠비'를 한번 읊어보라 하면 80% 정확도로 뱉더라 라던 연구가 있다. 그래서 라이센스를 어기고 학습에 사용한 코드가 있다면 검출은 쉬울지도?

모델 프로바이더 입장에서는 시스템 프롬프트에 '코드를 외웠다는 사실이 드러나지 않게하라' 같은걸 넣을수도 있겠다. 근데 또 모델이 나쁜짓을 하게 하면 딱 그지시만 따르는게 아니라 전반적으로 부작용이 생긴다는 연구가 있다(해당 연구에선 프롬프팅이 아니고 파인튜닝이었지만). 그래서 라이센스를 어기고 학습한다음 잡아떼기가 생각보다 어려운 일일수 있겠다.

4
1
0

잇창명 EatChangmyeong💕🐱 shared the below article:

생성 AI 논의에 대해 두서없이 몇 가지

lark @lark@hackers.pub

오랫동안 머신러닝 딥러닝 AI 모델링을 업으로 삼아 왔지만 정작 LLM이나 이미지 생성 같은 생성쪽은 피해다니다 보니[1] 이쪽 주제에 대해 아는 척 하기도 쉽지 않지만.. 관련 논의들 구경하다 보면 제가 평소 생각하는 중요 지점들이 잘 이야기되지 않는 것 같아 의식의 흐름을 따라 이것저것 남겨봅니다.

우선 모델이 생성한 결과물이 어떤 성격이나 맥락을 가지는지에 따라 저작권 문제가 완전히 달라지는데, 이건 원래 저작권에 대한 전반적인 성격이 그러하기 때문입니다. 기존 저작물을 복사/변형하더라도 그 목적이 원래 저작물과 판이하게 다를수록 저작권 침해가 아니라 fair use로 인정받을 가능성이 높아집니다.

맥락과 의도가 얼마나 중요한지를 보여주는 상징적인 사례가 구글 북스 소송인데, 구글 북스는 저작권이 있는 책을 사용자들에게 그대로 보여주니까 심각한 저작권 침해로 보일 수 있지만, 법정에서는 구글 북스 웹사이트가 원래 책 내용을 그대로 접근하는 목적을 막고 검색이라는 새로운 목적에만 사용가능하도록 했다고 판단했습니다.

이러한 다양한 사례 연구들이 Foundation Models and Fair Use에 나와 있습니다. 이 논문은 AI 연구자들과 법학 연구자가 같이 썼고 여러 legal edge case가 등장해서 생각을 정리하는 데에 도움이 될 수 있습니다.

Fair use의 핵심 요소인 transformative에 대해 AI모델 입장에서 보면, 사용자가 준 입력 텍스트에 있는 정보를 추출하거나 변환하는 task가 이에 해당할 가능성이 높습니다. 가장 유명한 예시가 텍스트 번역일 것 같은데, 사용자가 입력한 텍스트를 다른 언어로 바꾸는 것이 전부고 거기에 새로운 창작성이 드러나지는 않습니다[2]. 제가 이해하기로는 LLM이나 소위 AI가 잘 한다고 알려진 task도 대부분 이러한 것입니다. 번역이라든지, 텍스트 포맷을 바꾼다든지 등등. 제 주변에 LLM 잘 활용하신다는 분들을 보면 아마도 대부분 그렇게 쓰시는 것 같고요.

여기서 UX 관점에서의 불평을 하고 싶은데요, 무조건적인 텍스트 생성이 아니라 주어진 입력을 변환하는 능력이 LLM의 핵심 가치라면 모델이나 서비스 입장에서 그런 기능만 제공하고 지나친 생성을 제한하는 UI나 기술 장치를 도입해야 하지 않을까요? LLM을 긍정적으로 생각하지만 전반적인 생성(특히 입력보다 출력이 더 자유도가 높을 경우)이 사회적으로 위험하다고 생각된다면 그러한 조치를 LLM 서비스 제공자들에게 요구할 수는 없을까요? 저는 이러한 방향의 논의를 거의 본 적이 없는데, 아마 LLM를 접해본 사람들은 긍정적이든 부정적이든 그런 인터페이스가 어쩔 수 없는 일이라고 가정하고 있어서 그런 것 같습니다. (마침 며칠 전부터 ChatGPT나 Gemini에 번역 전용 UI가 생겼다는 소식이 보이고 있습니다. 이 글을 조금 더 빨리 쓸 걸 그랬네요..)

프로그래밍 쪽에서도 비슷하게 코드를 생성하는 사용법보다는 코드를 읽고 정보를 추출해주는 쪽이 저작권이나 윤리 문제가 적고 프로그래머의 능력 향상에 도움이 되지 않을거라고 생각하고요. (제가 상상하는 최적의 코딩 AI agent는 Rubber duck에 가까운데, 모든 질문과 해답이 제 머릿속에서 나와야 한다고 생각합니다. 그 중 문제 해결이나 능력 향상에 명백히 도움 안 될 질문만 잘 쳐내주면 좋겠어요.)

cf: 최근 Moral Codes를 조금씩 읽고 있습니다. 프로그래밍과 UI와 LLM과 윤리에 대한 책입니다. 아직 전부를 차근차근 읽은 건 아니지만, 기존의 LLM 논의가 갖혀있던 프레임에 빠져나오는 데에 큰 도움이 될 수 있다고 보여서 이 주제에 관심이 있는 분들에게 추천합니다. Open access라 무료로 볼 수 있어요.


  1. Generative AI in Servo에서 제시하는 potential exceptions가 제 분야와 정확하게 겹칩니다. ↩︎

  2. 현실적으로는 학습 데이터 오류 등으로 입력에 없던 내용이 튀어나오는 문제가 있습니다. Hallucination이라는 용어가 LLM 논의할때 주로 나오지만 실제로는 번역 task 연구 논문에서 처음 제시된 용어이고 해당 분야에서 이 문제는 오랫동안 중요하게 인지되어 왔습니다. ↩︎

Read more →
4
0
1
0
0
0
0
0
0
0
0
1
0

I am extremely anti-AI, in virtually every way possible.

But creative commons licensed content charging AI to scrape them is good, actually.

Because they're creative commons. The scraping is already happening. Charging for it is like saying "you don't get to count as people."

0
0
0
0
0

twemoji的GitHub仓库和Google Noto Emoji的GitHub仓库都在争吵伊朗的国旗问题(链接在下方)。要我说,还是微软有先见之明,为了避开政治争议,所有国旗/地区旗一律不加进emoji里,不过也给我造成了一些麻烦就是了(只显示成国家/地区的ISO代码,使我不清楚到底是哪个国家)。



twemoji上的争吵:
https://github.com/twitter/twemoji/pull/1440
https://github.com/twitter/twemoji/issues/1457
Google Noto Emoji上的争吵:
https://github.com/googlefonts/noto-emoji/pull/530
表情图标百科(Emojipedia)的博客文章:
https://blog.emojipedia.org/x-expected-to-update-its-iranian-flag-emoji-design/

@board@ovo.st公共留言板

0
0
0
1
0
1
0

Hello!

I'm Cassian, I'm nonbinary (they/them) and I live in Wales. I mostly post about TV I'm watching, surveys I'm interested in, being neurodivergent, environment stuff, things I'm making, and spontaneous grumpy rants of little consequence.

I do the @gendercensus annually.

I first tried the Fediverse over 10 years ago, but didn't really get ensconced until the first wave of Mastodon in 2016.

My top tip for getting into Mastodon is:

1) Make a post that says "hi, I'm interested in..." followed by like 10 hashtags about your interests.

2) Click and follow all the hashtags in your post.

3) People will boost your post and it'll go further because of the hashtags, due to the nature of the fediverse. Follow all the people who boost you; you can unfollow later if it's too many people.

Diagram source: commons.wikimedia.org/wiki/Fil

Title: What makes up each timeline?
Text: This flow chart might help explain.
To look at it from the other direction: Your public toots will always be in your instance's local timeline. If even one person from example.instance follows you, your public toots will be visible in the federated timeline for everyone on example.instance.
(Replies don't make it into the public or federated timelines.)

Flow chart:
Start: Public toot by @Foo.
Am I following @Foo?
Yes: Toot shows in Home timeline.
No:
Is @Foo on my instance?
Yes: Toot shows in Local timeline.
No:
Does someone on my instance follow @Foo?
Yes: Toot shows in Federated timeline.
No:
Did someone on my instance boost @Foo's toot or search for it with its URL?
Yes: Toot shows in Federated timeline.
No: @Foo's toot never reaches my instance.

If you choose "unlisted" instead of "public", your toots will be seen by followers and be visible on your profile but they won't appear in the timelines.
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
편도가 계속 부어 있습니다. 바이러스 감염이 있는 것 같은데 목이 아픈 것 말고 다른 증상은 없네요... 이제 4일째니 다음주 월요일에는 다른 증상이 나올 것 같습니다.
扁桃がずっと腫れています。ウイルス感染のようですが、喉の痛み以外の症状はありません…もう4日目なので、来週の月曜日には他の症状が出るかもしれません。​:meow_uwucry:
1