What is Hackers' Pub?

Hackers' Pub is a place for software engineers to share their knowledge and experience with each other. It's also an ActivityPub-enabled social network, so you can follow your favorite hackers in the fediverse and get their latest posts in your feed.

0
0
1

사람들이 군대얘기하면 아무말 할말도 없어짐
주변에서 다들 입대했는데 넌 왜 안갔냐고 자꾸 추궁함
어디 몸 아프냐고 이상한 시선으로 바라봄
아무것도 못하고 계속 병무청에 붙잡혀있음
병역기피자라서 주변에서 보는 시선 이상함
군복무한 사람들이 재활용 안되는 폐급이라고 놀림

0
1
1
0
0
0
1

기사에서 언급된 반박 논문인 The Illusion of the Illusion of Thinking[1]을 읽어봤는데 (논문 작성을 클로드한테 딸깍이시킨 건 꽤 짜치지만) 원본 논문[2]에 대한 지적 하나하나가 꽤 의미가 있어보여서 타래로 써보려고 합니다. * 원본 논문도 어느 정도 읽어봤습니다. * 저는 컴공 전공이지만 AI에 조예가 깊지는 않아서 요약 실수가 있을 수 있습니다.

RE: https://bsky.app/profile/did:plc:v2ob6je7otkaffdktzdaywzp/post/3lrpmdfxzmc27

0
0
2
0
2

The fruits of following my curiosity yesterday - a little Sunday Study on citations.

tlohde.com/blog/2025/06/becomi

Motivated by @sundogplanetsProf. Sam Lawler 's post on citing old papers: mastodon.social/@sundogplanets

I haven't checked, because I wanted to do it anyway, but I'm sure someone out there has done this more thoroughly and properly.

A ridgeline plot showing 15 distributions of referenced paper published dates, one every 5 years from 1950-2020. The ridges steadily move to the right as publication date increases. Each distribution is abruptly cut at its rightmost edge, and has a long tail to the left. Over time the distribution becomes less skewed, and flatter (but still skewed)
0
0
0

유로폴의 "Trace an Object"(사물 추적) 프로그램

유로폴의 노력에도 불구하고, 아동 성범죄자들로 부터 아이들을 구출할 수 있는 어떠한 단서도 못찾고 있는 경우가 있다고 함.

그래서 성범죄자들이 촬영한 영상과 사진에서, 피해자가 착용하고 있던 의류 부분만 대중에 공개함으로서 피해자의 신원 파악에 도움이 될 수 있는 단서를 얻고있음.

europol.europa.eu/stopchildabu

0
0
1
1
0
0
1
0
0

‘보수 텃밭’ 중 하나인 PK/부산에서 페미니스트로 목소리를 내어온 세 명의 필자(최나현, 양소영, 김세희)가 광장에 나온 다른 여성들을 만나 기록한 이야기다. 비정규직, 청소년, 성노동자, 트랜스젠더, 의료인, 고졸 생산직… 등 다양한 위치와 환경에 있는 여성들이 왜 광장에 나와야 했는지, 자신에게 광장은 어떤 의미가 됐는지 말한다. 기사입력 2025/06/15 [19:54] ildaro.com/10205

≪일다≫ 광장의 ‘2030 여성’의 목소리 또 삭제하려...

0
1
0
0
0

‘보수 텃밭’ 중 하나인 PK/부산에서 페미니스트로 목소리를 내어온 세 명의 필자(최나현, 양소영, 김세희)가 광장에 나온 다른 여성들을 만나 기록한 이야기다. 비정규직, 청소년, 성노동자, 트랜스젠더, 의료인, 고졸 생산직… 등 다양한 위치와 환경에 있는 여성들이 왜 광장에 나와야 했는지, 자신에게 광장은 어떤 의미가 됐는지 말한다. 기사입력 2025/06/15 [19:54] ildaro.com/10205

≪일다≫ 광장의 ‘2030 여성’의 목소리 또 삭제하려...

0

Good morning Fedi friends!

This is the last week my wonderful interns @samaabergSamuel Aaberg and @patel.riyenThe Life of Tarzan are here in Paris 🥲

We're currently creating short extracts of the Fedi promo video that anybody could use on their own social media accounts. We'll share them by Friday.

And Sam & Riyen just talked me into uploading the video to YouTube, to spread the message far and wide. Here we go: youtu.be/YRJHIJy5Nno

Adding more subtitles by volunteers (Polish, Catalan, etc.) soon! ❤️

0
0
0
1
0
0
0
0
0
0
0

유로폴의 "Trace an Object"(사물 추적) 프로그램

유로폴의 노력에도 불구하고, 아동 성범죄자들로 부터 아이들을 구출할 수 있는 어떠한 단서도 못찾고 있는 경우가 있다고 함.

그래서 성범죄자들이 촬영한 영상과 사진에서, 피해자가 착용하고 있던 의류 부분만 대중에 공개함으로서 피해자의 신원 파악에 도움이 될 수 있는 단서를 얻고있음.

europol.europa.eu/stopchildabu

0
0
0
0
0
0

문제의 난이도를 최소 이동횟수로 정의한 것에도 문제가 있다는 지적이 있습니다. 하노이의 탑은 정해진 길만 따라가면 풀리는 문제지만, 강 건너기 등 다른 문제는 매번 이동할 때마다 여러 가지 선택지가 나오기 때문에 모든 경우의 수를 확인해봐야 하는데 원본 논문에서는 문제의 답을 탐색하는 난이도를 고려하지 않고 있습니다.

같은 논문 발췌:

6 Reevaluating Complexity Claims

The authors use "compositional depth" (minimum moves) as their complexity metric, but this conflates mechanical execution with problem-solving difficulty:

Table 1: Problem complexity is not determined by solution length alone

Tower of Hanoi
* Solution Length: 2^N - 1
* Branching Factor: 1
* Search Required: No

River Crossing
* Solution Length: ~4N
* Branching Factor: >4
* Search Required: Yes (NP-hard)

Blocks World
* Solution Length: ~2N
* Branching Factor: O(N^2)
* Search Required: Yes (PSPACE)

Tower of Hanoi, despite requiring exponentially many moves, has a trivial O(1) decision process per move. River Crossing, with far fewer moves, requires complex constraint satisfaction and search. This explains why models might execute 100+ Hanoi moves while failing on 5-move River Crossing problems.
0

위의 토큰 개수 문제의 연장선으로, 문제를 직접 푸는 대신 문제를 푸는 코드를 출력하라고 하면 정확도가 올라간다는 지적도 있습니다. (예산 문제 때문에 통계적으로 유의한 데이터는 뽑지 못했다고 합니다.) 다만 원본 논문과 달리 프롬프트에서 '하노이의 탑'을 직접적으로 언급한 것이 영향을 미쳤을 수 있습니다.

같은 논문 발췌:

5 Alternative Representations Restore Performance

To test whether the failures reflect reasoning limitations or format constraints, we conducted preliminary testing of the same models on Tower of Hanoi N=15 using a different representation:

Prompt: "Solve Tower of Hanoi with 15 disks. Output a Lua function that prints the solution when called."

Results: Very high accuracy across tested models (Claude-3.7-Sonnet, Claude Opus 4, OpenAI o3, Google Gemini 2.5), completing in under 5,000 tokens.

The generated solutions correctly implement the recursive algorithm, demonstrating intact reasoning capabilities when freed from exhaustive enumeration requirements.
0

논문에서 제시한 4가지 문제 중 하노이의 탑은 원래 이동 횟수가 기하급수적으로 길어지는 문제인데, * 애초에 토큰 제한이 있어서 답안이 그 안에 다 들어가지도 않고 (원본 논문에서 사고 과정이 붕괴한다고 지목하는 지점이 토큰 제한과 일치함) * 제한 안에 들어간다고 해도 토큰 수가 너무 많아서 작은 노이즈도 기하급수적으로 영향을 끼칠 수밖에 없다는 지적이 있습니다.

같은 논문 발췌:

4 Physical Token Limits Drive Apparent Collapse

Returning to the Tower of Hanoi analysis, we can quantify the relationship between problem size and token requirements. The authors' evaluation format requires outputting the full sequence of moves at each step, leading to quadratic token growth. If approximately 5 tokens are needed per move in the sequence:

T(N) ≈ 5(2^N - 1)^2 + C

Given the token budgets allocated (64,000 for Claude-3.7-Sonnet and DeepSeek-R1, 100,000 for o3-mini), maximum solvable sizes are:

N_max ≈ floor(log2(sqrt(L_max/5)))
≈ 7 - 8 (Claude-3.7, DeepSeek-R1), 8 (o3-mini)

The reported "collapse" beyond these sizes is consistent with these constraints.같은 논문 발췌:

2.1 Consequences of Rigid Evaluation

Such evaluation limitations can lead to other analytical errors. Consider the following statistical argument: if we grade Tower of Hanoi solutions character-by-character without allowing for error correction, the probability of perfect execution becomes:

P(all correct) = p^T

where p is per-token accuracy and T is total tokens. For T = 10,000 tokens:

p = 0.9999: P(success) < 37%
p = 0.999: P(success) < 0.005%

This type of "statistical inevitability" argument has in fact been put forward in the literature as a fundamental limitation of LLM scaling, yet it assumes models cannot recognize and adapt to their own limitations, an assumption contradicted by the evidence above.
0

우선 원본 논문에서는 문제의 정답을 'moves = [[1, 0, 1], [2, 0, 2], [1, 1, 2], ...]'의 형태로 모든 이동을 하나하나 작성하도록 프롬프트를 짰고 정규식을 써서 풀이 과정에서 답안을 추출했는데, 모델 스스로가 패턴을 인식하고 알아서 끊는 것[3]과 망가지는 것을 구분하지 못한다는 지적이 있습니다.

The Illusion of the Illusion of Thinking 발췌:

2 Models Recognize Output Constraints

A critical observation overlooked in the original study: models actively recognize when they approach output limits. A recent replication by @scaling01 on Twitter [2] captured model outputs explicitly stating ”The pattern continues, but to avoid making this too long, I’ll stop here” when solving Tower of Hanoi problems. This demonstrates that models understand the solution pattern but choose to truncate output due to practical constraints.

This mischaracterization of model behavior as ”reasoning collapse” reflects a broader issue with automated evaluation systems that fail to account for model awareness and decision-making. When evaluation frameworks cannot distinguish between ”cannot solve” and ”choose not to enumerate exhaustively,” they risk drawing incorrect conclusions about fundamental capabilities.
0

기사에서 언급된 반박 논문인 The Illusion of the Illusion of Thinking[1]을 읽어봤는데 (논문 작성을 클로드한테 딸깍이시킨 건 꽤 짜치지만) 원본 논문[2]에 대한 지적 하나하나가 꽤 의미가 있어보여서 타래로 써보려고 합니다. * 원본 논문도 어느 정도 읽어봤습니다. * 저는 컴공 전공이지만 AI에 조예가 깊지는 않아서 요약 실수가 있을 수 있습니다.

RE: https://bsky.app/profile/did:plc:v2ob6je7otkaffdktzdaywzp/post/3lrpmdfxzmc27

0
0