Profile img

구슬아이스크림

@icecream_mable@hackers.pub · 61 following · 45 followers

인간의 언어처리와 LLM의 언어처리를 서로 비교하는 전산심리언어학(Computational Psycholinguistics)을 연구했'었'습니다.

하지만 CS덕질이 더 재밌다는 걸 깨닫고선 대학원을 탈출했습니다.

요즘은 데이터 엔지니어링과 컴파일러가 재밌어요.

Github
@kihyo-park
Blog
kihyo-park.github.io
Linkedin
kihyo-park

맨날 vscode에서 딩코 언어로만 타이핑 하고 닝겐언어는 길어봐야 주석으로 한 두 줄 쓰는 게 다였는데 (그것도 대충 씀) 오랜만에 닝겐 언어로 길게 타이핑 하니깐 머리가 띵하다 😵‍💫 그래도 예전에 논문으로 냈던 주제여서 올만에 재밌게 썼음..

1

살짝 다른 차원에서 확장해서 바라보는 얘기이긴 한데 그냥 첨언하자면 언어학의 하위 분야인 화용론에서 전제(Presuppositions)라는 주제랑 연결되는 것 같네요. 댓글에 프랑스 왕은 머머리다 예문도 써주신 걸 보니 더욱 더 그런 것 같고요. 간단하게 설명드리자면, 일단 한국어 예문으로 하면 살짝 오해의 소지가 있어[1] 영어 예문을 갖고 쓰면 다음과 같이 생각해볼 수 있습니다.

  • P: The King of France is bald.[2]
  • Q: There exists an entity that is King of France.

이 때 P의 명제가 참일 수 있는 이유는 Q를 전제로 깔고 가기 때문입니다. 이렇게 Q를 전제로 갖고 가면 P에 부정을 넣어도 (The King of France is not bald 혹은 ¬(The King of France is bald)) 여전히 그 명제는 참입니다. 하지만 실제 현실에서 Q는 거짓입니다. 왜냐하면 오늘날 프랑스는 군주국가가 아니니깐요. 그럼에도 불구하고 P는 여전히 참을 진리값으로 가지죠.

따라서 실제로 전제를 이렇게 정의하기도 합니다 (Levinson, 1983, p. 175).

  • A sentence P sematically presupposes a sentence Q iff:
  • (a) P ⊨ Q
  • (b) ~P ⊨ Q

참고로 여기서 "⊨"는 "함의한다"를 지칭하는 기호입니다 (예: "하스켈은 함수형 언어다."란 문장은 "하스켈은 언어다"란 걸 함의하죠.).

그렇다면 Q가 전제되는 건 알겠는데, 이 진리값이 무엇이느냐에 대한 질문이 생길 수 있습니다. 이에 대해서 언어학자들은 보통 크게 두 가지로 봅니다. 하나는 참으로 간주하는 거고, 다른 하나는 참도 거짓도 아니다라고 보는 거죠. 전자같은 경우엔 어떻게 보면 기계적으로 바라보는 거고, 후자의 경우엔 참/거짓이라는 기존 이치논리(two-valued logic) 혹은 1 또는 0으로 하는 불 논리에서 확장해서 Kleene의 삼치논리(three-valued logic)로 가게 되죠.

참고로 전제 성립 여부 포함 화용론 전체에서 깔고 가는 가장 큰 가정이 하나 있는데, 이 경우에는 바로 해당 발화(utterance) P, 즉 '프랑스왕은 머머리다'라는 명제가 이루어질 때 화자와 청자가 프랑스에는 왕이란 개체가 존재한다(=Q)라고 암묵적으로 서로 동의한다라는 가정입니다.


  1. 사실 문제가 영어 관사 'The'에서 시작되기 때문이라서 그렇습니다. ↩︎

  2. 논리형으로 치환하면 다음과 같습니다: ∃x(KoF(x) & ∀y(KoF(y) → y=x) & Bald(x)) where KoF stands for "King of France". ↩︎

5
1

사이버펑크를 조금이라도 파봤다면 접하게 되는 책이 하나 있는데, 바로 윌리엄 깁슨이 쓴 책 뉴로맨서다. '사이버스페이스'라는 용어를 대중화 시켰다든가 오늘날 사이버펑크라는 장르를 확립해준 책. 예전에 한 번 읽으려고 했는데 초반 챕터들만 있다가 접었는데 작가 본인이 직접 책을 읽은 걸 녹음한 게 웹에 돌아다녔는데 누가 그걸 (다시) 찾아낸 듯. 시간 나면 틀어서 들어봐야겠다.

참고로 요건 누가 유튜브에 올려 놓은 좀 더 고음질의 플레이스트고, 이건 예전에 BBC에서 오디오 연극으로 각색한 버전.

2
0
8

해커스퍼블릭 너무너무 재밌었어요! 전산언어학 and/or 자연어처리 덕질했던 저로선 @jakeseo 님 발표 들으면서 비속어 처리 같은 걸 어떻게 하셨을까 궁금해서 질문드렸었는데 상세하게 답변해주셔서 감사드리면서 또 재밌게 들었고, 달고나님 발표는 처음에 딱 들으면서 속으로 '옛한글 폰트도 지원하시려나?' 했는데 고려 중이라고 해서 자언어 덕후[1]로서 내심 기뻤습니다...뒤에 깜짝 라이트닝 토크들도 재밌었고요! 무엇보다 따뜻하고 재밌는 분위기에 정말로 즐겁게 참여할 수 있었어요. 행사 진행하시느라 고생하셨던 운영진분들께 수고와 감사의 말씀 전해드립니다. 다음 해커스퍼블릭도 꼭 갈게요!


  1. 사실 국제음성기호도 있었으면 더 멋있겠다라고 생각했어요 ↩︎

@icecream_marble

#해석가능성 #컴파일러 #DB #분산시스템
6
5
0

덕질하고 싶은 프로그래밍 언어도 많고 CS개념도 많고 프레임워크도 많고 취업을 위한 딩코보다는 그냥 내가 재밌어서 하는 딩코도 원없이 하고 싶고 그러고 싶당 누가 시간과 정신의 방을 만들어줬으면 좋겠어

2

올만에 컴파일러 lexical analysis 설명 읽으니깐 짱 재밌으면서도 동시에 쓰여진 코드도 이해하려고 하니깐 머리가 터질 것 같군...닝겐이 자연어를 처리하는 과정도 재밌는데 기계가 입력 기호들을 처리하는 걸 들여다볼 수 있다는 사실 그 자체가 되게 신기한 것 같다. 전자는 언어라는 추상적 정보를 뭉탱이로 있다가 유링게슝하게 여러 층위로 쪼개서 (예: 통사, 의미) 순차적 혹은 병렬적으로 처리한다는 게 재밌고 후자는 기호를 임의의 단위로 쪼개는 과정들을 구현 수준에서 디테일하게 볼 수 있다는 게 짱 신기하다...여튼 머리도 식힐 겸 운동하러 가야지.

2

취미로 하고 있는 오타쿠 밴드의 로고를 만들어해야하는데 똥손이라서 Canva + Gemini로 해서 프롬프트 갓챠 성공해서 밴드 사람들한테 뿌리고선 고르라고 했다. 근데 문득 궁금한 게 이러면 저작권은 어디로 가는 걸까 싶어서 호기심에 미국 저작권청 문서국내 저작권위원회 문서를 보려다가...그냥 할 일 해야지

3
0

저번에 산 RDB 책 보면서 글로 정리하고 있는데 연구덕질 습관이 다시 발현되어서 정신 차리고 보니 DB 교과서들에서 수리적으로 정의하는 것들까지 들여다보고 있는데 진짜 열 살 버릇 여든까지 가는 거 맞는 것 같음...아직 초반 챕터들인뎅..적당한 시점에서 가지치기를 끝낼 줄 알아야하는데 이걸 조절하는 게 늘 힘들다.

0
2

컴파일러 책 얇은 거 하나 읽고 있는데 문맥자유문법(CFG)이 나와서 오랜만이야 친구 하면서 보는 중...언어학 덕질했던 사람으로선 이걸 보니 하나 떠오르는 게 하나 있는데, 1957년 Syntactic Structures에서 촘스키는 이 CFG를 갖고 닝겐의 자연어가 지니는 통사적 성질(의미 아님)을 마르코프 과정을 통해서 설명하기엔 한계가 있음을 지적하며 변형문법(Transformational Grammar)를 제안한 게 생각난다. 즉, 닝겐 자연어의 통사 정보를 설명할 문법을 제안한 것(다시 한 번 말하지만 의미가 아님). 물론 이후엔 훨씬 더 발전하고 추상화됐고, PCFG라 하여 CFG에 확률을 넣은 CFG 확장판도 있다[1]. 참고로 오토마타 이론에서 나오는 촘스키-슈첸버거 위계나 촘스키 정규형할 때 얘기하는 그 촘스키 맞다.

개인적으로 촘스키의 저 시절 연구들이 되게 재밌다고 생각하는데 (물론 훑어만 봤지만...) 이후엔 사실상 오토마타 이론쪽으론 손 뗀 것 같아서 좀 아쉽기도 함...여튼 컴파일러 책 보다가 갑자기 생각나서 씀. 그나저나 도대체 난 언제 쯔음 나만의 프로그래밍 언어를 만들 수 있을까?


  1. 정규언어에서 은닉 마르코프 모형으로 확장시키는 거랑 똑같다. ↩︎

8
2

대학원 다닐 때 CS 수업들 중에 재밌어 보이는 걸 몇 개 청강했었는데 그 중 하나가 DB 수업이었고 되게 재밌게 들었었음...이후에 SQL 덕질(=공부)하다가 하면 할수록 RDB를 다시 좀 제대로 훑어봐야겠다란 생각이 들어서 이리저리 찾다가 발견한 책. 괜찮은 책인 것처럼 보였는데 절판이어서 못 구하다가 어떻게 중고로 구했다. 서문 보니깐 SQL 쿼리들을 어떻게 쓰는가에 대해선 책이 많지만 정작 RDB가 무엇이고 이걸 어떻게 사용하는가를 쉽게 요약해서 정리한 책이 없어서 작가가 책을 썼다고 하는데, 잘 산 것 같음...이거 보고 나면 다른 유명한 SQL 튜닝 책들 봐야지.

개발 서적입니다.

제목: 관계형 데이터베이스 실전 입문
지은이: 오쿠노 미키야
옮긴이: 성창규
5

요즘 오에카키 같은 2000년대 초반 인터넷 유물?같은 게 종종 머릿속에 떠오르는데 분명 내가 어릴 때여서 추억화된 것 때문인 걸 알고 있음에도 그 시절 인터넷 서브컬쳐들이 좀 그리울 때가 있다. 뭔가 그 특유의 투박한 디자인들이 자꾸 떠오름...

5

CS를 나름 제대로 덕질했다고 생각한지 대충 1년 차...대학원에서 딩코할 때는 자료구조니 뭐니 그런 거 1도 모르는 상태에서 그저 돌아가기면 하면 된다란 마음으로 내가 무슨 코드를 쓰고 있는지 조차 모르면서 막 복붙해서 썼고, 솔직히 간단한 유저 정의 함수 조차도 스스로 못 짜는 수준이었는데 요즘은 그 때보다는 한 2% 정도는 나아진 것 같다란 생각이 든다. 그리고 무엇보다 딩코가 대학원 때와는 다르게 재밌다는 점...나 잘 하고 있는 거 맞겠지?

2