DB 꿀잼
구슬아이스크림
@icecream_mable@hackers.pub · 61 following · 45 followers
인간의 언어처리와 LLM의 언어처리를 서로 비교하는 전산심리언어학(Computational Psycholinguistics)을 연구했'었'습니다.
하지만 CS덕질이 더 재밌다는 걸 깨닫고선 대학원을 탈출했습니다.
요즘은 데이터 엔지니어링과 컴파일러가 재밌어요.
Github
- @kihyo-park
Blog
- kihyo-park.github.io
Linkedin
- kihyo-park
오 ㅋㅋ 곧도착 표시가 언제 이렇게 바뀌었지 ㅋㅋㅋㅋ 귀엽다
연휴 동안엔 DB랑 러스트를 파야겠다
우와 오랜만에 보는 규칙기반 전문가 시스템이당...다른 분야는 깜냥이 없다시피해서 모르겠지만 언어학, 특히 통사론 및 전산심리언어학(Computational Psycholinguistics)쪽은 내가 마지막으로 연구덕질 했을 때 시점 기준으로 봤을 때 많이들 연구되는 문법이론이랑 모델들 중 거의 대부분이 규칙 기반이었다. 예컨대 통사론의 경우 생성문법쪽에선 넓게 말하면 CFG를 자연어쪽에 적용될 수 있게끔 확장 및 변형시켜서 이론화 시킨 거고, 그걸 기반으로 해서 규칙들 만들어서 코퍼스에다가 POS 태깅 학습 시키고 그러곤 함..전산심리언어학쪽에선 꽤나 자주 봤었던 모델이 ACT-R이라 해서 닝겐의 인지과정, 특히 작업 및 장기기억에 포커스를 맞춰서 구현한 인지아키텍처가 하나 있는데 이거 갖고 닝겐의 언어처리를 시뮬레이션한 거랑 실제로 사람 대상으로 해서 얻은 행동반응 데이터를 비교해서 연구하는 게 있었음..그리고 이것 또한 규칙기반 시스템이다.
물론 LLM이 나오고나서부턴 관심이 많이들 바뀌었지만..discussion에 달린 댓글에도 적혀있듯 이런 규칙기반 시스템의 이점은 모델이 '왜' 이런 결정을 했고 맛이 갔는지(?) 잘 알 수 있다는 건데, 효율적으로 잘 돌아가는 것도 중요하지만 그만큼 '왜' 그러한 방식으로 돌아가는 것 또한 중요하게 여기는 연구자들한텐 확실히 이 시스템이 LLM에 비하면 이해하고 설명하기 용이하긴 하다. 물론 LLM도 비슷하게 interpretability라는 활발한 분야가 있고 나도 대학원 다닐 때 그 쪽으로 연구했지만 확실히 규칙기반 모델 갖고 쓴 논문들이 이해하기도 쉽고 깔끔해서 좋긴 했었음...하지만 그런 논문들을 읽을 때 마다 동시에 모델이 깔고 있는 가정과 rationale에 종속되어버린 채 결과를 해석할 수도 있다는 생각도 떠오르면서 어찌보면 LLM이 그런 면에선 좀 더 제한이 덜 하지 않을까한 생각도 했었다. 여튼 오랜만에 규칙기반 시스템 보니깐 반가워서 써봤습니다.
오늘은 TRPG 하는 날!!!
아 모야 람다로 풀 수 있는 거였다니 난 멍충해 ㅠ
그래프 행렬 문제 재밌네 뭔가 되게 다이나믹 해보여서 신기함
여름에 졸업하고 급하게 미국에서 한국으로 오느라 이민가방을 못 들고 친구한테 맡기고 왔는데 친구가 보내줄 수 있다고 해서 무한 감사 중…흑 겨울옷 안 사도 된다!!! 덤으로 학교에서 월급 못 받은 거 있으니깐 받으라 해서 그것도 받을 수 있게 됨 후훟
오오오오!!! 짱 재밌어요!!
연휴 시작 기념 나를 먹는 나!!!
R 싫어하는 프로그래머들이 적지 않은 건 알고 있지만 통계 관련 해선 이만한 언어는 없다고 생각하는데 트위터 탐라 보다가 R 갖고 뭐라하는 거 막상 보니깐 맘이 아프다 ㅠ
백엔드도 재밌어 보이고 데이터 분석도 재밌어 보이고 데이터 엔지니어링도 재밌어 보이고...대학원 다닐 때 연구덕질 했던 거랑 뭔가 큰 맥락에서 진행 과정들이 비슷한 것 같아 보여서 기시감과 동시에 알 수 없는 친근감도 느껴지고...그렇습니다.
오늘은 (enhanced) ER model 챕터들 좀 읽고 러스트 덕질 좀 하다가 리트딩코 몇 개 풀고 자야겠당
DB 책 보는데 논리학 기본 파트들을 쭉 훑어주길래 올만에 복습이나 할까 하면서 보고 있는데 문제는 영어 원어가 안 적혀져있고 다 번역어로만 적혀있어서 다시 역으로 번역하면서 보고 있음...정량자는 quantifier, 속박변수는 bound variable, 범용정량자는 universal quantifier 등등..이런 용어들 학교 다닐 때 형식 의미론 수업에서 영어로만 배웠지 (근데 그마저도 가르치는 교수가 막말로 더럽게 못 가르쳤음) 한국어로는 사실상 처음 보는 거라서 좀 헤매고 있다 😵💫
부산 내려가자마자 딩코 해야할 거 있어서 첫날 오전 공연들은 놓쳤지만 그래도 그 날 포함 총 3일 동안 정말로 재밌게 보냈다...울고 웃고 방방 뛰고 슬램 하고 목소리 터져라 노래 따라부르고 누군지도 모르는 사람들이랑 진흙밭에서 같이 춤추고 어깨동무하고 기차놀이하고..어른인 척 하나도 안 해도 되어서 너무 좋았음 내년에 갈 수 있으면 또 가야지!! 이제 다시 딩코의 세계로!!
예전에 우스개소리로 낮에는 프로그래머 저녁에는 락밴드 기타리스트로서의 삶을 살고 싶다고 했는데 정신 차리고 보니 진짜 IT쪽으로 취준하고 있고..오타쿠 밴드에서 곧 공연한다고 열심히 기타 연습하고 있고..둘 다 잘 돼면 정말 행복할 것 같다는 생각이 들었다
인생의 대부분을 락음악을 좋아했던 사람으로서 밴드 활동을 실제로 하고 또 밴드 음악을 좋아하는 사람들을 위한 서비스를 해보고 싶은데 뭐가 있을까? 그런 게 있으면 누가 좀 데려가줬으면 좋겠고 아니라면 혼자서 좀 생각해봐야할 듯...스포티파이같은 음원 스트리밍 서비스가 메인인 곳에서 일해보고 싶기도 하다..물론 뽑아주면! 부산락페에서 너무 재밌게 즐기는 와중에 생각나서 써봄.
오늘의 딩코는 여기까지!! 이제 부산락페 가서 씐나게 즐길 거야!!!!!
도배금지 필터링 따위...2000년대 초반 야생의 온라인 게임 시절을 거친 날 막을 수 ㅇ벗다
대학원 다닐 때 주로 썼던 통계기법이 일반화/선형 혼합효과 모형(+베이지언)이었는데 데이터 분석쪽에서 쓰이는 가설검정 기법들은 딱 통계분석 책 피면 항상 나오는 t-test, ANOVA나 책 후반 챕터들에 나오는 Chi-squared test 같은 것들이 대부분인 것 같다. 역사가 깊고 보수적인 기법들이라서 그런 건가? 비슷하게 A/B testing도 처음에 볼 때 이게 뭐지 하다가 그냥 two-sample independent sample design[1] 갖고 검정 돌리는 거였다는 걸 깨닫고 나선 이름을 왜 이렇게 헷갈리게 지었을까 싶었음...여튼 실제 산업에서 쓰이는 데이터는 샘플 사이즈가 나 대학원 다닐 때 썼던 거에 비하면 엄청 커서 뭔가 복잡한 걸 쓸 것 같았는데, 저번에 파이콘에서 알게된 데이터 분석가분한테 얘기 들은 것도 그렇고 오히려 크니깐 그냥 안전빵(?)으로 t-test같이 많이들 알려져 있는 걸 쓰는 건가 싶다. 뭐...무슨 기법을 쓰든 결국엔 데이터를 얼마나 잘 모았느냐가 제일 중요한 거겠지만.
아마도 실제 현업에서는 또 구체적으로 어떻게 실험 디자인을 짜느냐에 따라 달라질 거라 뇌피셜을 세워봄 ↩︎
연결리스트 거꾸로 하는 거 오랜만에 다시 보니깐 머리 터질 것 같아
부산락페 갈 준비 얼추 완료...!! 오늘은 (easy의 탈을 쓴) 알고리즘 문제들 쭉 풀다가 자야겠다
이번주 일본어 과외 받는 거 끝...이제서야 동사 존댓말/반말 + 부정/과거부정이랑 여기서 나오는 불규칙 변화들이 좀 머릿속에 들어오는 듯. 역시 언어학 전공했더라도 외국어 배우는 거랑은 그닥 크게 상관 없다니깐? 결국엔 달달달 외워서 자꾸 써봐야함...그래도 일본어 선생님이 보통 여기가 히라가나 다음에 겪는 통곡의 벽이라고 하셨는데 잘 하고 있다고 해주셔서 기분 좋았다.
러스트로 간단하게 별찍기 문제 풀었는데 파이썬이랑은 다르게 repeat()이란 함수란 게 있어서 신기했음...
# Python starrrrrrrs
for i in range(1, 4):
print("*"*i)
// Rust starrrrrs
fn main() {
for _i in 1..4 {
println!("{}", "*".repeat(_i))
}
}
오늘도 러스트를 덕질하고 리트딩코를 합시다
존X 예전에 끝난 밴드 티셔츠랑 포스터 사러 갈 성덕은 그저 기쁠 뿐입니다
그냥 간단하게 디버깅 하는 건데 vscode 켜서 또 이거저거 환경 셋팅하기 귀찮고 그럴 때가 종종 자주 있어서 요즘은 웹에다가 online python 대충 이렇게 검색해서 거기에다가 돌리면서 함...
C를 해본 게 있어서 그런가? 러스트 진짜 편하네 컴파일 오류 메세지도 되게 친절하고...
요전번에 산 책 '관계형 데이터베이스 실전 입문' 첫 챕터를 정리했다. 정리하는 김에 원래 대학원에서 썼던 학술용 홈피도 싹 다 갈아엎을 겸 해서 맘에 드는 테마 하나 포크해서 블로그도 다시 만들어서 첫 포스트로 써서 올림...글로 쓰다보니 뭔가 보충하면 좋을 것 같은 내용들이 보였는데, 특히나 관계형 모델에서 튜플(=행)은 하나의 집합이라서 그 원소가 사실 순서가 없어도 되는데 실제 SQL로 표현되는 테이블에서는 순서가 있어야한다는 지점이 흥미로워서 다른 DB 개론서들 보면서 그 내용들을 추가하다보니 결국엔 형식적으로 정의하는 부분까지 넣게 됐다. 써놓고 보니 배보다 배꼽이 더 커진 듯한 느낌이지만...뭐 어때, 재밌으면 됐지!
몸살 난 거 컨디션이 좀 좋아졌으니 DB 공부한 거 포스트 정리를 좀 해볼까...!
몸살 났는데 그 와중에도 좀 괜찮아지니 (안 괜찮음) 딩코를 생각하는 나란 녀석이란 훗…아니 쯧쯧
오늘 밴드 합주하는데 우리가 대여한 연습실이 천장에서 물이 새고 있었다. 다행히 앰프라든가 그런 장비에 영향을 끼치는 건 아니었지만 어찌됐든 중간중간 관리직원분이 오셔서 고치셨는데 뭔가...할 일을 분명 다 하신 것 같은데 우리 봇치 노래 하는 거 들으시곤 일부러 없는 일 만드셔서 계시는 것 같았음. 관상(???)도 뭔가 오타쿠처럼 보이셨고...나만 그렇게 느낀 줄 알았는데 밴드 멤버들 모두가 다 비슷한 생각을 했다고 해서 좀 웃겼다 ㅋㅋ
히힛 꽃게 먹어야징
사실 책 내용들을 내 식대로 글로 정리하면서 읽다보니 아직 초반부에 머물고 있긴 한데, 정리하다보니깐 뭔가 좀 설명이 부족한 게 보이는 것 같아서 (예: 정의가 느슨한다든가 어딘가 설명이 더 들어가야할 것 같은데 빠져있는 것 같다든가) DB 개론서들 몇 권이랑 해서 같이 보니깐 예전에 수업 들었을 땐 꽤나 중요하게 다루어졌다고 생각됐던 개념들은 언급이 잘 안됐다든가 (예: Key에 대한 설명들) 중요해보이는 가정이나 수리적 정의가 아예 스킵이 됐다든가 하는 게 보임...근데 또 한 편으론 저자 입장에선 최대한 독자들한테 부담을 안 줄려고 액기스만 뽑으면서 전공서적과 기술서적 사이의 밸런스를 맞추려 하다보니 이렇게 쓴 게 아닐까 하는 뇌피셜이 오가고 있다. 좋은 점은 저자가 DB가 구축될 때 사용되는 추상적/논리적 개념들이 실제 SQL 수준에선 어떻게 이루어지는지 종종 비교해준다는 거다. 예컨대 Relational Model에선 튜플(=행(row))은 속성(attribute)이랑 그 값이 서로 대응만 한다면 기존 집합의 원소들처럼 순서가 따로 없어도 되는데 실제 SQL에선 순서가 있다는 걸 비교해서 보여준다든가 등등..여튼 그렇다.
레디스 창시자 Antirez(=살바토레 산필리포)도 새로 나온 아이폰 UI가 너무 맘에 들어서 그거 만든 사람들 고용 너무하고 싶다고 함...이 세상에서 제일 어려운 방탈출 방 만들어달라고.
부산 잘 아시는 분...다음주 금토일에 부산락페 가는데 서울에 비하면 부산 많이 더우려나요? 서울촌놈이 여쭈어봅니다 👀
자기 싫어 DB 개론책 좀 읽다가 잘 거야
요즘 일본어 공부할 때 사전형 단어 같은 거 학습할 땐 파파고에다가 단일 단어 위주로 해서 바로바로 그냥 한국어 입력해서 번역된 거로 배우고 (예문이랑 같이 떠서 좋음), 맥락이라든가 뉘앙스 혹은 collocation이 어떻게 이루어지는지 알고싶을 때(소위 말하는 '어감')는 LLM이 출력해준 걸로 배운다. 어릴 때 영어 배울 땐 후자에 대한 학습을 명시적으로 받지 않아서 직접 원서 읽거나 드라마나 영화 보면서 자연스럽게 체득하거나, SKELL 같은 collocation/thesaurus 사전을 활용한다든가, 원어민들한테 하나하나 물어보면서 깨부하면서 배웠는데 LLM이 그 역할을 완벽히까지는 아니더라도 어느 정도는 하는 것 같아서 좀 편함...
그나저나 나 지금까지 파파고 규칙기반+인공신경망 조합으로 학습된 건 줄 알았는데 (연식이 좀 된 플랫폼이니깐) 문서 보니깐 인공신경망만 썼나보네...정확히 무슨 모델을 썼는지는 안 나와있는데 인코더 디코더랑 병렬코퍼스가 언급되어 있는 걸 보니 seq2seq 같은 거 쓰는 걸까 싶다.
저만 이러는 게 아니었다니 너무 반갑습니다
디코 킬 때 마다 뭔가 자꾸 업데이트 되는 거는 업데이트를 체킹하는 걸까 아니면 진짜로 잠수함 패치 포함 업데이트를 자주 해서 그런 걸까 그것도 아니면 내가 그냥 맥을 가끔 가다가 재부팅 해서 그런 걸까?
슬슬 Neovim을 파볼까? 그 전에도 vim을 잠깐 잠깐씩 썼긴 했지만..그와는 별개로 예나 지금이나 그 터미널 화면 갬성이 너무 설레게 하고 좋다. 여튼 Neovim 입문서나 영상 추천 받습니다!!
이번에 영화 린다린다린다 재개봉 했다길래 어릴 때 봤던 거 추억도 되살릴 겸 보러 갔다. 배우들 시사회도 있었다고 하는데 그건 아쉽게도 매진이어서 못 봤고 대신 영화만 보고 굳즈 저렇게 받아 옴...그래도 즐겁게 관람했다. 근데 이 영화 나 예전에 봤을 때만 해도 되게 마이너한 영화였어서 아는 사람만 아는 영화였는데 오늘 극장 갔는데 관객들 거의 꽉 차있어서 놀랐다. 보면서 중고딩 때랑 학부 때 학교밴드 했던 시절도 생각나고 그래서 좋았음...딱 그런 시절을 경험했을 때 알 수 있는 청춘낭만 감성이 있는데 이 영화가 그걸 되게 잘 살려주는 영화다. 밴드부 친구들이랑 매주 합주실에 모여서 연습하고, 학교 축제 날짜 맞춰서 밤샘 합주 연습하면서 추억 쌓는 그런 감성. 대단한 것도 없지만 그렇다고 특별하지 않은 건 또 아닌 그런 감성임.
여튼 오랜만에 한 때 정말로 재밌게 봤었던 영화를 또 볼 수 있어서 즐거웠다. 이 마음 그대로 안고서 다음주 부산락페 씐나게 즐기러 가야징 😎
오 이거 좀 재밌어 보이는데? 자연어가 아니라 프로그래밍 언어에 대한 형식 의미론이라니...!
최근에 러시아 포스트 펑크 음악들에 꽂혀서 종종 듣고 있는데 유튜브 알고리즘이 이런 플리를 추천해줌...저번에 찾은 C++ 플리도 그렇고 뭔가 내가 생각하기엔 자주 보지 못한 조합이 툭툭 튀어나와서 재밌다고 생각하고 있다.
그나저나 러시아 언제 한 번 꼭 다시 가고 싶다. 전쟁 나기 전에 예전에 2020년인가 쯔음에 모스크바에서 학회 열려서 가서 발표하러 간 적이 있었는데, 10월이었는데도 날씨도 되게 선선했고 거기서 만났던 러시아 사람들도 되게 친절해서 좋은 기억으로 남아있음 (물론 푸틴은 별개). 개인적으로 어떤 나라를 놀러갈 땐 그 나라 말의 기본적 표현들을 알고가는 게 예의라 생각해서 그 때도 키릴문자랑 해서 열심히 배워가지고 갔는데 (심지어 필기체도!) 지금은 안 써서 거의 다 까먹었다 🥲 그나마 가장 최근에 친구랑 동대문역사문화공원역에 가서 중앙아시아 식당 가서 종업원이랑 러시아어 잠깐 쓴 게 다임...전쟁만 아니었어도 지금 일본어가 아니라 러시아어를 배우고 있었을 듯.
갑자기 불현듯 하이텔이나 나우누리 같은 옛날 PC통신이 떠올라서 난 한 번도 그 시절을 겪어본 적이 없었는데 어떤 느낌일까 싶어서 해보고 싶어가지고 검색 해봤는데 생각보다 쉽게 사설 BBS를 접속하는 프로그램을 찾아내서 탐방했음. 미국은 사설 BBS가 아직 명맥을 이어가는 것 같은데 국내 거는 사실상 멸종한 것 같다...여튼 하니깐 어릴 때 친구네집 펜티엄 컴퓨터 갖고 스치듯 했던 MS-DOS 갬성이 엄청 느껴져서 하는 내내 헤벌레 미소 지으면서 했다 ㅋㅋㅋ 나갈 때 작별인사 페이지도 따로 있어서 살짝 감동 먹음 🥹
참고로 사용한 프로그램은 MuffinTerm이고 애플 계열 기기에서 돌아간다 (아이패드 포함). 접속한 BBS는 8bit-boyz라는 미국 레트로 컴퓨팅 커뮤니티다.
논문 썼던 습관 어디 안 간다고 여기서 글 쓸 때 나도 모르게 레퍼런스나 각주를 달아놓곤 하는데 해커스펍은 마크다운을 지원해줘서 너무 좋음...트이타였으면 타래 맨끝에다가 중간에 짤려가지고 "..."으로 끝나는 url들을 썼어야했을텐뎅
대학원 다닐 때 썼던 학술용 개인홈피 몇 주 전에 싹 다 뒤엎고 맘에 드는 블로그 테마 하나 포크해서 다시 만들고 있는데 포크한 리포가 Astro 프레임워크랑 타입스크립트로 쓰인 거다. 근데 난 자바/타입스크립트 둘 다 제대로 써보기는 커녕 강의도 들어본 적이 없어서 포스트도 하나 테스트로 쓸 겸 로컬 호스트로 띄워놓고 파일들 이것 저것 하나하나 건들면서 깨부하는 중...어차피 맛이 가도 나한테만 맛이 가니깐(??) 맘 편하게 하고 있다. 어릴 때 게임 파일 소스 코드나 .config 파일 갖고 이것저것 뜯어보는 느낌이 들어서 재밌음 ㅋㅋ
오 됐당 싸랑해요우 클로드
















