Hacker News 댓글 2,800만 건을 벡터 임베딩 검색 데이터세트로 제공
------------------------------
- *Hacker News 데이터세트* 는 2,874만 개의 게시글과 댓글을 포함하며, 각 텍스트는 *SentenceTransformers all-MiniLM-L6-v2 모델* 로 생성된 384차원 *벡터 임베딩* 으로 구성
- 데이터는 ClickHouse 에서 제공하는 단일 *Parquet 파일(S3 버킷)* 형태로 공개되어, 대규모 *벡터 검색 애플리케이션 설계 및…
------------------------------
https://news.hada.io/topic?id=24703&utm_source=googlechat&utm_medium=bot&utm_campaign=1834
If you have a fediverse account, you can quote this note from your own instance. Search https://sns.lemondouble.com/notes/afokw9yaby on your instance and quote it. (Note that quoting is not supported in Mastodon.)