본문 바로가기

전체

(155)
git-lfs (Large File System, LFS) 통해 대용량 데이터/레포지토리 다운받기 어느날과 다름없이 pickle 파일형식을 가진 데이터를 받아서 실험을 하려고 하던 그때, 갑자기 _pickle.UnpicklingError: invalid load key, 'v' . 라는 메세지가 뜨며 데이터를 못부르는 거다. 오류는 아래와 같다. 해당 오류는 repo를 git clone할 때, 모델 내의 파일의 사이즈가 너무 커서 이를 text file로 대체했기 때문에 key값을 불러오지 못해서 생기는 오류이다. 예를 들면 pickle file이 원래는 400MB정도 하는데 text file로 대체되었기 때문에 아래와 같이 1KB 정도의 적은 용량으로 표기되어있을 것이다. 이러한 이슈는 git-LFS로 올린 레포지토리를 그냥 받았기 때문에 생긴다. 대용량의 데이터를 레포지토리에 올릴 때, 용량이 너..
Semi-supervised learning (준지도학습): 개념과 방법론 톺아보기 Semi-supervised learning overview 논문 [14-16] 및 여러 방법론 관련 논문들 [1-13] 읽으며 얻은 지식을 바탕으로 글로 정리해보려고 한다. 오랜만에 쓰는 기술글이라 설렌다!! 나도 처음 공부하는 분야이기 때문에 부족한 부분도 있겠지만, 틀린 부분이나 덧붙여 설명이 필요한 부분이 있다면 댓글에 남겨주시면 더 풍부한 글이 될 것 같다. 그럼 시작! Supervised learning 의 한계 딥러닝의 가장 대표적인 방법론은 supervised learning (지도학습)이다. 하지만 supservised learning은 어쩌면 학습 데이터의 패턴을 외우는 학습법에 불과하다. 그러므로 한번도 보지 않은 데이터에 대해서는 맞추기 쉽지 않다. 일반화가 잘되기 위해서는 필연적으..
ICLR 2021 참관 후기 제가 벌써 회사에 입사한지 4개월이 다 되어가네요. 새삼 시간이 빠르다고 느낍니다. 그 간 논문도 투고하고, 과제도 참여하고, 학회도 참여하고... 이래저래 바쁘다는 핑계로 개인 블로그에 시간 투자를 하지 못했습니다. 5월에 ICLR 2021 학회를 들을 기회가 있었는데요. 신입 연구원인 저는 여러 주제에 기웃거리면서 많은 연구들을 접했습니다. 졸업연구에만 너무 매몰되어 있어 놓치고 있던 여러 분야들을 접하며 연구세계가 넓어질 수 있는 의미있는 시간이었습니다. 신기하고 재미있는 논문들이 많았는데 generative model 중 관심이 가는 두 논문에 대해 리뷰를 하고 저희 회사 블로그에 ICLR 2021 참관 후기를 기고하였습니다. 더 좋은 연구원으로 성장해서 쉽고 명쾌하게 insight를 전달하고 싶..
취업하면서 느낀 점 이걸 뜻밖의 기회라 생각진 말자. 수많은 시간을 준비해 왔으니까 다만 책임감 따위의 진지한 감정이 밀려왔는데, 그건 아마 생애 처음 정식이라 여겨질 만한 기회를 마주하고 있기 때문이겠지 - 멜로가 체질 2화
LaTex 표 만들기/수식 편집기 사이트 다음 두 가지 사이트 + 구글번역기만 있다면 논문도 두렵지 않을 것이다. (창작의 고통에 시달리는 모든 논문러들 화이팅) 1. 표 만들기
Colab에서 konlpy와 mecab 설치하기 NLP 초심자로 작년 상반기에 진행했던 프로젝트에서 사용했던 mecab은 설치가 까다로웠다. 그래서 colab에서 쉽게 사용하였는데 설치했던 과정을 소개한다. (링크에서 코드 확인가능) 1. bash 셸로 명령어를 입력하여 설치 %%bash apt-get update apt-get install g++ openjdk-8-jdk python-dev python3-dev pip3 install JPype1 pip3 install konlpy 2. 환경변수 설정 %env JAVA_HOME "/usr/lib/jvm/java-8-openjdk-amd64" 3. mecab 설치 (시간 좀 걸림) %%bash bash
Colab에서 soynlp로 토큰화(tokenizing)하고 konlpy와 비교 Konlpy의 okt, mecab을 이용해서 형태소분석을 한 후 쉽고 간편하게 토큰화를 할 수 있다. 더 좋은 토크나이저를 찾아 다니다가 유툽에서 soynlp를 발견 Colab에서 적용해보았다. 사용법은 soynlp 깃헙레포에 자세히 나와있다. lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com soynlp로 토큰화(tokenizing)하기 Tokenizer 정의 명사분석기의 noun score과 cohesion score를 함께 이용해서, L part의 단어 분석을 하면, 나머지 부분은 자연스레 R part가 된다. ex) '밥을' → '밥'(L part), '을'(R ..
[PyTorch] BrokenPipeError: [Errno 32] Broken pipe 해결 broken pipe를 만나셨나요? 반갑습니다. 튜토리얼에서도 써있지만 window환경에서는 torch.utils.data.DataLoader()에서 num_worker 파라미터를 0이 아닌 다른 수로 지정하면 바로 이 error를 만날 수 있다. 0으로 바꾸면 쉽게 해결된다. num_worker는 사용할 cpu core갯수를 설정하는 파라미터인데 window환경에서는 default로 그냥 써야되나보다. num_worker = 2 (x) num_worker = 0 (o)