본문 바로가기

전체

(156)
연말 올해는 개인적으로 대격변의 시기였습니다. 게임으로 치면 유난히 안 깨지던 어떤 스테이지를 깨고 다음 스테이지로 올라간듯한 느낌. 운이라고 할 수도 있겠고 깨고자 하는 어떤 열망 때문이라고도 할 수 있겠습니다. 돌아보면 의도하든 의도하지 않았든 새로운 것들을 받아들이느라 정신없이 보냈던 것 같습니다. 방향성이 있다기보단 마구잡이로 했던 것들이 아쉽기도 하지만 Trial and Error를 거쳤다고 보기로 했습니다. 남은 12월은 새롭게 등장한 이번 스테이지를 깨기 위해(?) 방향과 전략을 세우려고 합니다. 게임을 못하는 저는 걱정이 참 많이 되는데요, 즐기는 자를 이길 사람은 없다고 즐겨보겠습니다. 내년엔 어떤 일이 펼쳐질지 기대가 됩니다. 저는 언제나 애정어린 마음으로 저를 응원하려고 합니다.
git-lfs (Large File System, LFS) 통해 대용량 데이터/레포지토리 다운받기 어느날과 다름없이 pickle 파일형식을 가진 데이터를 받아서 실험을 하려고 하던 그때, 갑자기 _pickle.UnpicklingError: invalid load key, 'v' . 라는 메세지가 뜨며 데이터를 못부르는 거다. 오류는 아래와 같다. 해당 오류는 repo를 git clone할 때, 모델 내의 파일의 사이즈가 너무 커서 이를 text file로 대체했기 때문에 key값을 불러오지 못해서 생기는 오류이다. 예를 들면 pickle file이 원래는 400MB정도 하는데 text file로 대체되었기 때문에 아래와 같이 1KB 정도의 적은 용량으로 표기되어있을 것이다. 이러한 이슈는 git-LFS로 올린 레포지토리를 그냥 받았기 때문에 생긴다. 대용량의 데이터를 레포지토리에 올릴 때, 용량이 너..
Semi-supervised learning (준지도학습): 개념과 방법론 톺아보기 Semi-supervised learning overview 논문 [14-16] 및 여러 방법론 관련 논문들 [1-13] 읽으며 얻은 지식을 바탕으로 글로 정리해보려고 한다. 오랜만에 쓰는 기술글이라 설렌다!! 나도 처음 공부하는 분야이기 때문에 부족한 부분도 있겠지만, 틀린 부분이나 덧붙여 설명이 필요한 부분이 있다면 댓글에 남겨주시면 더 풍부한 글이 될 것 같다. 그럼 시작! Supervised learning 의 한계 딥러닝의 가장 대표적인 방법론은 supervised learning (지도학습)이다. 하지만 supservised learning은 어쩌면 학습 데이터의 패턴을 외우는 학습법에 불과하다. 그러므로 한번도 보지 않은 데이터에 대해서는 맞추기 쉽지 않다. 일반화가 잘되기 위해서는 필연적으..
ICLR 2021 참관 후기 제가 벌써 회사에 입사한지 4개월이 다 되어가네요. 새삼 시간이 빠르다고 느낍니다. 그 간 논문도 투고하고, 과제도 참여하고, 학회도 참여하고... 이래저래 바쁘다는 핑계로 개인 블로그에 시간 투자를 하지 못했습니다. 5월에 ICLR 2021 학회를 들을 기회가 있었는데요. 신입 연구원인 저는 여러 주제에 기웃거리면서 많은 연구들을 접했습니다. 졸업연구에만 너무 매몰되어 있어 놓치고 있던 여러 분야들을 접하며 연구세계가 넓어질 수 있는 의미있는 시간이었습니다. 신기하고 재미있는 논문들이 많았는데 generative model 중 관심이 가는 두 논문에 대해 리뷰를 하고 저희 회사 블로그에 ICLR 2021 참관 후기를 기고하였습니다. 더 좋은 연구원으로 성장해서 쉽고 명쾌하게 insight를 전달하고 싶..
취업하면서 느낀 점 이걸 뜻밖의 기회라 생각진 말자. 수많은 시간을 준비해 왔으니까 다만 책임감 따위의 진지한 감정이 밀려왔는데, 그건 아마 생애 처음 정식이라 여겨질 만한 기회를 마주하고 있기 때문이겠지 - 멜로가 체질 2화
Overleaf로 논문쓸 때 필요한 것들: LaTex 표 만들기/수식 편집기/ChatGPT 다음 두 가지와+ ChatGPT 있다면 논문도 두렵지 않을 것이다.(창작의 고통에 시달리는 모든 논문러들 화이팅)1. 표 만들기 Create LaTeX tables online – TablesGenerator.comYou can import table data by uploading file in CSV format (Comma Separated Value). Most spreadsheet software, both desktop and online, allows to save tabular data in CSV format — it is usually available in the File menu under the name "Save As..." or "Exwww.tablesgenerator.com2..
Colab에서 konlpy와 mecab 설치하기 NLP 초심자로 작년 상반기에 진행했던 프로젝트에서 사용했던 mecab은 설치가 까다로웠다. 그래서 colab에서 쉽게 사용하였는데 설치했던 과정을 소개한다. (링크에서 코드 확인가능) 1. bash 셸로 명령어를 입력하여 설치 %%bash apt-get update apt-get install g++ openjdk-8-jdk python-dev python3-dev pip3 install JPype1 pip3 install konlpy 2. 환경변수 설정 %env JAVA_HOME "/usr/lib/jvm/java-8-openjdk-amd64" 3. mecab 설치 (시간 좀 걸림) %%bash bash
Colab에서 soynlp로 토큰화(tokenizing)하고 konlpy와 비교 Konlpy의 okt, mecab을 이용해서 형태소분석을 한 후 쉽고 간편하게 토큰화를 할 수 있다. 더 좋은 토크나이저를 찾아 다니다가 유툽에서 soynlp를 발견 Colab에서 적용해보았다. 사용법은 soynlp 깃헙레포에 자세히 나와있다. lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com soynlp로 토큰화(tokenizing)하기 Tokenizer 정의 명사분석기의 noun score과 cohesion score를 함께 이용해서, L part의 단어 분석을 하면, 나머지 부분은 자연스레 R part가 된다. ex) '밥을' → '밥'(L part), '을'(R ..