본문 바로가기

Review/Reading

DRL: DECOMPOSED REPRESENTATION LEARNING FOR TABULAR ANOMALY DETECTION 논문 리뷰

ICLR 2025에 따끈따끈하게 accept된 tabular AD paper이다. latent disentangle로 tabular AD를 잘해보겠다는 접근이다. 특히 separation loss는 AD에 특화된 loss였는데 왜 효과가 있는지 증명까지 해줘서 납득이 되는 연구였던 것 같다.

Introduction

Tabular AD

Tabular data는 heterogeneous feature의 vector들로 표현되는데 Anomaly detection에서 필수적인 data type이다. (금융, 의료 등등 다양한 분야에서 tabular data AD가 필요) 대부분의 real-world scenario에서 labeled anomalies는 domain experts에 의해 annotation되는데 이는 비용이 많이 들기 때문에, 대부분 one-class classification setting으로 구현된다. abnormal data가 부재하므로 오로지 normal pattern만 학습한다. 그래서 Tabular anomaly detection은 모든 class에 대해 접근이 가능한 기존의 supervised learning task들과 근본적으로 접근법이 다르다.

Previous methods

다른 domain의 anomaly detection방법은 normal data의 특정한 패턴을 학습하고 이를 통해 anomaly를 detect하는 방식이었다. (이미지나 같은 perceptual data의 경우 inductive bias를 활용하여 rotation-invariant 특징을 배운다던지..) 하지만 tabular data의 경우는 사전에 정의된 구조가 없다. feature들은 모두 다른 type을 가지고 분포도 모두 다르다. 따라서 tabular AD는 기존의 방법을 활용하기 어렵다. 그래서 tabular AD에서는 최근까지도 reconstruction-based methods들이 좋은 성능을 보이고 있다. 하지만 현실의 tabular data는 normal, abnormal간의 entanglement가 존재하여 abnormal이 normal과 데이터 특징이 비슷하게 겹치는 경우 구별하기 어렵다는 문제가 있다.

Contribution

(1) Reconstruction-based method를 확장하여 constrained latent space에서 학습

  • 기존 재구성 방식이 정상/비정상 구별이 어려웠던 이유 중 하나가 데이터가 섞이는(entangled) 문제였음
  • DRL은 representation을 분해(decomposition)하여 latent space에서 normal sample의 공통 패턴을 유지하도록 설계
  • 이렇게 하면 normal과 anomaly가 더 효과적으로 구별될 수 있음

(2) Representation Decomposition을 적용

  • 각 normal sample을 orthogonal basis vector들의 선형 조합으로 표현하도록 학습
  • 이는 normal sample들이 일관된 패턴을 가지도록 유도하고, anomaly는 해당 패턴을 따르지 않게 만듦

(3) Normal과 Anomaly의 차이를 극대화하는 Separation constraint 도입

  • 단순히 normal sample들을 basis로 분해하는 것뿐만 아니라, normal과 anomaly를 더 명확히 구별할 수 있도록 separation constraint 를 추가
  • 이를 통해 normal과 anomaly의 representation이 더 명확히 분리될 수 있도록 함

(4) 대규모 실험 수행 및 SOTA 달성

  • 40개 TAD 데이터셋, 16개 기존 모델과 비교 실험을 수행
  • 분석 및 시각화를 통해 제안된 방법이 기존 방법보다 뛰어난 성능을 보임

Method

Motivation

최근에 가장 좋은 성능을 보이고 있는 MCM의 latent를 plot해보면 아래와 같이 data entanglement가 존재한다. data entanglement가 발생하는 이유는 tabular data의 heterogenous특징 때문이다. Grinsztajn et al. (2022) 연구에 따르면, NN은 이러한 불규칙적인 패턴을 학습하는 데 어려움을 겪고 Tree계열보다 uninformative feature들이 많이 포함될 확률이 높다고 한다. 결론적으로 reconstruction loss만으로는 anomaly detection을 하는 것이 불충분하다.

MCM latent space of various tabular AD datasets

Proposed method

(1) Decomposed representation learning in latent space

Dictionary learning, topic modeling, matrix factorization에서 영감을 받아 Normal sample의 latent representation을 shared basis vector들의 linear combination으로 표현한다. Basis vector는 orthogonal 할수록 더 다양한 Normal pattern을 학습할 수 있기 때문에 Gram-Schmidt 직교화를 진행한다.

  • q_k: Standard gaussian distribution에서 random하게 샘플링한 vector집합
  • b_k: Gram-Schmidt과정을 통해 직교화한 Basis vector

 

Basis vector는 learnable한 weight로 weighted summation되는데 그걸 이걸 feature extractor를 통과한 latent space와 유사해지도록 둘 사이의 distance를 줄여주는 과정을 통해서 decomposition이 진행된다. 이 과정에서 basis vector는 학습되지 않는다. (training, data-free!) 이렇게 basis vector가 고정되어있는 것이 모델이 효과적으로 normal pattern의 shared information을 배우게 해준다고 한다. 그리고 또 샘플별로 다른 weight를 가지기 때문에 sample간의 관계도 효과적으로 모델링할 수 있다.

 

(2) Constraint: representation separation

Latent space에서 Normal 샘플들의 weight가 충분히 떨어지도록 하여, normal data 자체의 다양성을 학습한다. Normal끼리 멀어지면 Abnormal과 더 구분이 안되는거 아닌가?하는 생각이 들수도 있는데 그렇지 않다는 것과 관련해서 두가지 명제를 제시한다. 결론만 얘기하자면 Normal이 너무 뭉쳐있으면 Abnormal과 차이를 구분하기 어려워서 normal끼리 separation해야한다는 것이다. 관련 명제에 대해서는 appendix에 증명이 있다.

 

(잘 정리하면 anomaly weight가 사라져서 normal weieht의 L2-norm의 variance만 키워도 anomaly와의 차이가 대충 커진다는 내용.. )

 

 

결론적으로 정리하면 나아닌 다른 샘플의 weight와의 distance는 멀어지게 해주는 loss가 separation loss이다.

(3) Overall algorithm and implementations

앞선 2가지 loss에 추가적으로 latent를 다시 data space로 reconstruction하는 loss를 달아서 alignment를 진행했다.

 

정리하면 전체 Loss는 다음과 같다.

 

 

Inference에 사용힌 anomaly score는 decomposition loss를 사용했다.

 

Experiment & Analysis

DRL details

MLP와 Leaky ReLU로 모두 구성하였다.

Empirical results and analysis

Main results

DRL vs different basis vector initialization methods

Key component ablation

 

  • 학습: Separation loss가 중요 / Weight learner를 써야 더 성능이 좋음 -> disentangle 더 잘되서 그런 것 같음
  • 평가: alignment loss(기존의 recon loss)보다 decomposition loss를 anomaly detection score로 쓰는게 가장 잘됨

Different distance metrics

Separation loss의 효과

 

Discussion

기존 reconstruction-based method와 다르게 DRL을 쓰면 훨씬 latent space에서 abnormal이 분리 잘된다.

Conclusion

기존 reconstruction-based method와 다르게 DRL을 통해 latent disentanglement + normal separation을 하면 훨씬 latent space에서 abnormal이 분리 잘된다.

  • Q1: Tabular disentangle을 하는게 굳이 Tabular AD에서 더 좋은 이유는 뭐냐?
    • A1: Tabular는 구조적 특성이 없어서 entangle극복하는 방법이 없었는데 우리 방법은 Prior knowledge에 의존하지 않기 때문에 tabular domain에서 필요한 연구고 AD에 적합한 objective에 맞게 disentangle했기 때문에 우리 방식이 tabAD에서 좋다.
  • Q2: 저자들은 DRL이 정상 샘플의 표현을 특정 기저 벡터들의 선형 조합으로 모델링할 수 있다고 가정함. → 증명할 수 있나?
    • A2: 몇개의 basis로 data를 완벽하게 표현할 수는 없지만, 분명이 normal의 shared pattern을 잘 표현할수 있고 AD의 목표는 normal-abnormal을 잘 분리하는 것이기 때문에 목적에 맞게 설계되었다고 할 수 있다.