사진 한 장에 뚫리는 얼굴인식 — 왜 토스는 되고, 나는 안 될까? - Yunjeong Luna Lee

출결 인식용 키오스크를 만들고 있다. 처음엔 별 고민 없이 IR 카메라 모듈을 샀다. 아이폰이 노치, 다이나믹 아일랜드까지 달아가면서 Face ID용 센서를 넣는 걸 보면 이유가 있겠거니 싶었다. 애플이 그 귀한 화면 공간을 포기하면서까지 넣는 건데.

그런데 문득 의문이 들었다. 토스 페이스페이는 별도의 IR 센서 없이, 일반 RGB 카메라(스마트폰이나 매장 태블릿)만으로 결제 인증을 한다. 돈이 걸린 서비스를 일반 RGB 카메라로? 되는 건가?

궁금해서 직접 구현해봤다.

무료 오픈소스로 얼굴인식 구현하기

Android에서 쓸 수 있는 무료 조합:

ML Kit (Google) - 얼굴 감지
MobileFaceNet (TFLite) - 얼굴 임베딩 추출

// ML Kit으로 얼굴 감지
val detector = FaceDetection.getClient(options)
val faces = detector.process(image)

// MobileFaceNet으로 512차원 임베딩 추출
val embedding = mobileFaceNet.getEmbedding(croppedFace)

// 코사인 유사도로 매칭 (0.6 이상이면 동일인)
val similarity = cosineSimilarity(embedding, registeredEmbedding)

생각보다 잘 됐다. 등록하고, 인식하고, 1초 내로 매칭된다.

그런데 문제가 있었다

사진으로 뚫린다.

친구 얼굴 사진을 카메라에 대봤더니 그대로 인식 성공. 출결 시스템이라면 대리 출석이 너무 쉬워지는 거다.

라이브니스(Liveness) 검사란?

실제 살아있는 사람인지 판별하는 기술이다. 크게 두 가지 방식이 있다.

액티브 라이브니스

사용자에게 행동을 요구한다:

“눈을 깜빡여주세요”
“고개를 왼쪽으로 돌려주세요”

ML Kit은 leftEyeOpenProbability를 제공하니까 눈 깜빡임 정도는 구현 가능하다. 단, 이 값은 조명 조건이나 얼굴 각도, 안경 착용 여부에 매우 민감해서 실제 서비스에서는 오탐(false positive)이 잦다.

문제: 동영상으로 우회 가능.

패시브 라이브니스

사용자 행동 없이 자동 분석:

미세한 얼굴 근육 움직임
혈류에 의한 피부색 변화 (rPPG)
피부 텍스처 분석
빛 반사 패턴

문제: 고급 AI 모델 필요. 현재 실용적인 무료 솔루션은 없다.

그래서 토스는 어떻게 하는 걸까?

검색해보니 토스는 기술 세부사항을 공개하지 않는다. 다만 알려진 건:

자체 개발 AI - 텍스처, 깊이, 움직임 복합 분석
다층 보안 - 라이브니스 + 얼굴인식 + FDS(이상거래탐지)
개인정보보호위원회 사전적정성 검토 통과 (국내 유일)

결국 엄청난 R&D 투자의 결과물이다. 일반 개발자가 따라하기 어렵다.

그래서 토스의 사례는 “RGB로도 된다”가 아니라, “RGB만으로도 될 만큼 많은 레이어를 쌓았다”는 이야기다.

클라우드 API는?

유료지만 쓸 만한 옵션들이 있다.

서비스	방식	특징
AWS Rekognition	액티브 (빛+움직임)	화면에 컬러 시퀀스 표시 후 반사 감지
Azure Face	패시브+액티브	iBeta Level 2 테스트 통과 (침투율 0%*)

*iBeta Level 2 테스트 환경 기준. 실제 환경에서는 여전히 다층 보안이 권장된다.

Azure의 경우 밝은 조명에서는 자동으로 액티브 모드로 전환된다고 한다.

결론: 애플이 노치를 포기 못하는 이유가 있었다

방법	RGB만 가능?	보안성	비용
눈 깜빡임 (액티브)	O	낮음	무료
AI 텍스처 분석	O	중간	직접 개발 불가
클라우드 API	O	높음	유료
IR 카메라	X	높음	하드웨어 구매

RGB 카메라만으로 대규모 상용 서비스 수준의 안정적인 라이브니스를 구현하는 것은 현실적으로 매우 어렵다. 토스 수준의 보안을 원하면:

수십억 투자해서 AI 모델 개발
AWS/Azure API 비용 지불
IR 카메라 같은 전용 하드웨어 사용

왜 키오스크에선 IR이 압도적으로 유리한가

“RGB로도 된다”는 말은 기술적으로 가능하다는 뜻이지, 누구나 쉽게 구현할 수 있다는 뜻이 아니다.

구현 난이도의 차이

RGB 방식 (Hard Mode)

AI가 평면 사진과 입체 얼굴의 미세한 차이(빛 반사, 피부 질감, 혈류 흐름)를 추론해야 한다
오픈소스 모델들은 성능이 낮아 고해상도 사진에 쉽게 뚫린다
토스 수준의 보안을 원하면 수십만 장의 데이터로 학습시킨 자체 모델이 필요하다

IR 방식 (Easy Mode)

적외선은 종이(사진)나 스마트폰 화면에서 반사되는 값과 실제 사람 피부에서 반사되는 값이 물리적으로 다르다
복잡한 AI 없이 센서 값만으로 1차 필터링이 가능하다
개발 난이도가 비교할 수 없을 정도로 낮다

비용 구조의 차이

대기업 입장 (RGB 선호)

스마트폰 수천만 대에 IR 센서를 넣으면 부품 원가가 수백억 원 올라간다
개발자 수십 명을 투입해서 RGB로 되는 AI를 만드는 게 더 싸다

개인/소규모 개발자 입장 (IR 선호)

키오스크 10대, 100대에 IR 모듈(개당 몇만 원) 추가하는 건 큰 비용이 아니다
RGB로 하려고 API 건당 과금을 쓰거나, 자체 AI 개발에 몇 달을 쓰는 인건비가 훨씬 비싸다

키오스크라는 환경

전 국민이 쓰는 앱이라면 사용자 폰에 IR 카메라가 있는지 모르니까 RGB 고도화가 필요하다.

하지만 키오스크는 하드웨어를 통제할 수 있다. 내가 IR 카메라를 달면 끝이다. 덤으로 IR 카메라는 적외선 조명을 쏘기 때문에 역광이나 어두운 곳에서도 인식률이 안정적이다.

RGB vs IR 비교표

비교 항목	RGB 방식	IR 방식
보안성	일반 개발 시 낮음 (사진에 뚫림)	기본적으로 높음 (재질 구분 가능)
구현 난이도	최상 (고급 AI 모델 필요)	하 (하드웨어가 알아서 함)
초기 비용	저렴 (일반 웹캠 사용)	모듈 비용 발생
유지 비용	높음 (API 과금 or 서버 비용)	0원
추천 대상	범용 모바일 앱 서비스	키오스크, 도어락, 근태기

“갤럭시도 얼굴인식 되잖아?”

혹자는 “갤럭시도 카메라만으로 얼굴인식 잘 되지 않냐”고 물을 수 있다. 하지만 결정적인 차이가 있다.

갤럭시는 얼굴로 화면 잠금은 풀어줘도, 삼성 페이 결제는 지문을 요구한다.

제조사조차 RGB 방식은 금융 보안급이 아니라고 판단하는 것이다. 실제로 갤럭시에서 얼굴 인식을 등록할 때 이런 경고가 뜬다:

“얼굴 인식은 패턴, PIN, 비밀번호보다 보안성이 낮습니다.” “나를 닮은 사람이나, 내 사진/동영상으로 잠금이 해제될 수 있습니다.”

반면 IR 센서를 쓰는 아이폰은 얼굴만으로 앱스토어 결제, 송금, 애플 페이까지 전부 된다. 내가 만드는 키오스크가 ‘대리 출석’을 확실히 막아야 한다면, 삼성 페이급 보안(IR)을 택하는 것이 맞다.

결국 처음에 IR 카메라 모듈을 산 건 맞는 선택이었다. 애플이 노치를 포기 못하는 데는 이유가 있었다.

결국 문제는 “RGB로 되느냐”가 아니라, “우회 비용을 누가 감당하느냐”였다.

사진 한 장에 뚫리는 얼굴인식 — 왜 토스는 되고, 나는 안 될까?