맥북에서 돌려보는 비전 랭귀지 모델 LLaVA-MLX

LLaVA = Large Language and Vision Assistant
이미지를 보고 자연어로 대화할 수 있는 멀티모달 AI

MLX = Machine Learning X
Apple의 머신러닝 프레임워크

LLaVA 모델을 다운받아서
Apple Silicon 최적화를 살짝해서
Python Flask 웹 인터페이스를 붙였습니다.

설치방법+소스는 댓글 링크 참고하세요.
바이브코딩으로 세팅해서 세밀한 설정은 저도 잘 몰라요. 🙂

[특징]
– LLaVA 모델: 검증된 오픈소스 Vision Language Model 사용
– MLX 최적화: Apple Silicon M3에서 고성능 추론
– 멀티모달 AI: 이미지와 텍스트를 함께 이해하고 분석
– 다국어 지원: 한국어, 영어 등 다양한 언어 지원
– 다크 모드 UI: 개발자 친화적인 모던 웹 인터페이스
– 프라이버시: 모든 처리가 로컬에서 실행 (데이터 외부 전송 없음)

[성능 지표]
추론 시간 : 6.61초
처리 속도 : 4.7 토큰/초
생성된 토큰 : 31개
순수 추론 : 6.57초
디바이스 :Apple Silicon M3

[느낀점]
– 우와~ 맥북프로도 죽는구나
– 추론 시간 6~7초가 빠른 건지 모르겠다.
– 그냥 돈내고 API 써야겠다.

[Github]
https://github.com/jvisualschool/llava-mlx

Bookmark the permalink.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다