데이터베이스 저장 파이프라인(이미지 객체 감지 + 라벨링 대안)

자연어 라벨링, 설명 생성 가능	속도 느림 (LLM 기반), 객체 위치 알 수 없음
객체 단위로 의미 설명 가능	정확한 crop 자동화 불가능 (bbox X)

Grounding DINO	“text prompt”를 주면 해당 객체 위치 감지 (zero-shot 가능)
SAM	감지된 박스를 정밀하게 세그멘테이션 가능 (crop 품질 ↑)

좋은 이미지 객체 감지 + 라벨링 대안 (API 또는 모델)