Kuberay Worker에 Triton 모델 등록

이 skill은 Triton Inference Server 모델을 kuberay_worker에서 사용할 수 있도록 Ray Serve deployment와 app을 등록합니다.

작업 흐름

다음 경로에서 Triton 모델 목록을 확인합니다:

그리고 src/kuberay_worker/models/에 이미 등록된 모델을 확인합니다.

Triton에는 있지만 kuberay_worker에는 없는 모델만 목록으로 표시하고, 사용자에게 어떤 모델을 추가할지 질문합니다.

src/kuberay_worker/schemas/와 src/kuberay_worker/models/에 있는 기존 모델 파일들을 나열하고, 사용자에게 다음을 질문합니다:

사용자에게 다음을 질문합니다:

수집한 정보를 바탕으로 다음 내용을 포함한 작업 계획을 작성합니다:

•
분석할 파일 목록
- •선택한 Triton 모델의 config.pbtxt
- •참조할 기존 모델의 schema, model 파일
- •베이스 클래스 파일들
•
생성할 파일 목록
- •src/kuberay_worker/schemas/{모델명}.py
- •src/kuberay_worker/models/{모델명}.py
•
수정할 파일 목록
- •src/kuberay_worker/schemas/__init__.py
- •src/kuberay_worker/models/__init__.py
•
네이밍 규칙
- •파일명, 클래스명, 함수명, MODEL_NAME 등
•
주요 구현 사항
- •Triton input/output 매핑
- •LoRA 지원 여부
- •이미지 처리 방식

작업 계획을 사용자에게 보여주고 승인을 받은 후 구현을 진행합니다.

승인된 계획에 따라 파일들을 생성하고 수정합니다.

작업 완료 후 다음 문서를 작성/수정합니다: