6개 AI 프로덕트로 완성하는 LLM/LMM 서비스 개발의 모든 것 : 프롬프트 엔지니어링부터 멀티모달까지
초격차 패키지 Online.
6개 AI 프로덕트로 완성하는
LLM/LMM 서비스 개발의 모든 것
프롬프트 엔지니어링부터 멀티모달까지
상용 AI 서비스 개발의 모든 것을 초압축한 커리큘럼으로,
단 80시간 만에 AI 서비스 개발자로 거듭나보세요.
상용 AI 서비스 개발에 필요한 모든 것을
배우기 위해 준비한 8가지 포인트
실제 IT 기업들의 AI 기능,
꼭 석박사 급 지식이 있어야 만들 수 있을까요?
[기존 AI 모델 + 프롬프트 엔지니어링] 만으로
내가 딱 원하는 AI 서비스를 구현하는 방법,
국내외 대기업 6개 서비스 99% 클론 프로젝트로 알려드릴게요.
Point 1
실제 프로덕트 수준으로 구현하는
유명 AI 서비스 6개
GPT-4V, DALL-E, Whisper 등 여러 모델과 프롬프팅 기법을 조합하여 6가지 AI 서비스를 클론합니다.
전체 서비스 파이프라인 구축, 프롬프트 이외 작업을 통한 성능 고도화, 그리고 프로토타이핑까지!
∙ OCR 성능을 높이기 위한 이미지 전처리 구현
∙ GPT-4 API를 활용한 Extractor 구현
∙ Streamlit 함수 구현을 통한 서비스 프로토타이핑
| 구현 기능
-
이미지 내 텍스트 식별
오픈소스 OCR 프레임워크를 사용하여
이미지 내 텍스트 식별을 구현합니다. -
이미지 내 텍스트 식별
JSONL 파일을 Pandas 데이터 프레임으로 변환하여
검색 기능과 ‘엑셀로 내보내기’ 기능을 구현합니다. -
이미지 전처리
OpenCV를 사용하여 이미지를 회전, 흑백 처리, 테두리
제거 등 전처리하여 OCR 기능의 성능을 개선합니다.
| 구현 프로세스
| 사용 스택
• LLM/LMM 활용을 통한 OCR/NMT 파이프라인 간소화
• OCR 성능 평가 방법론 (Precision, Recall, H-mean)
• 기계번역 성능 평가 방법론 (Bleu, Rouge Score..)
• LLM-as-a-Judge의 이해
| 구현 기능
-
이미지 내 텍스트 식별
GPT-4V를 사용하여 이미지 내의 텍스트를
높은 정확도로 인식합니다. -
이미지 내 텍스트 자동 번역
Decoder-only NLG 모델로의 GPT-4 기반으로 번역
기능을 구현하고, T2T 번역을 위한 번역 콘솔을
구현합니다. -
번역 결과 수정
이미지 내 추출된 텍스트 대상으로 사전 정보를
프롬프트에 추가하여 정확도를 개선하고, 도메인 정보를
추정하여 동음이의어의 품질을 개선합니다.
| 서비스 파이프라인
| 사용 스택
• Langchain을 통한 Agent 구현
• Promptflow를 통한 프롬프트 시각화와 튜닝
• Visual Referring을 위한 Image Interaction 구현
• Medprompt 구현과 Embedding 활용
| 구현 기능
-
텍스트 및 이미지 기반 대화
발화자를 상대하는 튜터가 텍스트와 이미지의 의미를
모두 이해하게 합니다. -
음성 인식 기반 발음 평가
발화자의 음성을 인식하여 발음을
평가 및 교정합니다. -
문제 및 정답 낭독
튜터가 토익스피킹 문제와 정답을 TTS로
모두 낭독하게 합니다.
| 서비스 파이프라인
| 사용 스택
• 음성 파일 전처리
• 화자 특징 추출
• 화자 벡터 클러스터링
| 구현 기능
-
음성 인식
음성 합성 파일을 이용하여 Whisper의 API를
호출함으로써 음성 인식을 구현합니다. -
화자 분리
오픈소스 모델을 사용하여 화자를 분리합니다. -
키워드 추출 & 발화 내용 요약
GPT-4로 변환된 텍스트의 개요, 주제, 핵심 내용 등
전체를 요약하거나 특정 주제나 구역의
내용을 요약해봅니다.
| 서비스 파이프라인
| 사용 스택
• Image Conditioning
• Image-to-3D Generation
• ComfyUI 워크플로우의 이해
| 구현 기능
-
모델 체형 기반 착용 이미지 생성
Image Conditioning을 기반으로 모델 체형
기반의 가상 시착 이미지를 생성합니다. -
360도 회전 기능
ComfyUI Workflow에 Image-to-3D를
추가하여 360도로 모델을 회전할 수 있게 합니다. -
패션 피드백 기능
GPT-4V API에 Few-shot Prompt로
조합한 옷에 대한 피드백 기능 구현
| 구현 프로세스
| 사용 스택
• 챗봇 구성에 필요한 개념 (의도 분류, 슬롯 필링, 정보 검색, 기억과 개인화)
• Multli-Turn Chat
• Function Calling
| 구현 기능
-
내부 상품 추천
사용자 인풋의 표면적, 이면적 의미를 이해하고
이에 맞는 상품을 추천합니다. -
내부 DB 기반 질의응답
내부의 CS 매뉴얼 데이터를 기반으로 CS에
자동 대응하는 알고리즘을 짭니다. -
| 구현 프로세스
| 사용 스택
Final Project
실무 필수, 핵심 단계! 기존 서비스 통합으로 완성하는 AI 기능 개발
이런 분들에게 강력 추천합니다.
여기어* 앱에 CS 챗봇 통합하기
| 학습 목표
기존 서비스 파이프라인에 LLM 기반 AI 기능 통합하여, 챗봇을 통해
서비스의 핵심 기능을 하는 페이지로 유저를 연결시킵니다.
| 학습 내용
• 자체 모델 기반 ML 파이프라인과 API 사용 시의 차이
• 맥락 위주의 자동 학습 및 유사성 검색 구현
• OpenAI를 활용한 OpenQA 구현
| 진행 프로세스
새로운 AI 서비스를 만드는 상황도,
AI 기능을 추가하는 상황도 완.벽.대.비
Point 2
텍스트를 넘어 이미지까지!
기초-고급 프롬프팅 기법 11가지 완벽 커버
정확히 내가 원하는 AI 기능을 구현하기 위해서는 상황에 맞는 프롬프팅 기법을 사용해야 합니다.
텍스트를 넘어 이미지, 오디오까지 다루는 고급 & 최신 프롬프팅 개념을 완벽 커버합니다.
OpenAI 기반의 유명 LLM/LMM과 기타 모델 9가지 활용까지!
Step 1. 고급 프롬프팅 - 텍스트(GPT)
-
❶ Zero Shot Learning
추가적인 학습 없이 새로운 데이터를 예측할 수 있게 하는 기법.
많은 양의 라벨링된 학습 데이터가 필요하지 않다.
| 언제 사용하나요?
• 대규모 언어모델(LLM) 환경일 시
• 단순한 감정 분석이 필요할 시 -
❷ One Shot Learning
한정된 양의 입력 데이터를 사용해 자연어 텍스트를 생성하는 기법.
Q, A의 형식으로 되어있어 비슷하게 질문과 답변을 생성할 수 있다.
| 언제 사용하나요?
• 대규모 언어모델(LLM) 환경일 시
• 단순한 감정 분석이 필요할 시
-
❸ Few Shot Learning
2-5개 사이의 예시를 제공하여 모델이 이에 적응하게 하는 기법.
다양한 자연어 표현을 이해할 수 있지만 예시의 개수나 순서에 따라
성능이 달라지건 예시와 비슷한 텍스트만 생성할 수 있다.
| 언제 사용하나요?
• 입력 데이터가 적은 상태에서 자연어 텍스트를 생성할 때
• 템플릿이나 라벨 단어와 같은 복잡한 디자인이 어려울 때 -
❹ Chain-of-Thought Learning
모델이 중간 단계의 결과물을 생성하고 이를 다음 단계의
입력으로 사용하게 하는 기법.
복잡한 다단계 추론을 요구하는 작업에 유리하다.
| 언제 사용하나요?
• 잡한 다단계 추론이 필요할 때
Step 2. 기초 프롬프팅 - 오디오 (Whisper)
-
❺ Transcribe (받아쓰기)
음성 받아쓰기를 통한 실시간 텍스트 입력 및 문서 생성 시 사용.
실시간 음성 기록 및 사전 녹음 된 음성에 대해서도 사용 가능.
| 언제 사용하나요?
• 통화, 회의, 영상 등을 기록하거나 자막을 달 시
• 대화를 요약하거나 감정, 핵심 주제 등을 분석할 시 -
❻ Translate (번역)
라이브 오디오나 미리 녹음 된 오디오를 한 언어에서 다른 언어로
번역할 시
| 언제 사용하나요?
• 실시간 대화에서 동시 통역 시
• 영상의 자막 생성 시
-
❼ AccuracyScore (문법 교정)
라이브 오디오나 미리 녹음된 오디오에서 화자의 음성을 텍스트로
변환할 시 문법을 자동 교정.
| 언제 사용하나요?
• 언어 교육 및 회화 시
• 모든 종류의 받아쓰기 시 -
❽ FluencyScore (발음 평가)
라이브 오디오나 미리 녹음된 오디오에서 화자의 음성 발음을
평가 할 시
| 언제 사용하나요?
• 언어 교육 및 회화 시
Step 3. 고급 프롬프팅 - 이미지 (GPT-4V)
-
❾ Visual Pointing & Visual Referring Prompting
이미지 위에 화살표, 상자, 원 등으로 특정 구역을 표시하여 해당 구역에 대한 설명을 이끌어내는 프롬프팅 기법.
| 언제 사용하나요?
• 통화, 회의, 영상 등을 기록하거나 자막을 달 시
• 대화를 요약하거나 감정, 핵심 주제 등을 분석할 시
| 활용 프로젝트
-
❿ Visual + Text Prompting
텍스트 프롬프트에 더해 사진으로 예시를 주어
정답을 추론하게 하는 멀티모달 프롬프팅 기법
| 언제 사용하나요?
• 예측하고자 하는 데이터의 예시 이미지를 보유하고 있을 때 -
⓫ In-Context Few-Shot Learning
텍스트 프롬프트의 문맥을 이해하기 위한 2-5개의 이미지를
함께 제시하는 Few-shot Learning의 LMM 버전.
| 언제 사용하나요?
• 예측하고자 하는 데이터의 예시 이미지를 다양하게 여러 장 보유하고 있을 때
가장 강력한 멀티모달 모델, GPT-4V 기반의 프로젝트로
적재적소에 멀티모달 프롬프팅을 실습하고 현업에 적용해보세요.
Point 3
고성능 AI 서비스를 위한 현업자의 비책!
단계별 성능 & 비용 최적화 노하우
고객의 만족도를 결정짓는 ‘성능’! 고성능 AI 서비스는 어떻게 구성되어 있을까요?
유명 AI 서비스 뒤 현업자들의 서비스 단계별 성능 & 비용 최적화 노하우를 알려드립니다.
Text
-
• 사용자 감정 분석하기
• 사용자 의도 유추하기 (슬롯 필링) -
• Knowledge Base 기반 답변 생성
• 사용자 의도에 따른 타 기능 연결 -
• 브랜드 이미지에 따라
ㅤ답변 어투 수정하기
Text & Image
-
• 이미지 자동 회전 구현
• 자동 노이즈 감소 구현 -
• 저품질 or 비정형 레이아웃의 문서가
ㅤ입력될 시 해결 방법 -
• 인식된 텍스트 영역 수정
• 인식된 텍스트 배치 수정 -
• 여러 기법으로 번역 성능 평가하기
• Translation Memory 매칭으로 번역 품질 개선하기
• 기계번역 품질 저하 사례 공유 및 해결 방법 -
• 개인정보 처리 및 저장 전략
• 비용 추산 및 비즈니스 효과 추산하기
-
• ChatGPT를 통한 이미지 생성이 불가 시 우회 방법
• Stable Diffusion ComfyUI를 통한
ㅤ이미지 덮어씌우기
• Image to 3D Generation 워크플로우 구현 -
• Inpaint로 이미지 후처리하기
-
Text & Image & Audio
-
• 시각화 도구를 사용하여 프롬프트 튜닝
• Image Interaction을 위한 Scribble UI 구현 -
• Whisper의 정확도 평가 기능(AccuracyScore)을
ㅤ사용하기 -
• 서비스 확장을 위한 추가 기능 구현 추천
ㅤ(관련 기술 등)
-
• Whisper 파인튜닝하기
ㅤ(고품질 학습 데이터 선정, 음성 데이터 분할 등) -
• 음성 인식 시스템에 맞춘 프롬프트 튜닝
-
• Whisper의 발음 평가 기능을 사용하기
-
• 사용자 답변의 정확도, 발음 평가 결과를 반영하여
ㅤ텍스트 답변 생성하고 내보내기
• 사용자 답변의 맥락을 반영하여 텍스트 답변 생성하기 -
• Whisper로 TTS 구현하기
Text & Audio
-
• 화자 분리 모델로 복잡한
ㅤ음성 전처리 과정 대신하기 -
• Whisper API를 사용하여
ㅤ음성 인식 기능 구현하기 -
• 화자의 발화가 겹쳤을 때 처리 방법
• pyannote와 simple-diarizer 장단점 비교
• 음성파일을 python환경에서 wav파일로 컨버팅하기 -
• OpenAI GPT API를 사용하여
ㅤ키워드 추출 구현하기 -
• 다양한 발화 상황에서 음성노트 성능 테스트하기
• 직접 기능을 구현하고 운용하는 비용과
ㅤ API를 활용한 운용 비용의 차이 분석하기
강사님들이 현업에서 직접 문제를 마주하여 얻어낸 노하우를 통해
평균 5년 이상의 실전 AI 서비스 개발 경력을 체화해보세요.
잠깐, 이거 다 좋긴 한데...
걱정하지 마세요!
현업의 AI 서비스 개발을 위한 단계별 가이드를 마련했습니다.
Point 4
현업의 AI 서비스 개발을 위한 체계적인 5-Step 커리큘럼
AI에 대한 기초적 이해부터 AI 기능 개발, 유지보수까지!
일반 개발자, 혹은 데이터 직군이 현업에 LLM/LMM을 적용하기 위한 단계별 가이드를 제시합니다.
단 하나의 강의로,
LLM 사용 경험부터 실질적 도입까지 모두 잡아보세요.
Point 5
현업의 AI 기능 개발을 도와줄 풍성한 부록
현업에서, 혹은 개인 차원에서 LLM/LMM 기반 기능을 만들 시
효율성과 재미를 올려줄 풍성한 부록을 준비했습니다.
Point 6
유명 상용 AI 프로덕트를 만든 현업자 강사진
성공하는 AI 서비스 뒤에는 유능한 AI 엔지니어들의 노하우가 있다!
삼성전자, 뤼튼, 뤼이드 등 국내 탑급 대기업 & AI 스타트업 출신 강사들의 실전 개발 이야기.
김동주 님
전) 신한AI - Backend Developer
전) 한화시스템 - Cloud Native Architect
AX(AI Transformation)역량은 누군가의 전유물이 아닙니다. 생성형 AI의 LLM/LMM에 대한 기초 작동 원리를 쉽게 이해하면서 이를 활용한 서비스를 점진적으로 구현해나가는 방법에 대해 알려드리겠습니다.
Sungwoo 님
- 현) 한국금융인공지능연구원(KIFAI) 오픈소스 프로젝트 활동 중
- 7년간 1000명+ 인공지능 교육 및 멘토링 경험 (타플랫폼 및 대학교 경력 다수)
- 다년간의 언어모델 개발 및 튜닝 경험을 바탕으로 챗봇 등 다양한 애플리케이션 개발
- 한국어와 영어, 코드를 위한 Pretrained LLM ‘GECKO’ 오픈소스 프로젝트 리더
제품화 자체에 집중하여, AI의 원리에 대한 복잡한 설명보단 실전에서 쓸 수 있는 실질적 기술을 알려드리겠습니다. AI 모델 하나하나를 학습하기 전에 기학습된 ML 모델들의 flow부터 구성하며 발빠른 서비스 구현 방법을 익혀보세요.
Sung 님
전) 토익 교육 스타트업 R사 AI 리서처
전) AI 챗봇 스타트업 S사 머신러닝 리서처
AI 시대에서 중요 역량이라는 기준은 늘 변하고 있습니다만, 아직까지 불변하고 있는 것도 있다고 생각합니다. 그 것은 새로운 기술에 대한 관심과 활용능력입니다. 그 불변의 능력을 드리겠습니다! 화이팅!!
강사님과 AI가 답변하는 질의응답 게시판
* 강사님이 채널에 입장하시지만 답변이 필수로 제공되지 않는 커뮤니티 형식의 공간입니다.
* 강사님이 현업 중 답변하시기에 답변까지 영업일 기준 7일 내외 시간이 소요될 수 있습니다.
이 모든 혜택을 압도적인 가성비로!
국내 최대 80시간 분량 & 수강료는 타사대비 1/5
어디가서 배웠다고 말하기도 애매한 몇 시간 짜리 강의, 여러 개 찾아 듣기 불편한데다 가격도 비싸죠.
비교할 수 없는 초격차 패키지 강의를, 가장 저렴하게 평생 소장하세요!
* 선수 지식 부록 (Bonus) 파트의 경우 [딥러닝·인공지능 Signature 초격차 패키지 Online.] 강의의 Part 1 - Chapter 3와 동일한 영상입니다.
Part 0. 딥러닝을 시작하기 전에
Part 1. LLM/LMM의 이해 - Text
Part 2. LLM/LMM의 이해 - Multimodal (1)
Part 3. LLM/LMM의 이해 - Multimodal (2)
Part 4. 클로바노* st 음성 노트 만들기
Part 5. 파파고 st 이미지 번역기 만들기
Part 6. 리멤* st 디지털 명함지갑 만들기
Part 7. 구글쇼* st 가상시착 서비스 만들기
Part 8. 산타토* st 토익스피킹 연습 서비스 만들기
Part 9. 여기어* st CS 챗봇 만들기
Part 9. 여기어* st CS 챗봇 통합하기