본문 바로가기
AI

How I use LLMs 영상 요약

by 콕스 2025. 5. 5.

https://www.youtube.com/watch?v=EWvNQjAaOHw

목차

 

 

이 비디오는 llm(large language model)을 실용적으로 사용하는 방법을 소개합니다. chatsheepd를 예시로 들어, 텍스트 인터페이스를 통해 llm과 상호작용하는 기본 원리를 설명하고, 다양한 llm서비스( gemini, claude, grok등)와 그 특징을 비교합니다. 또한, llm의 지식은 사전 학습 데이터에 기반하며, 최신 정보는 도구 사용을 통해 제공해야 함을 강조합니다. 모델 선택의 중요성과 함께, 새로운 주제로 대화할 때마다 채팅을 새로 시작하여 토큰윈도우를 관리하는 팁을 제공합니다. llm을 ' llmcouncil'처럼 활용하여 다양한 의견을 수렴하는 방법도 제시하며, llm이 문제 해결 과정에서 사고 전략을 활용하는 방식을 설명합니다. 이 영상은 llm의 기본 원리를 이해하고, 이를 효과적으로 활용하여 생산성을 높이는 데 도움을 줍니다.

 

1. 🌐 다양한 LLM 서비스와 그 발전

 

  • chatsheepd는 2022년 openai에 의해 개발되어, 사람들이 텍스트 인터페이스를 통해 대화할 수 있는 첫 기회를 제공하며 인터넷에서 큰 인기를 끌었다.
  • 2025년, llm 생태계는 크게 성장하여 다양한 앱들이 출시되었으며, 특히 ChatGPT는 기능이 가장 풍부하고 인기 있는 서비스이다.
  • 많은 빅테크 회사들이 ChatGPT와 유사한 경험을 제공하는 서비스(예: gemini, Meta.ai, Copilot)를 개발하였고, Anthropic의 claude나 XAI의 grok 등 여러 스타트업들도 이 분야에 참여하고 있다 .
  • 이러한 모델과의 차이를 확인하고 추적할 수 있는 방법으로 Chatbot Arena와 같은 리더보드를 언급하며, 여기서 다양한 모델의 성능을 비교할 수 있음이 설명된다 .
  • 초기에는 openai의 ChatGPT를 시작으로 설명하겠지만, 다른 예시들도 차례로 소개되며, 이는 사용자들이 다양한 llm을 이해할 수 있도록 돕는다 .

 

 

2. 📝 언어 모델과의 상호작용 이해하기

 

  • 언어 모델과의 기본적인 상호작용은 텍스트 입력을 제공하고 이에 대한 응답 텍스트를 받는 것이다 .
  • 언어 모델은 하이쿠와 같은 편지 등을 잘 작성할 수 있는 능력이 뛰어난데, 이는 모델이 다양한 형태의 글쓰기에 능숙하기 때문이다 .
  • 사용자 쿼리와 모델의 응답은 토큰이라는 작은 텍스트 조각들로 나뉘며, 전체 문장도 사실상 하나의 일차원 토큰 시퀀스로 구성된다 .
  • 다양한 특수 토큰을 사용하여 대화 형식이 유지되며, 이는 사용자와 모델 간의 상호작용 흐름을 반영한다 .
  • 컨텍스트 윈도우는 대화의 작업 기억으로, 이 안에 있는 정보는 모델이 직접 접근 가능한 내용으로 처리된다 .

 

3. 🤖 LLM의 두 가지 주요 단계

3.1. 언어 모델의 두 단계: 사전 훈련과 후속 훈련

 

  • 언어 모델은 pre-training(사전 훈련)과 post-training(후 훈련) 두 단계로 훈련되며, pre-training은 인터넷의 모든 데이터를 토큰으로 쪼개어 압축하는 단계이다. 
  • 이 pre-training의 결과물은 대략 1테라바이트의 용량을 가지며, 이는 약 1조 개의 매개변수로 구성되어 간섭형 기계학습 네트워크에 저장된다. 
  • 모델은 주어진 토큰의 순서로 다음 토큰을 예측하는 방식으로 작동하며, 이를 통해 방대한 지식이 모델에 내장된다. 
  • 그러나 pre-training은 매우 비쌀 수 있으며, 오랜 시간이 소요되기 때문에 여러 달에 걸쳐 진행되며, 이로 인해 최신 정보는 잃게 된다. 
  • post-training 단계에서는 모델이 대화형 성격을 가져주기 위해 인간이 생성한 대화 데이터 세트를 사용하여 조정된다. 

3.2. LLM의 자아 이해하기

 

  • 언어 모델은 완전히 독립적인 존재로서 기본적으로 1 테라바이트 크기의 파일에 비유되며, 이는 1조 개의 파라미터와 그 설정을 포함한다. 
  • 이 모델은 계산기, 컴퓨터, Python 인터프리터, 웹 브라우징과 같은 도구 없이 작동하며, 단순히 zip 파일의 역할을 한다. 
  • 모델의 응답은 사전 훈련에서의 지식과 사후 훈련에서 형성된 스타일과 형태를 기반으로 한다. 
  • 예를 들어, "안녕하세요, 저는 ChachiPT입니다. 제 지식은 약 6개월 전에 전체 인터넷을 읽은 것에서 비롯되며, 다소 불확실하고 모호합니다." 
  • 모델은 인터넷에서 자주 언급되는 주제에 대해 더 나은 기억력을 가지며, 희귀하게 논의되는 것들에 대해서는 기억력이 떨어진다. 

3.3. ChatGPT의 활용 예시와 정보 검증

 

  • ChatGPT에 카페인 함량에 대한 질문을 했을 때, 답변으로 63mg의 카페인이 있다고 언급했다. 이는 비교적 오래된 정보로, 모델이 해당 내용을 잘 기억하고 있을 것으로 기대된다. 
  • 사용자는 ChatGPT가 제공한 정보를 직접 확인할 수 있으며, 예를 들어 1샷 아메리카노의 카페인량을 검증하기 위해 1차 출처를 참조할 수 있다. 
  • 또 다른 예로 사용자는 감기 증상 완화용 약물인 DayQuil과 NightQuil에 대해 질문했다. ChatGPT는 약물의 성분과 효능에 대한 정보를 제공했지만, 사용자는 이 정보를 체크하기 위해 실제 약물 포장지를 살펴보았다. 
  • ChatGPT는 일반적인 정보지식 기반 쿼리에 대해 유용할 수 있지만, 반드시 모든 정보가 정확할 것이라고 보장할 수는 없다. 
  • 이러한 대화는 큰 위험이 없는 상황에서 이루어지며, 사용자에게는 의약품에 대한 추가 정보를 제공하는 데 도움이 되었음을 나타낸다. 

3.4. LLM 사용 시 주의사항

 

  • 대화가 길어지면 주제를 바꿀 때마다 새 채팅을 시작하는 것이 좋으며, 이는 맥락 창의 토큰을 초기화해 비용을 절감하는 데 도움을 준다. 
  • 맥락 창에 너무 많은 토큰이 들어가면 모델의 정확도와 성능이 저하될 수 있고, 더 많은 토큰은 다음 토큰을 샘플링하는 데 소요되는 비용을 약간 증가시킨다. 
  • 토큰은 소중한 자원으로 여겨야 하며, 필요 없는 정보로 과부하를 주지 말고 가능한 한 짧게 유지해야 한다. 
  • 사용 중인 모델을 항상 인지해야 하며, 비로그인 상태에서는 모델이 약간 제한된 GPT 4.0 Mini일 가능성이 있다. 
  • 각 모델은 가격에 따라 성능 차이가 있으며, 프로 구독을 통해 보다 강력한 모델에 접근할 수 있는 이점이 있다. 

3.5. LLM 제공자의 가격과 모델 선택

 

  • 모든 llm제공자는 다른 가격대와 모델 옵션을 가지고 있으며, 이로 인해 사용자가 선택할 수 있는 폭이 넓어지는 구조이다. 
  • 예를 들어, Anthropic의 claude를 사용할 경우, 전문 계획에 가입하면 3.5 Sonnet에 접근할 수 있지만, 그렇지 않으면 기본 모델인 Haiku 등의 제한된 접근만 가능하다. 
  • 개인적인 경험으로는, 여행 조언을 요청했을 때 claude가 추천한 스위스의 Zermatt을 여행하게 되었고, 이는 이러한 모델들이 유용하게 활용될 수 있는 예시 중 하나이다. 
  • Google의 gemini 또한 Zermatt을 추천하여 여러 모델 간의 의견을 비교하는 것이 흥미롭게 작용하였다. 
  • 다양한 llm제공자와 그들의 가격대를 실험하면서 자신에게 맞는 최적의 모델을 찾는 것이 중요하며, 이를 통해 여러 질문에 대한 답변을 얻기 위해 여러 모델을 동시에 사용하는 것이 효과적이다. 

4. 🧠 사고 모델과 이유 찾기

 

  • 사고 모델은 강화 학습을 통해 문제 해결을 위한 사고 전략을 발견하고, 이는 문제 해결 시의 내면의 독백과 유사하다.
  • 많은 사고 전략은 인간 라벨러가 코딩하기 어렵기 때문에, 모델이 다양한 방법을 시도하면서 작동하는 것이 필요하다.
  • 사고 모델을 사용할 경우, 특히 수학, 코드와 같은 어려운 문제에서 높은 정확도를 기대할 수 있다.
  • 사용자는 필요에 따라 사고 모델을 선택하여 긴 시간 동안 모델의 사고를 기다리게 할 수 있고, 이는 더 나은 결과를 가져올 수 있다.
  • 다양한 llm제공자들이 사고 모델을 도입하여, 문제 해결 능력을 향상시키고 있으며, 이들은 최근 큰 발전으로 여겨진다.

 

4.1. 언어 모델의 사고 모델

  • 언어 모델은 여러 단계의 훈련 과정을 거치며, 그 중 강화 학습 단계에서 문제 해결을 위한 사고 전략을 발견한다.
  • 이 사고 전략은 문제 해결 시의 내적 독백과 유사하며, 모델은 다양한 아이디어를 시도하고 가정을 재검토하는 과정을 거친다. 
  • 이러한 사고 과정을 인간이 하드코드하기는 어려우나, 강화 학습을 통해 모델은 자신의 지식과 능력에 맞는 유효한 사고 과정을 발견한다. 
  • 최근 1~2년 동안 다양한 llm연구실들이 강화 학습을 실험하며, 이는 과학적 돌파구로 여겨진다. 
  • 추가 사고 과정을 통한 정확도 향상이 기대되며, 특히 수학, 코드 문제와 같이 복잡한 문제에 효과가 크다. 

4.2. LLM의 문제 해결 능력 및 모델 선택

  • gpt-4.0은 문제 해결에 대한 특정한 핵심 이슈를 파악하지 못하고 일반적인 조언만 제공하여, 실제 문제를 해결하는 데 도움이 되지 않았다. 
  • O1 Pro 모델은 1분 동안의 심도 있는 사고 과정을 거쳐, 매칭되지 않은 파라미터문제와 같은 정확한 해결책을 제시하여 문제를 해결했다. 
  • 여러 다른 모델들, 예를 들어 claude나 gemini도 문제를 해결할 수 있었으며, 심지어 Sonnet과 같은 비사고 모델에서도 이슈를 인식하고 해결했다. 
  • Thinking models는 더 어려운 수학 및 코드 문제 해결에 효과적이며, 일반적인 질문에서는 빠른 응답을 제공하는 비사고 모델을 선호하는 것이 유리할 수 있다. 
  • 필요 시 모델의 사고 시간을 늘려서 더욱 심도 있는 답변을 얻기 위해 사고 모델로 전환하는 방법이 권장된다. 

4.3. ️ LLM의 도구 사용 확장

  • 도구 사용에 대한 논의가 시작되며, 이전까지는 텍스트를 통해 언어 모델과 상호작용한 내용만 다뤘다. 
  • 언어 모델은 비활성 상태로 존재하며 도구가 없는 폐쇄된 구조를 가지고 있다. 
  • 현재 모델은 단순히 토큰을 출력하는 신경망일 뿐이다.
  • 이제는 모델이 다양한 도구를 활용할 수 있는 능력을 갖추도록 확장할 필요가 있다. 
  • 특히, 인터넷 검색 기능이 가장 유용한 도구 중 하나로 언급되었다. 

4.4. ️ 인터넷 검색 기능의 필요성

 

  • 모델이 정보를 찾기 위해 인터넷 검색 기능을 활용해야 한다. 예를 들어, 'White Lotus' 시즌 3의 방영 일자를 찾기 위해 사용자가 직접 여러 웹페이지를 검색하던 과거와 달리, 모델이 자동으로 검색하여 정보를 제공할 수 있다. 
  • 모델은 검색 결과를 컨텍스트 창에 삽입하여 질문에 대한 답변을 제공한다. 사용자가 질문하면, 모델이 필요한 웹페이지를 탐색하고 그 내용을 기반으로 올바른 답을 형성하게 된다. 
  • 모델은 최신 정보를 알기 위해 반드시 인터넷 검색을 수행해야 한다. 예를 들어, 'White Lotus' 시즌 3의 방영 일정은 모델이 훈련된 이후에 결정된 정보로, 따라서 모형 자체에 포함되어 있지 않다. 
  • Perplexity와 ChatGPT와 같은 도구들이 이러한 검색 기능을 지원한다. 이들 도구를 사용하면 사용자가 직접 웹사이트를 탐색할 필요 없이 정보를 효율적으로 얻을 수 있다. 
  • 제공된 정보는 정확성이 보장되지 않으므로 사실 확인이 필요하다. 모델이 제시한 답변은 참고용으로, 사용자가 직접 웹페이지를 확인해볼 필요가 있다.

4.5. LLM의 검색 도구 활용 방법

 

  • llm모델은 때때로 자체적으로 웹검색이 필요하다고 인식하여 검색을 수행하고 결과를 인용한다. 
  • claude 모델은 실제로 인터넷 검색 도구를 사용하지 않으며, 최신 정보에 대한 접근이 제한적이다. 
  • gemini 2.0 Pro Experimental은 인터넷 검색에 접근할 수 없어 정보 조회가 불가능하다. 
  • 사용자는 최신 정보가 필요할 때 검색 도구를 사용하여 구체적인 질문을 설정하는 것이 좋다. 
  • 검색 도구를 활용하여 최근 정보나 트렌드를 확인하고, llm을 통해 요약 정보를 얻는 것을 선호한다. 

 

4.6. Deep Research의 활용 및 특징

  • Deep Research는 인터넷 검색과 사고를 결합하여 심층 연구를 수행하는 기능으로, 현재 월 $200에 제공된다. 
  • 사용자는 특정 주제에 대한 정보 검색을 요청하면, 모델이 여러 논문과 인터넷 자료를 조사하여 자세한 보고서를 작성한다. 
  • 다른 플랫폼에서도 유사한 기능이 도입되고 있으며, 예를 들어 Perplexity와 grok에서도 Deep Research 혹은 Deep Search 기능이 제공된다. 
  • 결과물은 심층적인 정보를 제공하지만, 모델이 잘못된 정보를 생성할 가능성이 있으므로, 이를 첫 번째 초안으로 삼고 추가 검증이 필요하다. 
  • 사용자는 Deep Research를 통해 제품 비교, 생명 연장 연구 등 다양한 주제를 연구할 수 있으며, 결과는 때때로 부정확할 수 있다. 

4.7. LLM과 문서 참조 활용

  • llm에 구체적인 문서를 제공함으로써, 기존 지식에 의존하지 않고 더 정확한 정보를 얻을 수 있다. 
  • llm은 사용자가 업로드한 문서를 참조하여 질문에 대한 답변을 제공할 수 있는 기능이 유용하다. 
  • llm을 활용해 학술 문서를 읽을 때는 PDF 파일을 업로드하고 해당 문서에 대한 질문을 할 수 있으며, 이는 문서 이해에 도움이 된다. 
  • 고전 문헌이나 타 분야의 자료를 읽을 때 llm이 이해를 도와주어, 더 나은 retention과 comprehension을 이끌어낼 수 있다. 
  • 현재로서는 문서 전체를 쉽게 하이라이트하고 질문하는 통합 도구가 부족하여, 사용자가 수동으로 복사하여 질문하는 방식이 필요하다. 

 

5. 🛠️ LLM과 Python 인터프리터의 강력한 통합

 

  • Python 인터프리터를 이용하여 llm이 직접 코드 프로그램을 작성하고 실행할 수 있는 기능이 추가되었다. 이를 통해 llm이 복잡한 문제를 해결하는 데 도전할 수 있다. 
  • 예를 들어, llm이 간단한 곱셈 문제를 해결할 수 있지만, 복잡한 문제에 직면했을 때 도구 사용으로 전환하여 Python 코드로 결과를 도출한다. 
  • openai는 ChatGPT를 훈련시켜 문제 해결을 위해 도구를 사용할 때의 상황을 알아차릴 수 있도록 했다. 이는 인간 레이블러가 제공한 데이터셋에 기반한다. 
  • 특별히 접근 가능한 도구가 없는 llm은 어려운 문제에서 잘못된 결과를 도출할 수도 있으므로, 각 llm의 도구 가능성을 알아두는 것이 중요하다. 
  • 데이터 분석 기능인 ChatGPT Advanced Data Analysis를 통해 데이터 수집, 분석, 시각화 작업을 도와주며, 이를 직접 확인하고 코드의 정확성을 검토해야 한다. 

5.1. ️ LLM과 파이썬 인터프리터의 통합

 

  • llm은 이제 프로그램 작성과 실행이 가능하도록 파이썬 인터프리터를 사용할 수 있게 되었다. 
  • llm은 단순히 정확한 답변을 제공하는 것이 아니라, 프로그램을 작성하고 특정 토큰으로 ChatGPT 애플리케이션에 이를 전송하여 결과를 요청할 수 있다. 
  • 간단한 예로, llm은 30 곱하기 9 같은 간단한 계산을 수행할 수 있지만, 이는 기억 작업에 가까우며 실제 수학적 계산이 아니다. 
  • 복잡한 문제에 대해서는 llm이 계산기처럼 도구를 사용하도록 훈련되어 있으며, 이는 openai에 의해 설계되었다. 
  • llm이 도구를 사용하는 과정은 자연어가 아닌 파이썬 프로그램으로 수행되며, 결과는 모델이 텍스트로 다시 전달받아 사용자에게 보여준다. 

 

5.2. ️ LLM의 도구 사용 현황

 

 

  • 프로그래밍 언어 내에서 다양한 작업을 수행할 수 있지만, 서로 다른 llm이 사용 가능한 도구가 다르기 때문에 주의가 필요하다. 
  • llm에서 Python 인터프리터나 프로그래밍 언어에 접근하지 않거나 사용을 거부하는 경우, 복잡한 문제에서 올바른 결과를 제공하지 않을 수 있다. 
  • 예를 들어, ChatGPT는 프로그래밍 언어를 사용하여 올바른 결과를 도출하지만, grok3는 프로그래밍 언어에 접근하지 못해 계산을 머릿속에서 시도하고 잘못된 결과를 추론하였다. 
  • Clod는 JavaScript 코드를 작성하여 정확한 결과를 제공하였고, gemini는 도구를 사용하지 않고도 예상한 결과를 계산해 낸 사례가 있으나, 결과가 부정확하기도 했다. 
  • 현재 llm의 상태를 보면, 각 llm의 도구 사용 가능성이 다르며 이를 인식하고 주의하여야 하며, 도구가 없을 경우 근사값을 추론하면서 결과를 제공할 수 있다는 점에 유의해야 한다. 

5.3. ChatGPT의 데이터 분석 활용

 

  • ChatGPT 고급 데이터 분석은 데이터 분석가와 협력하는 것으로, 데이터 수집 및 시각화의 강력한 도구이다. 
  • 예를 들어, openai의 가치를 조사하면서 사용자가 ChatGPT에게 검색 도구를 활용하도록 요청하여 실제 데이터를 기반으로 한 테이블을 생성한다. 
  • ChatGPT는 로그 스케일로 데이터 차트를 그리며, 코드 생성 및 실행을 통해 시각적 결과물을 제공한다. 
  • 그러나 ChatGPT가 암묵적인 가정을 하고 코드를 작성하여 잘못된 데이터를 출력할 수 있으며, 이러한 부분에 대해 사용자는 항상 검토하고 주의해야 한다. 
  • 이러한 고급 데이터 분석의 가능성을 보여주지만, 사용자에게는 데이터의 정확성을 확인할 필요성이 강조된다. 

5.4. Claude Artifacts와 그 활용

 

  • claude를 통해 특정 텍스트로부터 플래시카드를 생성할 수 있다. 예를 들어, 아담 스미스의 위키피디아 소개문에서 질문을 생성하여 20개의 플래시카드를 받는다. 
  • 생성된 플래시카드는 애플리케이션 형태로 구현하여 테스트할 수 있으며, claude가 코드를 작성하여 사용자가 브라우저에서 직접 실행할 수 있도록 한다. 
  • 이러한 방식은 전통적인 소프트웨어 개발과 달리, claude가 사용자의 요청에 따라 맞춤형 앱을 즉시 작성하고 배포하는 새로운 패러다임을 보여준다. 
  • 다이어그램 생성 기능이 유용하며, 예를 들어, 아담 스미스의 '국부론'의 특정 장을 분석하여 관련된 개념 다이어그램을 만들 수 있다. 
  • 이러한 다이어그램은 정보의 구조를 시각적으로 표현하여, 정보의 배열과 주장을 쉽게 이해하는 데 도움을 준다. 

 

5.5. LLM을 활용한 코드 작성 방법

 

 

  • llms는 코드 작성을 잘하며, ChatGPT와 claude등은 브라우저에서 코드를 부분적으로 실행할 수 있는 기능을 가지고 있다. 
  • 개인적으로는 ChatGPT에서 코드 스니펫을 요청하기보다, Cursor와 같은 별도의 앱을 사용하여 더 효율적으로 작업한다. 
  • Cursor는 로컬 파일 시스템과 통합되어 작동하며, 사용자가 직접 웹 페이지를 통해 접근할 필요 없이 api를 통해 Cloud와 상호작용한다. 
  • 예제로 Tic-Tac-Toe 게임을 Cursor를 사용하여 몇 분 안에 작성했으며, 이 과정에서 CSS와 JavaScript를 자동으로 생성하였다. 
  • 최신 기능인 Composer는 코드 기반에서 명령을 실행하고 여러 파일을 편집할 수 있는 자율적 에이전트 역할을 하며, 이를 통해 프로그래밍의 효율성이 크게 향상되었다. 

5.6. 다양한 상호작용 모달리티 활용법

 

  • 모델과의 상호작용을 텍스트 입력에 국한하지 않고, 음성비디오와 같은 더 자연스러운 형식으로 확장해야 한다. 
  • 모바일에서 쿼리의 80%는 음성 입력으로 처리되며, 텍스트 입력보다 훨씬 빠르고 편리하다. 
  • 데스크톱에서는 음성을 텍스트로 변환하는 기능이 내장되어 있지 않아, SuperWhisper와 같은 서드파티 앱을 활용하여 음성 인식을 수행한다. 
  • 출력 측면에서는 앱에서 제공하는 읽기 기능을 통해 생성된 텍스트를 음성으로 들을 수 있다. 
  • 음성을 사용하는 것이 쿼리 입력의 절반 이상에서 효과적이며, 이 방법이 더 빠르고 편리하다는 점이 부각된다. 

5.7. 음성과 텍스트의 통합 처리

 

  • 가짜 오디오는 모델과의 상호작용이 텍스트 기반으로 이루어지기 때문에 가짜로 간주된다. 이를 개선하기 위해, 음성을 텍스트와 음성 간의 변환 과정을 빠르게 처리한다. 
  • 현재는 모델 내에서 직접 처리되는 진짜 오디오 기술이 확보되어 있어, 텍스트 토큰이 아닌 음성 청크를 이해할 수 있는 기능이 추가되었다. 
  • 모델은 최대 10만 개의 오디오 청크로 이루어진 어휘를 사용하여 학습되어 진정한 오디오를 인식하고 생성할 수 있는 능력을 갖추게 된다. 
  • 고급 음성 모드는 모델이 natively 음성을 처리할 수 있게 해주며, 이 방식에서는 텍스트가 전혀 포함되지 않는다. 
  • 사용자는 grok.com과 같은 플랫폼에서도 고급 음성 모드를 이용할 수 있으며, grok은 엔터테인먼트적인 측면에서 더 다양한 기능을 제공한다. 

5.8. 노트북 LM을 통한 팟캐스트 생성

 

  • 노트북 LM은 사용자들이 다양한 소스를 업로드하여 상호작용할 수 있는 언어 모델이다. 사용자는 원시 텍스트, 웹 페이지, PDF 파일 등을 업로드할 수 있다. 
  • 사용자가 업로드한 데이터는 모델의 컨텍스트 창에 들어가며, 이 정보를 바탕으로 질문을 하고 답변을 받을 수 있다. 
  • 흥미로운 점은 사용자가 업로드한 정보로 맞춤형 팟캐스트를 생성할 수 있다는 것이다. 생성 버튼을 눌러 몇 분 기다리면 원하는 정보를 바탕으로 팟캐스트가 만들어진다. 
  • 인터랙티브 모드에서는 팟캐스트 진행 중 질문을 할 수 있어, 특정 문서나 주제에 대한 관심이 있을 때 유용하다. 
  • 사용자는 여러 주제에 대해 맞춤형 팟캐스트를 생성하고, 이를 통해 인공지능의 도움을 받아 니치한 주제에 대한 정보를 얻을 수 있다. 

5.9. ️ 이미지 토큰화와 LLM 활용

 

  • 이미지는 토큰 스트림으로 재구성할 수 있으며, 이를 통해 llm이 텍스트와 오디오처럼 이미지를 모델링할 수 있다. 
  • 이미지를 패치로 나누고 각 패치를 가장 가까운 단어로 표현하여, 각각의 이미지를 100,000개의 패치 어휘로 구성된다. 
  • llm은 텍스트, 오디오, 이미지 등 다양한 유형의 토큰 패턴을 통계적으로 모델링하며, 인코더와 디코더에서만 어떤 것이 이미지인지를 비밀리에 확인한다. 
  • llm을 활용하여 영양 라벨과 혈액 검사 결과, 치약 성분 등을 분석하고, 정보를 정확히 전사하여 질문할 수 있다. 
  • DALL-E와 같은 모델을 사용하여 이미지를 생성할 수도 있으며, 이는 사용자가 제공한 텍스트에 따라 세밀하게 조정된다. 

5.10. AI 비디오 생성 모델과 ChatGPT 기능

 

  • 최근 많은 AI 비디오 생성 도구들이 등장하고 있으며, 이들은 빠르게 발전하고 있어 놀라운 수준에 도달하고 있다. 
  • 사용자가 주어진 AI 모델에게 같은 주제로 비디오를 생성하도록 요청했으며, 생성된 결과물들은 각각의 스타일과 품질이 다르다. 
  • ChatGPT의 메모리 기능은 사용자가 이전 대화에서 언급한 내용을 기억하고, 이를 반영하여 더 맞춤형 대화를 제공하도록 돕는다. 
  • 사용자는 ChatGPT의 훈련 시 자신의 선호나 요구사항을 커스터마이즈할 수 있으며, 이는 사용자 맞춤형 대화를 지원하는 중요한 기능이다. 
  • 다양한 목적을 위해 커스텀 GPT를 생성하여, 언어 학습이나 번역 등 다양한 작업에 활용할 수 있다.