목차
- 🌟 이번 주 AI 하이라이트 미리보기!
- 1. 🖼️ TAIR (TextAware Image Restoration): 흐릿한 이미지 속 글자, AI로 선명하게!
- 2. 💎 Hunyuan 3D 2.1 (텐센트): 최고 수준의 3D 모델 생성기, 무료에 오픈소스까지!
- 3. 🧩 PartPacker (Nvidia): 3D 모델, 의미 있는 부분으로 나눠서 편집한다!
- 4. 🎞️ LoraEdit: 영상 편집, 첫 프레임만 바꾸면 나머지는 AI가 알아서!
- 5. 🎬 Hailuo 02: 현존 최강 AI 비디오 생성기? (Google VEO3 압도!)
- 6. 🧠 Minimax M1: DeepSeek을 뛰어넘는 오픈소스 LLM 등장!
- 7. 🌌 ImmerseGen: 텍스트만으로 3D VR 세계를 창조한다!
- 8. 🎨 Midjourney V1: 드디어 미드저니도 비디오 모델 출시! (하지만 아직은…?)
- 9. 🎬 InterActHuman (ByteDance): 사용자와 상호작용하는 AI 비디오! (더 많은 제어 기능!)
- 10. 💡 POLARIS & AlignYourFlow: AI 모델을 더 똑똑하고 효율적으로 만드는 기술!
여러분 안녕하세요, 아이고입니다. 😄
정말 하루가 다르게 새로운 기술들이 쏟아져 나오는 AI의 세계! 🚀 이번 주에도 어김없이 우리를 깜짝 놀라게 할 만한 혁신적인 AI 소식들이 한가득인데요, 어떤 기술들이 새롭게 등장했고 또 얼마나 발전했는지 궁금하시죠? 걱정 마세요! 저 아이고가 이번 한 주 동안 AI 업계를 뜨겁게 달궜던 흥미진진한 뉴스들만 쏙쏙 골라, 여러분이 놓치지 않도록 깔끔하게 정리해 드릴게요! 마치 AI 기술 종합 선물 세트처럼, 다양한 분야의 혁신적인 소식들을 한눈에 만나보실 수 있을 거예요. 자, 그럼 지금부터 저와 함께 이번 주 AI 핫이슈들을 만나러 가보실까요? 😉
🌟 이번 주 AI 하이라이트 미리보기!
이번 주에는 정말 다양한 분야에서 놀라운 AI 기술들이 등장했어요! 매우 현실적인 새로운 캐릭터 애니메이터부터 시작해서, 이미지의 미친 듯한 업스케일링 및 확대 AI, 11 Labs보다 낫다고 주장하는 새로운 오픈 소스 TTS(Text-to-Speech) 생성기, Kling의 최신 모델 Kling 2.1, 홍콩에서 성공적으로 마무리된 최초의 휴머노이드 로봇 격투 토너먼트 소식도 있었고요. 여기에 더해, 믿을 수 없을 정도로 상세한 새로운 3D 모델 생성기, 전신 3D 모델을 만들 수 있는 AI, DeepSeek의 업그레이드된 새 모델(심지어 Gemini 2.5 Pro만큼 좋다고!), 그리고 PDF를 과학 포스터로 변환하는 AI까지! 정말 숨 가쁘죠? 헥헥 😅 자, 그럼 주요 기술들을 하나씩 자세히 살펴볼까요?
1. 🖼️ TAIR (TextAware Image Restoration): 흐릿한 이미지 속 글자, AI로 선명하게!
- 이게 뭔가요?: 흐릿하거나 손상된 이미지, 특히 텍스트가 포함된 이미지를 마법처럼 복원해서 텍스트를 더 선명하고 읽기 쉽게 만들어주는 AI, TAIR입니다!
- 주요 특징:
- 속도가 매우 빠르다는 장점이 있어요. 🚀
- 대부분의 이미지 생성 모델처럼 확산 트랜스포머(diffusion transformer)를 사용하는데, 여기에 이미지 내 텍스트를 감지하고 인식하는 텍스트 인식 구성 요소를 결합해서 이미지를 복원한다고 해요.
- 어떻게 써볼 수 있나요?: 모델 가중치는 아직 공개되지 않았지만, 데이터 세트와 파이프라인은 HuggingFace나 Google Drive에 공개되어 있다고 합니다. (곧 써볼 수 있기를! 🙏)
- 아이고 생각: 오래된 문서나 저화질 스크린샷 속 글자를 살려야 할 때 정말 유용하겠어요!

2. 💎 Hunyuan 3D 2.1 (텐센트): 최고 수준의 3D 모델 생성기, 무료에 오픈소스까지!
- 이게 뭔가요?: 텐센트(Tencent)에서 출시한 3D 모델 생성기로, 현재 사용할 수 있는 최고 수준 중 하나로 평가받는 Hunyuan 3D 2.1입니다! 심지어 완전 무료에 오픈 소스라는 사실! 🤩
- 주요 특징:
- 어떤 개체나 캐릭터의 이미지든 입력받아 3D 모델로 생성! 모델의 형태뿐만 아니라 알베도(색상), 금속성, 거칠기 같은 질감까지 완벽하게 생성한다고 해요.
- 초기 이미지 데이터가 없어도 개체의 뒷면까지 추측해서 생성하는 능력! (이건 정말 대단한데요? 👀)
- Trippo, Trellis, Direct3D S2 같은 다른 주요 3D 모델 생성기들보다 벤치마크 점수에서 더 우수하다고 합니다!
- 어떻게 써볼 수 있나요?: 온라인에서 무료 HuggingFace 데모를 제공하고, 모든 모델을 다운로드해서 Gradio 그래픽 인터페이스를 통해 로컬에서도 실행할 수 있어요!
- 아이고 생각: 이제 누구나 전문가 수준의 3D 모델을 손쉽게 만들 수 있는 시대가 성큼 다가온 것 같아요!

3. 🧩 PartPacker (Nvidia): 3D 모델, 의미 있는 부분으로 나눠서 편집한다!
- 이게 뭔가요?: Nvidia에서 개발한 도구로, 단일 이미지에서 3D 개체를 생성하는데, 이때 개체를 의미 있는 개별 부분으로 분할해서 나중에 각 부분을 따로 편집하거나 움직일 수 있게 해주는 PartTracker입니다!
- 주요 특징:
- 자동차 바퀴를 회전시키거나, 보물 상자 뚜껑을 열거나, 캐릭터의 머리카락만 제거하는 등 3D 모델을 더욱 세밀하게 편집하고 애니메이션화하는 데 매우 유용해요.
- Hollow PartNet 같은 다른 대안들보다 3D 모델의 의미 있는 부분을 감지하고 분할하는 데 더 뛰어나다고 합니다.
- 어떻게 써볼 수 있나요?: 온라인에서 무료 HuggingFace 데모를 제공하고, 모델과 코드는 GitHub에서 다운로드해서 로컬에서도 실행 가능!
- 아이고 생각: 3D 모델링 후 편집 작업이 훨씬 더 직관적이고 편리해지겠네요! 창의적인 애니메이션 제작에도 큰 도움이 될 것 같아요.

4. 🎞️ LoraEdit: 영상 편집, 첫 프레임만 바꾸면 나머지는 AI가 알아서!
- 이게 뭔가요?: 비디오의 첫 프레임만 살짝 변경하면, 그 변경 사항을 비디오의 나머지 부분에 자연스럽게 적용해 주는 신기한 비디오 편집 AI, LoRAEdit입니다!
- 주요 특징:
- 비디오의 다른 모든 세부 사항은 그대로 보존하면서 원하는 부분만 바꿀 수 있다는 게 핵심!
- 추가 프레임을 사용해서 비디오 생성을 안내할 수도 있다고 해요.
- “마스크 인식 로라 미세 조정(mask-aware Laura fine-tuning)”이라는 기술을 사용해서, 알고리즘이 비디오의 어느 부분을 편집하고 어느 부분을 그대로 둘지 알려주는 마스크를 생성한다고 합니다.
- 어떻게 써볼 수 있나요?: GitHub 저장소에 지침과 사용하기 쉬운 Gradio 그래픽 인터페이스가 포함되어 있고, ComfyUI 통합도 개발 중이라고 하니 기대해 봐도 좋겠어요!
- 아이고 생각: 영상 편집 작업 시간을 획기적으로 줄여줄 수 있는 꿀템이 될 것 같아요! 특히 반복적인 수정 작업에 아주 유용하겠네요.
5. 🎬 Hailuo 02: 현존 최강 AI 비디오 생성기? (Google VEO3 압도!)
(이전에 자세히 다뤘지만, 다시 한번 강조해도 아깝지 않은 괴물급 모델이죠! 😉)
- 이게 뭔가요?: 현재 사용할 수 있는 최고의 AI 비디오 생성기로 평가받으며, Google의 VEO3를 능가하는 엄청난 성능을 보여주는 Hailuo 02입니다!
- 주요 특징:
- 이미지-투-비디오 및 텍스트-투-비디오 모두 지원! (768p 또는 1080p 해상도)
- 복잡한 장면, 카메라 움직임, 물리적 이해 능력이 정말 뛰어나요.
- V3와 달리 텍스트 프롬프트만으로 기존 인물이나 유명인을 생성할 수 있다는 점! (검열 걱정 NO!)
- 까다로운 움직임에서도 변형이나 불일치 없이 놀라운 일관성을 유지한다고 해요.
- 독립적인 벤치마크에서도 V3를 약 100 ELO 포인트 차이로 앞선다고 합니다! 👑
- 어떻게 써볼 수 있나요?: 500 크레딧의 무료 평가판을 제공하고 (768p 비디오는 25 크레빗 소모), 유료 요금제도 Google V3보다 훨씬 저렴해서 연간 96달러부터 시작한다고 하니, 가성비까지 완벽!
- 아이고 생각: AI 영상 생성의 새로운 기준을 제시하는 모델! 이제 정말 상상하는 모든 것을 영상으로 만들 수 있는 시대가 온 것 같아요!
6. 🧠 Minimax M1: DeepSeek을 뛰어넘는 오픈소스 LLM 등장!

- 이게 뭔가요?: Apache 2 라이선스(상업적 사용 포함, 최소한의 제한) 하에 오픈소스화된 강력한 대규모 언어 모델(LLM), Minimax M1입니다!
- 주요 특징:
- 4560억 개의 매개변수를 가진 하이브리드 전문가 혼합(hybrid mixture of experts) 모델!
- OpenAI의 O3나 Gemini 2.5 Pro 같은 주요 폐쇄형 모델만큼 우수한 성능을 보여준다고 해요! 😮
- 무려 100만 토큰의 컨텍스트 길이(대략 70만 단어 이상)를 지원해서, DeepSeek R1보다 8배 더 많은 내용을 프롬프트에 담을 수 있다는 사실!
- API를 통해 DeepSeek R1이나 Gemini 2.5 Pro보다 훨씬 저렴하게 이용할 수 있다고 합니다.
- 어떻게 써볼 수 있나요?: 웹 검색 기능과 “생각하기(think)” 버튼(더 긴 추론을 위해)을 갖춘 무료 온라인 채팅 인터페이스를 제공하고, 모든 모델은 HuggingFace에서 다운로드해서 로컬에서도 실행 가능!
- 아이고 생각: 오픈소스 LLM의 무서운 발전! 이제 고성능 LLM을 더 저렴하고 자유롭게 활용할 수 있는 길이 열렸네요!
7. 🌌 ImmerseGen: 텍스트만으로 3D VR 세계를 창조한다!
- 이게 뭔가요?: 텍스트 프롬프트만으로 3D 세계, 즉 가상 현실(VR) 환경을 생성할 수 있는 놀라운 AI, ImmerseGen입니다!
- 주요 특징:
- 생성된 장면이 매우 사실적이고 선명하며 디테일하다고 해요! 지금까지 공개된 3D 장면 생성기 중 최고의 품질을 자랑한다고! ✨
- 다양한 예술적 스타일을 렌더링할 수 있고, 심지어 새가 날아다니는 모습이나 물결 같은 동적인 요소와 주변 소리까지 추가할 수 있다고 합니다!
- 작동 방식은, 먼저 사용자의 텍스트 프롬프트를 받아 기본 지형(미리 정의된 3D 메시)을 검색한 다음, “지형 조건부 텍스처링 구성 요소”를 통해 장면에 텍스처를 입히고, “경량 3D 개체(자산)”를 추가한 후, 추가적인 세부 사항을 위해 정교화 과정을 거친다고 하네요.
- 어떻게 써볼 수 있나요?: 코드는 “곧 출시될 예정”이라고 언급되었지만, 아직 GitHub 저장소는 공개되지 않았어요. (정말 기대되는 기술입니다! 🙏)
- 아이고 생각: 이제 게임 개발자나 VR 콘텐츠 제작자들이 상상하는 세계를 훨씬 더 쉽고 빠르게 구현할 수 있게 되겠네요! 메타버스의 미래가 더욱 기대됩니다!
8. 🎨 Midjourney V1: 드디어 미드저니도 비디오 모델 출시! (하지만 아직은…?)
- 이게 뭔가요?: 그 유명한 이미지 생성 AI, Midjourney의 첫 번째 AI 비디오 모델, V1이 드디어 등장했어요!
- 주요 특징 및 제한 사항:
- 아쉽게도 무료 평가판은 없고 유료 구독(최소 월 8달러부터)이 필요해요.
- 현재는 이미지-투-비디오만 가능하고 (텍스트-투-비디오 옵션 없음), 5초 길이의 480p 해상도 비디오를 생성한다고 합니다. (다른 주요 모델들에 비하면 품질이 다소 낮은 편이죠? 😥)
- 비디오에 소리를 생성할 수도 없다고 하네요.
- 하지만! Midjourney 특유의 독특한 미학적 분위기는 여전해서, 특정 예술적 스타일을 선호하는 사용자에게는 좋은 선택이 될 수 있을 것 같아요.
- 느리거나 움직임이 적은 장면에서는 일관성을 보이지만, 고액션 장면에서는 Hailuo 02만큼 좋지는 않다고 합니다.
- 아이고 생각: 아직은 “최고 중의 최고”라고 말하기는 어렵지만, Midjourney의 첫 비디오 모델이라는 점에서 의미가 있고, 앞으로의 발전이 더욱 기대됩니다! 특유의 감성을 영상으로 표현하고 싶은 분들에게는 매력적일 수 있겠네요.
9. 🎬 InterActHuman (ByteDance): 사용자와 상호작용하는 AI 비디오! (더 많은 제어 기능!)
- 이게 뭔가요?: 틱톡의 모회사인 ByteDance에서 개발한 AI 비디오 기술로, Google VEO3와 유사하지만 사용자에게 훨씬 더 많은 제어 기능을 제공하는 InterActHuman입니다!
- 주요 특징:
- 인물이나 개체의 참조 이미지, 오디오 클립, 장면을 설명하는 텍스트 프롬프트를 입력받아 캐릭터가 오디오를 말하는 비디오를 생성!
- 여러 사람이 포함된 오디오 클립에서도 각 캐릭터가 대화의 특정 부분을 말하도록 명확하게 제어할 수 있다고 해요! (이건 정말 유용한데요? 👍)
- 사실적인 장면뿐만 아니라 만화나 3D 애니메이션 스타일에서도 작동하고, 다른 언어도 처리 가능!
- 참조 개체를 입력해서 사람이 그 개체와 상호 작용하는 비디오를 만드는 것도 가능하다고 합니다.
- 어떻게 써볼 수 있나요?: 현재는 기술 보고서만 공개되었고, 오픈소스 여부는 아직 언급되지 않았어요. (ByteDance의 기술력이라면 정말 기대해 볼 만한데요!)
- 아이고 생각: 사용자 의도를 더욱 정확하게 반영하고, 여러 캐릭터 간의 상호작용까지 제어할 수 있다면 정말 활용도가 무궁무진할 것 같아요!
10. 💡 POLARIS & AlignYourFlow: AI 모델을 더 똑똑하고 효율적으로 만드는 기술!
- ❄️ POLARIS:
- 강화 학습을 사용해서 언어 모델의 추론 능력을 획기적으로 향상시키는 새로운 방법론이에요! 기존에 훈련된 모델에 후처리 기법으로 추가할 수 있다고 합니다.
- 놀랍게도, Quen 34B(40억 매개변수) 같은 매우 작은 모델에 적용했을 때, AIM 벤치마크에서 Grok 3, Claude 4 Opus, O3 Mini High, Gemini 2.5 Flash를 능가하는 엄청난 성능 향상을 보여주었다고 해요! (모델 크기의 160배 이상 되는 다른 모델들을 이겼다니! 🤯)
- 훈련 데이터의 난이도를 조절하고, 다양한 예시를 사용하며, 훈련 예시의 길이와 복잡성을 점진적으로 증가시켜 모델이 장기적으로 복잡한 추론을 처리할 수 있도록 훈련한다고 합니다.
- 데이터 세트, 훈련 세부 정보, 코드를 포함한 모든 것이 오픈소스화되었고, GitHub에서 다운로드해서 로컬에서도 실행 가능!

- 🌊 AlignYourFlow (Nvidia):
- Nvidia에서 개발한 새로운 이미지 생성 기술로, 기존 이미지 생성기에서 더 작은 변형을 만들어 이미지를 훨씬 적은 단계(단 1~2단계!)로 생성할 수 있게 해준다고 해요!
- Fluxdev에서 증류(distillation)한 예시에서 단 1~2단계 만으로도 고품질 이미지를 생성하며, 기존의 다른 증류 방법(LCM, TCD)보다 훨씬 뛰어난 성능을 보여주었다고 합니다!
- 코드는 “곧 출시될 예정”이라고 하네요.
아이고 생각: POLARIS와 AlignYourFlow 같은 기술들은 AI 모델 자체의 성능과 효율성을 극대화시켜서, 앞으로 더 적은 자원으로도 더 강력한 AI를 만들 수 있는 길을 열어줄 것 같아요! 정말 기대되는 발전 방향입니다!
휴, 정말 숨 가쁘게 달려왔죠? 😉 이번 주 AI 업계는 그야말로 혁신적인 기술들의 향연이었던 것 같아요! 이미지 복원부터 3D 모델링, 비디오 편집, VR 환경 생성, 그리고 강력한 LLM과 AI 모델 최적화 기술까지! 정말 어느 한 분야도 빠지지 않고 놀라운 발전이 이루어지고 있네요.
오늘 제가 전해드린 소식들이 여러분의 궁금증을 해소하고 새로운 영감을 얻는 데 조금이나마 도움이 되었으면 좋겠습니다! 앞으로 또 어떤 놀라운 AI 기술들이 우리를 기다리고 있을지, 저 아이고와 함께 계속해서 주목해 주세요!
함께 보면 좋은 글:
- 🤯 AI 영상 생성, 드디어 끝판왕 등장? Hailuo 02 솔직 리뷰 (V3, Kling 2.1 압살?) (이전 아이고 포스팅 링크)
더 궁금한 점이나 이야기하고 싶은 AI 뉴스가 있다면 언제든지 댓글로 알려주시고요, 저는 다음에 더욱 알찬 소식으로 돌아오겠습니다! 즐거운 한 주 보내세요! 😄