목차
- 1. 🗣️ Tencent Hunyan 비디오 아바타: 내 목소리로 살아 움직이는 캐릭터!
- 2. 💎 Direct3DS2: 단 한 장의 사진으로 초고퀄 3D 모델을!
- 3. 🔎 Chain of Zoom: 이미지를 256배까지! 선명함은 그대로!
- 4. 🧠 DeepSeek R10528: 더 똑똑해지고 헛소리는 줄었다!
- 5. 🎨 Omni Consistency: 스타일 변환은 자유롭게, 디테일은 그대로!
- 6. 🥊 세계 최초! 휴머노이드 로봇 킥복싱 토너먼트 개최!
- 7. 🎬 Alibaba Phantom: 내 캐릭터를 영상 속에 쏙!
- 8. 🎙️ Chatterbox: 내 목소리랑 똑닮은 TTS 등장! (11 Labs 긴장해!)
- 9. 📊 Paper to Poster: 논문을 멋진 학회 포스터로 자동 변환!
- 11. 🎬 Kling 2.1: 더 강력해진 비디오 생성 능력!
- 12. 🧍♀️ EVA: 나만의 초현실적인 전신 3D 아바타 만들기!
여러분 안녕하세요, 아이고입니다. 😄
정말 하루가 다르게 새로운 기술들이 쏟아져 나오는 AI의 세계! 🚀 정신없이 바쁜 일상에 치여 최신 AI 소식들을 놓치고 있지는 않으신가요? 걱정 마세요! 저 아이고가 이번 5월 마지막, 한 주 동안 AI 업계를 뜨겁게 달궜던 흥미진진한 뉴스들만 쏙쏙 골라 알기 쉽게 정리해 드릴게요! 마치 따끈따끈한 AI 기술 뷔페에 오신 것처럼, 취향 따라 골라보는 재미가 있을 거예요. 자, 그럼 지금부터 저와 함께 이번 주 AI 핫이슈들을 만나러 가보실까요? 😉
👇🏼 오늘도 오디오 요약본 함께 들어보세요! 👇🏼
1. 🗣️ Tencent Hunyan 비디오 아바타: 내 목소리로 살아 움직이는 캐릭터!

- 이게 뭔가요?: Tencent(텐센트)에서 선보인 Hunyan Video Avatar (헌옌 비디오 아바타)는 한마디로 현실적인 캐릭터 애니메이터예요!
- 주요 특징
- 단 한 장의 캐릭터 이미지와 음성 파일만 있으면, 캐릭터가 말하는 입 모양(립싱크), 감정 표현, 자연스러운 머리 움직임까지 매우 현실적으로 만들어낸다고 해요. 😲
- 배경에 있는 다른 인물들까지 애니메이션화할 수 있다는 점도 놀랍고요.
- 실사 사진뿐만 아니라 그림, 애니메이션, 3D 캐릭터, 심지어 일부 동물에게도 적용 가능! (내 최애캐가 말하는 모습을 볼 수 있다니! 🤩)
- 멀티모달 확산 트랜스포머(multimodal diffusion transformer)라는 특별한 모델을 사용한다고 하네요.
- 어떻게 써볼 수 있나요?
- 모델들이 HuggingFace에 공개되어 있어서 다운로드할 수 있어요. (허깅페이스 huggingface.co/tencent/HunyuanVideo-Avatar 에서 받아보세요!)
- GitHub 저장소 Tencent-Hunyuan/HunyuanVideo-Avatar에는 로컬 환경에서 실행하는 방법도 안내되어 있답니다.
- 다만, 공식적으로는 Nvidia CUDA GPU (최소 24GB VRAM, 고품질은 96GB 권장)가 필요하다고 하니, 사양이 꽤 높은 편이에요. 😅 하지만 우리에겐 희망이 있죠! 오픈소스 커뮤니티에서 곧 저사양 VRAM에서도 돌아가는 압축 버전이 나올 것으로 기대해 봅니다! 🙏
이제 내가 그린 그림이나 좋아하는 캐릭터에게 생명을 불어넣는 일이 더욱 쉬워지겠어요!
2. 💎 Direct3DS2: 단 한 장의 사진으로 초고퀄 3D 모델을!
- 이게 뭔가요?: 현재까지 나온 3D 모델 생성기 중에서 가장 디테일한 결과물을 보여준다고 평가받는 Direct3DS2입니다!
- 주요 특징
- 기가스케일(Gigascale) 3D 생성을 목표로, 단 한 장의 2D 이미지로부터 매우 상세하고 고해상도의 완전한 3D 모델을 만들어낼 수 있어요. 🤯
- 기존의 다른 3D 모델 생성기(Trellis, Hunyen, High3DGen 등)와 비교했을 때 훨씬 더 디테일하고 정확한 결과물을 보여준다고 하니, 퀄리티는 정말 기대 이상일 것 같아요!
- 생성 속도도 매우 빠르다고 하고요.
- 새로운 공간 희소 어텐션(spatial sparse attention) 메커니즘을 도입해서, 1024 해상도 학습에 단 8개의 GPU만 필요하다고 해요. (이전 방식은 256 해상도에 최소 32개 GPU가 필요했던 것에 비하면 엄청난 발전이죠!)
- 어떻게 써볼 수 있나요?
- Hugging Face wushuang98/Direct3D-S2 페이지에 무료 온라인 데모 페이지가공개되어 있어서 바로 체험해 볼 수 있어요! (궁금하신 분들은 당장 달려가 보세요! 🚀)
- 모델과 코드도 이미 GitHub 저장소에 공개되어 로컬에서도 사용 가능하고, 생성된 3D 모델은 OBJ 형식으로 다운로드할 수 있답니다.
이제 3D 모델링의 문턱이 확 낮아지는 걸까요? 게임 개발이나 VR/AR 콘텐츠 제작에 정말 유용하게 쓰일 것 같아요!
3. 🔎 Chain of Zoom: 이미지를 256배까지! 선명함은 그대로!

- 이게 뭔가요?: Chain of Zoom (체인 오브 줌)은 이미지를 극도로 확대(upscale)하면서도 놀라운 선명도를 유지하는 AI 기술이에요.
- 주요 특징
- 무려 최대 256배까지 이미지를 확대할 수 있는데, 흐릿해지거나 깨지는 현상 없이 매우 깨끗하고 선명한 결과물을 보여준다고 해요. ✨
- 비결은 바로 ‘체인 오브 줌’이라는 기술! 이미지의 작은 부분을 선택하고, 그 부분을 확대하고, 또 그 안의 작은 부분을 선택해서 확대하는 과정을 반복하는 방식이랍니다.
- 이미지 안에 있는 텍스트도 뭉개지지 않고 잘 처리한다고 하니, 정말 대단하죠?
- 이미지 분석과 생성을 안내하기 위해 비전 언어 모델(Vision Language Model, VLM)을 사용하는데, 이 VLM은 GRPO(Generalized Reward Policy Optimization)라는 강화 학습 기법으로 훈련되어 더욱 똑똑하게 작업을 수행한다고 하네요.
- 어떻게 써볼 수 있나요?
- GitHub 저장소 bryanswkim/Chain-of-Zoom에 코드가 공개되어 있어서 로컬 환경에서 직접 사용해 볼 수 있어요.
- 24GB VRAM GPU로도 실행 가능하지만, 원활한 사용을 위해서는 GPU 두 개를 권장한다고 합니다.
- 이 역시 오픈소스이기 때문에, 곧 저용량 VRAM에서도 사용할 수 있는 압축 버전이 등장할 것으로 기대됩니다! 😊
이제 해상도가 낮아서 아쉬웠던 사진들도 Chain of Zoom으로 새롭게 태어날 수 있겠어요! 숨겨진 디테일을 발견하는 재미도 쏠쏠할 것 같네요.
4. 🧠 DeepSeek R10528: 더 똑똑해지고 헛소리는 줄었다!
- 이게 뭔가요?: 기존 DeepSeek R1 모델의 새로운 업그레이드 버전, DeepSeek R10528입니다! (이름이 좀 어렵죠? 😅)
- 주요 특징
- 기존 R1과 동일한 아키텍처를 기반으로 하지만, 각종 벤치마크 성능이 향상되고 AI의 고질병 중 하나인 환각(hallucinations, 헛소리) 현상이 크게 줄었다고 해요! 👍
- 전체 모델의 매개변수(parameter)는 무려 6710억 개에 달한다고 합니다. (어마어마하죠?)
- 일부 벤치마크(수학 추론 AIME, 대학원 수준 질문 등)에서는 Google의 Gemini 2.5 Pro나 OpenAI의 O3 모델과 동등하거나 더 뛰어난 성능을 보여줬다고 하고요.
- 독립 평가 기관의 지능 지수 평가에서도 Gemini 2.5 Pro와 동등하고, O4 Mini High 모델에 거의 근접하는 수준이라고 하니, 정말 똑똑해진 것 같아요!
- 심지어 코딩 벤치마크에서도 Gemini 2.5 Pro를 앞섰다고 하네요! 💻
- 어떻게 써볼 수 있나요?
- API 사용 방식은 기존과 동일하고, DeepSeek API를 통해 사용할 때 가격이 매우 저렴하다고 해요! (Gemini 2.5 Pro나 GPT-4o보다 훨씬 싸다고 하니, 가성비 최고! 💰)
- MIT 라이선스 하에 완전 오픈소스로 공개되었고, HuggingFace deepseek-ai/DeepSeek-R1-0528에서 모든 모델을 다운로드할 수 있습니다.
- 현재 온라인 플랫폼에서 무료로 사용해 볼 수도 있다고 하니, 한번 경험해 보세요!
더 강력하고 안정적인 거대 언어 모델을 찾고 계셨다면 DeepSeek R10528이 좋은 선택이 될 수 있겠네요!
5. 🎨 Omni Consistency: 스타일 변환은 자유롭게, 디테일은 그대로!
- 이게 뭔가요?: 새로운 오픈소스 AI 이미지 편집기, Omni Consistency (옴니 컨시스턴시)입니다!
- 주요 특징
- 이미지의 스타일을 바꾸는 데 매우 뛰어나면서도, 원본 이미지의 모든 디테일을 그대로 유지하는 데 강점을 보인다고 해요. ✨
- 스타일 변경 능력 면에서는 GPT-4o, Google Gemini, 심지어 최근 핫했던 Flux Context 같은 다른 최첨단 이미지 생성/편집 모델들보다도 뛰어나다고 제시되었을 정도! (자신감 뿜뿜! 😎)
- 3D, 3D 치비, 장난감, 미국 만화, 점토, 벡터, 레고, 종이접기 등 정말 다양한 스타일로 이미지를 변환할 수 있다고 하니, 창의적인 표현의 폭이 엄청나게 넓어지겠어요!
- 어떻게 써볼 수 있나요?
- Hugging Face showlab/OmniConsistency에서 다운로드 할 수 있고.
- 모델과 데이터셋 모두 GitHub 저장소 showlab/OmniConsistency에도 공개되어 있어서 로컬에서도 활용 가능합니다.
내 사진을 레고 스타일로, 혹은 좋아하는 그림을 3D 스타일로 바꿔보는 재미! Omni Consistency와 함께라면 어렵지 않겠어요!
6. 🥊 세계 최초! 휴머노이드 로봇 킥복싱 토너먼트 개최!

- 이게 뭔가요?: 말 그대로 세계 최초의 휴머노이드 로봇 킥복싱 토너먼트가 열렸다는 소식입니다! 🤖💥🥊
- 주요 특징
- 중국 항저우에서 CMG(China Media Group) 주최로 열렸다고 해요.
- 1.3m 키에 35kg 무게의 UniTree G1 휴머노이드 로봇 4대가 참가해서 실력을 겨뤘다고 합니다.
- 로봇들은 인간 조종자가 원격으로 제어하는 텔레-오퍼레이티드(tele-operated) 방식이었지만, 스스로 균형을 잡거나 넘어졌을 때 다시 일어나는 등 자율적인 요소도 포함되어 있었다고 하네요.
- 마치 영화 ‘리얼 스틸’이 현실이 된 것 같은 이 행사는 미래의 로봇 스포츠를 엿볼 수 있는 흥미로운 시도였다고 평가받고 있습니다.
언젠가는 로봇들끼리 월드컵도 하고 올림픽도 하는 날이 오지 않을까요? 정말 상상만 해도 두근거리네요! 😄
7. 🎬 Alibaba Phantom: 내 캐릭터를 영상 속에 쏙!
- 이게 뭔가요?: 이미지(캐릭터 또는 객체)를 업로드해서 비디오에 자연스럽게 삽입할 수 있는 Phantom (팬텀)이라는 도구입니다! (알리바바에서 만들었어요!)
- 주요 특징
- 최고의 오픈소스 비디오 생성기 중 하나로 꼽히는 12.1 (역시 알리바바 개발) 모델에 의해 구동된다고 해요.
- 제품 사진처럼 참고 객체를 입력해서 해당 객체가 등장하는 비디오를 생성하는 데 아주 유용하다고 합니다. (내가 만든 캐릭터가 애니메이션 주인공처럼 움직이는 모습을 볼 수 있다니! 😍)
- 어떻게 써볼 수 있나요?
- 전체 140억 매개변수 모델이 출시되었고요.
- 우리에게 익숙한 ComfyUI 워크플로우와도 편리하게 통합되었다고 하니, ComfyUI 사용자분들은 더욱 쉽게 활용해 볼 수 있겠어요!
이제 나만의 캐릭터나 제품을 활용한 멋진 영상을 더욱 손쉽게 만들 수 있겠네요!
8. 🎙️ Chatterbox: 내 목소리랑 똑닮은 TTS 등장! (11 Labs 긴장해!)
- 이게 뭔가요?: 새로운 오픈소스 텍스트-투-스피치(Text-to-Speech, TTS) 생성기, Chatterbox (채터박스)입니다!
- 주요 특징
- 개발팀은 자그마치 11 Labs보다 뛰어나다고 주장하고 있어요! (엄청난 자신감이죠? 🔥)
- 사용법도 매우 간단! 변환하고 싶은 텍스트를 입력하고, 몇 초 길이의 참조 목소리만 업로드하면 끝!
- 참조 목소리의 음색과 표현력을 매우 잘 보존한다고 하고요, 영국 억양 등 다양한 억양도 기가 막히게 복제할 수 있다고 해요. 목소리 복제 능력만큼은 정말 최고 수준인 것 같습니다!
- 어떻게 써볼 수 있나요?
- 완전 오픈소스로 모든 것이 공개되었고, GitHub 저장소 resemble-ai/chatterbox에 로컬 사용 방법도 잘 안내되어 있어요.
- 설치도 비교적 쉬워서
pip install
명령어로 간단하게 설치할 수 있다고 합니다. - 0.5억 개의 매개변수를 가진 Llama 백본의 작은 모델이라 대부분의 소비자용 GPU에서도 실행 가능하고, 심지어 CPU 및 Mac 지원도 추가되었다고 하니 접근성이 정말 좋네요! 😊
이제 나만의 오디오 콘텐츠를 만들거나, 내 목소리로 AI 비서를 만드는 것도 훨씬 쉬워지겠어요!
9. 📊 Paper to Poster: 논문을 멋진 학회 포스터로 자동 변환!
- 이게 뭔가요?: 과학 논문 PDF 파일을 학회 발표용 포스터로 자동으로 변환해 주는 AI, Paper to Poster (페이퍼 투 포스터)입니다! (대학원생 여러분, 소리 질러! 📢)
- 주요 특징
- 논문의 핵심 내용을 요약하고, 논문에 포함된 시각 자료와 그림들을 활용해서 멋진 포스터를 뚝딱 만들어준다고 해요.
- 놀랍게도, 원본 논문 작성자가 직접 만든 포스터보다 더 깔끔하고 보기 좋게 생성될 수도 있다고 하네요! (AI의 디자인 감각이란… 👀)
- GPT-4o 이미지 생성기나 다른 AI 모델/에이전트들보다 훨씬 뛰어난 포스터 생성 능력을 보여주고, 벤치마크 평가에서도 사람이 만든 포스터에 가까운 점수를 얻었다고 합니다.
- 오픈소스 모델인 Quinn 기반 변형을 사용하면 비용도 매우 저렴하다고 하니, 연구자분들에게 정말 유용한 도구가 될 것 같아요!
- 작동 방식은 크게 논문 분석(parser) → 구성 요소 배치 계획(planner) → 레이아웃 정제/텍스트-이미지 정렬(painter/commenter)의 세 단계를 거친다고 합니다.
- 어떻게 써볼 수 있나요?
- GitHub 저장소 Paper2Poster/Paper2Poster에 코드가 공개되어 로컬 환경에서 사용해 볼 수 있습니다.
이제 밤새워 포스터 만들던 시절은 안녕! Paper to Poster에게 맡기고 연구에 더 집중하세요! 😉
11. 🎬 Kling 2.1: 더 강력해진 비디오 생성 능력!
- 이게 뭔가요?: 인기 비디오 생성 모델 Kling(클링)의 최신 버전, 2.1입니다!
- 주요 특징
- Kling 2.0에서 0.1 버전 업그레이드되었는데, 2.0보다 약간 더 좋아졌다고 해요. (솔직한 평가네요! 😄)
- 두 가지 모델이 출시되었어요:
- Master: 고품질이지만 생성 시간이 길고 100 크레딧 소모.
- Normal: 더 저렴하고(35 크레딧 소모) 품질은 2.0과 비슷.
- 프롬프트 이해 및 따르기 능력이 매우 좋고, 생성되는 비디오 품질도 뛰어나서 Google의 VO3와 동등한 수준으로 평가받고 있다고 합니다.
- 팔다리가 왜곡되거나 사라지는 등의 문제 없이 일관성 있는 결과물을 잘 생성한다고 하니, 더욱 자연스러운 영상을 기대해 볼 수 있겠어요.
- 어떻게 써볼 수 있나요?
- Kling 플랫폼에 로그인하면 바로 사용해 볼 수 있습니다.
점점 더 발전하는 AI 비디오 생성 기술! Kling 2.1로 또 어떤 멋진 영상들이 탄생할지 기대됩니다!
12. 🧍♀️ EVA: 나만의 초현실적인 전신 3D 아바타 만들기!
- 이게 뭔가요?: Expressive Virtual Avatars (EVA, 익스프레시브 버추얼 아바타)는 누구나 매우 현실적인 전신(fullbody) 3D 아바타를 생성할 수 있도록 도와주는 AI예요!
- 주요 특징:
- 정확한 신체 움직임, 풍부한 얼굴 표정, 섬세한 손 제스처까지 포함된 고품질 3D 아바타를 만들 수 있다고 해요.
- 여러 각도에서 촬영된 인물의 비디오를 입력받아서, 그 정보를 바탕으로 3D 모델을 생성하는 방식이에요.
- 생성된 3D 아바타의 움직임은 입력된 비디오를 기반으로 하기 때문에, 입력과 다른 새로운 움직임을 제어할 수는 없다고 하네요. (하지만 이 자체로도 정말 대단하죠!)
- 3D 렌더링의 품질이 매우 인상적이라고 합니다! ✨
- 작동 원리는 비디오를 3D 모션 데이터로 변환하고, 이를 토큰화한 후, 모션 비디오 모델, 형상(geometry), 질감(appearance), 얼굴 모델 등을 복합적으로 결합하여 최종 3D 렌더링을 생성하는 복잡한 과정을 거친다고 합니다.
- 어떻게 써볼 수 있나요?:
- 아쉽게도 현재까지 모델이나 코드는 출시되지 않았다고 해요. 😭 하지만 기술 데모만으로도 엄청난 가능성을 보여줬으니, 곧 만나볼 수 있기를 기대해 봅니다!
이제 영화나 게임 속에서나 보던 나만의 디지털 아바타를 만드는 날이 머지않은 것 같네요! 😊
휴, 정말 숨 가쁘게 달려왔죠? 😉 이번 주 AI 업계는 그야말로 혁신적인 기술들의 향연이었던 것 같아요! 이 외에도 영상에서는 Black Forest Labs의 Flux Kontext에 대한 간략한 언급도 있었다고 하는데요, Flux Kontext에 대한 자세한 내용은 바로 이전 포스팅에서 다뤘으니 궁금하신 분들은 꼭 한번 읽어보세요! (깨알 홍보! 😘)
오늘 제가 전해드린 소식들이 여러분의 궁금증을 해소하고 새로운 영감을 얻는 데 조금이나마 도움이 되었으면 좋겠습니다! 앞으로 또 어떤 놀라운 AI 기술들이 우리를 기다리고 있을지, 저 아이고와 함께 계속해서 주목해 주세요!
함께 보면 좋은 글 : Flux Kontext 등장! AI 이미지 편집, 이제 말로 다 시키세요 ✍️✨ (이전 아이고 포스팅 링크)
더 궁금한 점이나 이야기하고 싶은 AI 뉴스가 있다면 언제든지 댓글로 알려주시고요, 저는 다음에 더욱 알찬 소식으로 돌아오겠습니다! 즐거운 한 주 보내세요! 😄