Русские видео

Сейчас в тренде

Иностранные видео


Скачать с ютуб 스테이블 디퓨전 이미지로 이미지 생성(이미지프롬프트)IP-adapter в хорошем качестве

스테이블 디퓨전 이미지로 이미지 생성(이미지프롬프트)IP-adapter 5 месяцев назад


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса savevideohd.ru



스테이블 디퓨전 이미지로 이미지 생성(이미지프롬프트)IP-adapter

스테이블 디퓨전의 막강한 기능인 이미지프롬프트 기능에 대해 알아보고 이미지를 생성해보는 영상입니다. 스테이블 디퓨전의 다양한 기초강의 목록 시간에따라 강의는 새롭게 항상 업데이트가 됩니다. AI 창작실 유튜브 기초강의 목록 🥳스테이블 디퓨전 딥페이크 이미지 동영상 만들기(Reactor)    • 스테이블 디퓨전 딥페이크 이미지 동영상 만들기(Reactor)   💕초고속 스테이블 디퓨전 이미지 동영상 만들기    • 초고속 스테이블 디퓨전 이미지 동영상 만들기   🥳실사 이미지 동영상 만들기    • 스테이블 디퓨전 실사 이미지 동영상 만들기   🍀이미지투 이미지 왕기초 강의    • 스테이블 디퓨전 왕기초 가이드 (이미지변환하기)   💕스테이블 실사이미지 및 세팅 에 대한 설명    • 스테이블 디퓨전 A to Z  | 텍스트 한 줄이 이미지를 만든다 ...   🤖스테이블 디퓨전의 컨트롤넷에 대한 기능과 종류    • 스테이블 디퓨전 컨트롤넷의 기능과 종류   🍀이미지 투 이미지로 얼굴 바꿔보기    • 스테이블 디퓨전 광고모델 만들기 + 필터   💕스테이블 디퓨전으로 특징을 살린 동영상 만들기    • 스테이블 디퓨전 특징을 살린 동영상 만들기( 앱신스 활용 )   🍡동영상 만들기의 전반적인 작업 과정    • 스테이블 디퓨전 동영상 만들기 2 (작업과정,앱신스, 기타)   🍡손모양을 자유롭게 DW openpose 알아보기    • 손모양을 자유롭게 DW OPENPOSE (스테이블 디퓨전)   논문 포스팅 이미지 생성은 최근 대규모 text-to-image (T2I) diffusion model의 성공으로 놀라운 발전을 이루었다. 사용자는 강력한 T2I diffusion model을 사용하여 이미지를 생성하는 텍스트 프롬프트를 작성할 수 있다. 그러나 원하는 콘텐츠를 생성하기 위해 좋은 텍스트 프롬프트를 작성하는 것은 복잡한 프롬프트 엔지니어링이 필요한 경우가 많기 때문에 쉽지 않다. 또한, 텍스트는 복잡한 장면이나 개념을 표현하는 데에는 유익하지 않아 콘텐츠 제작에 방해가 될 수 있다. 이와 같은 텍스트 프롬프트 제한 사항을 고려하여 이미지를 생성할 수 있는 다른 프롬프트 유형이 있을까? 자연스러운 선택은 이미지 프롬프트를 사용하는 것이다. 왜냐하면 이미지는 텍스트에 비해 더 많은 내용과 디테일을 표현할 수 있기 때문이다. DALL-E 2는 이미지 프롬프트를 지원하기 위한 첫 번째 시도이며, diffusion model은 텍스트 임베딩이 아닌 이미지 임베딩으로 컨디셔닝되며, T2I 능력을 달성하려면 prior 모델이 필요하다. 그러나 대부분의 기존 T2I diffusion model은 이미지를 생성하기 위해 텍스트로 컨디셔닝된다. 예를 들어 Stable Diffusion 모델은 고정된 CLIP 텍스트 인코더에서 추출된 텍스트 feature로 컨디셔닝된다. 이러한 T2I diffusion model에서도 이미지 프롬프트가 지원될 수 있을까? 본 논문은 간단한 방식으로 이러한 T2I diffusion model에 대한 이미지 프롬프트를 통해 생성 능력을 활성화하려고 시도하였다. SD Image Variations와 Stable unCLIP과 같은 이전 연구들에서는 이미지 프롬프팅 능력을 달성하기 위해 이미지 임베딩에서 직접 텍스트 조건부 diffusion model을 fine-tuning하였으며 그 효과가 입증되었다. 그러나 이 접근법의 단점은 명백하다. 텍스트를 사용하여 이미지를 생성하는 원래의 능력을 제거하고 fine-tuning을 위해 대규모 컴퓨팅 리소스가 필요한 경우가 많다. Fine-tuning된 모델은 일반적으로 재사용이 불가능하다. 이미지 프롬프팅 능력을 동일한 T2I 기반 모델에서 파생된 다른 커스텀 모델로 직접 전송할 수 없기 때문이다. 새로운 모델은 ControlNet과 같은 기존 구조 제어 도구와 호환되지 않는 경우가 많아 다운스트림 애플리케이션에 심각한 문제를 야기한다. Fine-tuning의 단점으로 인해 일부 연구에서는 diffusion model의 fine-tuning을 피하면서 텍스트 인코더를 이미지 인코더로 대체하는 것을 선택하였다. 이 방법은 효과적이고 간단하지만 여전히 몇 가지 단점이 있다. 이미지 프롬프트만 지원되므로 사용자가 텍스트와 이미지 프롬프트를 동시에 사용하여 이미지를 생성할 수 없다. 이미지 인코더를 fine-tuning하는 것만으로는 이미지 품질을 보장하기에 충분하지 않은 경우가 많으며 일반화 문제가 발생할 수 있다. 저자들은 원본 T2I 모델을 수정하지 않고도 이미지 프롬프트를 사용할 수 있는지에 관심을 가졌다. ControlNet과 T2I-adapter에서는 이미지 생성을 가이드하기 위해 기존 T2I diffusion model에 추가 네트워크를 효과적으로 연결할 수 있음이 입증되었다. 이를 위해 CLIP 이미지 인코더에서 추출된 이미지 feature는 학습 가능한 네트워크를 통해 새로운 feature에 매핑된 다음 텍스트 feature와 concatenate된다. 원본 텍스트 feature를 대체함으로써 병합된 feature가 diffusion model의 UNet에 공급되어 이미지 생성을 가이드한다. 이러한 어댑터는 이미지 프롬프트를 사용하는 방법으로 볼 수 있지만 생성된 이미지는 프롬프팅된 이미지에 부분적으로만 충실하며, 결과가 처음부터 학습된 모델은 물론 fine-tuning된 이미지 프롬프트 모델보다 더 나쁜 경우가 많다. 저자들은 앞서 언급한 방법의 주요 문제점이 T2I diffusion model의 cross-attention 모듈에 있다고 주장하였다. 사전 학습된 diffusion model에서 cross-attention 레이어의 key와 value projection 가중치는 텍스트 feature에 맞게 학습된다. 결과적으로, 이미지 feature와 텍스트 feature를 cross-attention 레이어에 병합하면 이미지 feature를 텍스트 feature에 정렬하는 것만 달성되며 이로 인해 잠재적으로 일부 이미지 관련 정보가 누락되어 결국 레퍼런스 이미지를 사용한 제어 가능한 대략적인 생성만 가능하게 된다. 저자들은 이전 방법의 단점을 피하기 위해 IP-Adapter라는 보다 효과적인 이미지 프롬프트 어댑터를 제안하였다. 특히 IP-Adapter는 텍스트 feature와 이미지 feature에 대해 decoupled cross-attention 메커니즘을 채택하였다. UNet diffusion model의 모든 cross-attention 레이어에 대해 이미지 feature에 대해서만 추가 cross-attention 레이어를 추가한다. 학습 단계에서는 새로운 cross-attention 레이어의 파라미터만 학습되고 원래 UNet 모델은 그대로 유지된다. IP-Adapter는 가볍지만 매우 효율적이다. 2200만 개의 파라미터만을 가진 IP-Adapter의 생성 성능은 T2I diffusion model에서 완전히 fine-tuning된 이미지 프롬프트 모델과 비슷하다. 더 중요한 것은 IP-Adapter가 뛰어난 일반화 능력을 보여주고 텍스트 프롬프트와 호환된다는 것이다. 제안된 IP-Adapter를 사용하면 다양한 이미지 생성 작업을 쉽게 수행할 수 있다.

Comments