Tạo Flux Dev LORA - Hướng dẫn đầy đủ

Tạo Flux Dev LORA - Hướng dẫn đầy đủ

. 11 phút đọc

Hướng dẫn đầy đủ về cách tạo Flux LORA. Bao gồm quy trình làm việc.

Hai phi hành gia làm việc trên xe tự hành trên sao Hỏa.

Bắt đầu

Trong hướng dẫn này, chúng tôi sẽ hướng dẫn cách đào tạo LORA cho mô hình tạo hình ảnh Flux AI từ đầu đến cuối bao gồm:

  • Công cụ và mẹo để xây dựng và tổ chức tập dữ liệu
  • Tùy chọn chú thích
  • Đào tạo mô hình bằng quy trình làm việc Comfy UI
  • Kiểm tra LORA

Phương pháp này được sử dụng để tạo ra:

Ông già Noel amigaThiên hà

Thông số kỹ thuật yêu cầu

Hướng dẫn này được viết bằng Geforce RTX 3090 24GB và RAM 24GB. Tôi nghe nói Flux Dev training gặp lỗi OOM khi sử dụng 4090 16GB.

Flux Dev hay Flux Schnell?

Chúng tôi sẽ sử dụng mô hình Flux Dev, nhưng mô hình Flux Schnell cũng có cách hoạt động tương tự.

Nếu bạn cần tải xuống mô hình dev, hãy vào đây . Bạn sẽ cần phải đăng nhập và chấp nhận ToS. Đặt mô hình vào thư mục điểm kiểm tra của bạn.

Chuẩn bị một tập dữ liệu

Như thường lệ, sự chuẩn bị là chìa khóa thành công ở đây. Bạn phải có hình ảnh chất lượng cao, có chú thích phù hợp về chủ đề hoặc phong cách của mình để tạo ra một LORA tốt.

Số lượng hình ảnh bạn cần trong tập dữ liệu phụ thuộc vào chủ đề của bạn.

Nếu bạn đang tạo LORA của một người hoặc một vật cụ thể thì 25 hình ảnh sẽ phù hợp.

Đối với các phong cách/giao diện chung, LORA có thể hoạt động trên nhiều lời nhắc/bối cảnh khác nhau hoặc LORA mang tính khái niệm khác, thì 100-200 hình ảnh là phù hợp với tôi.

Bộ dữ liệu của bạn càng lớn thì khả năng hình ảnh bị mờ hoặc có chú thích không chính xác càng cao.

Ngoài ra, sử dụng hình ảnh có nhiều kích thước và tỷ lệ khung hình khác nhau sẽ tạo ra kết quả cuối cùng tốt hơn. Chúng ta sẽ hướng dẫn cách chọn độ phân giải cụ thể sau.

Tìm kiếm hình ảnh

Nếu bạn đang xây dựng một LORA theo khái niệm hoặc phong cách, tôi khuyên bạn nên dành thời gian tìm kiếm một nguồn/kho lưu trữ hình ảnh tốt. (Nguồn của NASA LORA được hiển thị ở trên là trang lưu trữ APOD NASA .)

nasa apod

Nếu bạn đang thu thập hình ảnh thủ công trên web hoặc từ một kho lưu trữ lớn, hãy xem PureRef cho phép bạn kéo và thả bất kỳ hình ảnh nào vào một khung vẽ vô hạn và sắp xếp, thay đổi kích thước và lưu chúng thành một tệp.

Nếu bạn tìm thấy một tập hợp lớn hình ảnh ở đâu đó, như trong ví dụ của NASA, tôi đã thành công RẤT NHIỀU khi sử dụng ChatGPT để viết các tập lệnh thu thập dữ liệu Python để tải xuống hình ảnh bằng Scrapy trong một lời nhắc duy nhất. Bạn cũng có thể làm điều này với các video YouTube bằng các thư viện tương tự.

Nếu bạn thu thập một bộ ảnh lớn, bạn nên yêu cầu LLM sắp xếp chúng vào các thư mục có tỷ lệ khung hình khác nhau, điều này sẽ tiết kiệm thời gian sau này. Ví dụ về lời mô tả ChatGPT tại đây

Tổ chức và chuẩn hóa hình ảnh

Trước khi đào tạo LORA, chúng ta cần sắp xếp đúng cách các hình ảnh tập dữ liệu của mình vào các thư mục dựa trên kích thước đầu vào của chúng. Nếu bạn có hình ảnh rất lớn, bạn cũng có thể cần phải thay đổi kích thước của chúng.

Thay đổi kích thước hình ảnh

Tập lệnh đào tạo LORA sẽ thay đổi kích thước hình ảnh đầu vào, nhưng thực hiện việc này trước sẽ giúp bạn kiểm soát hình ảnh đầu vào tốt hơn và cho phép bạn xem những thay đổi kích thước không phù hợp trước khi dành nhiều giờ để đào tạo, do đó, đây là bước được khuyến nghị.

Ngay cả khi bạn không thay đổi kích thước hình ảnh theo cách thủ công hoặc không cần thay đổi kích thước, bạn vẫn cần sắp xếp hình ảnh vào các thư mục theo độ phân giải, trừ khi bạn đang đào tạo ở một độ phân giải duy nhất.

Ảo thuật hình ảnh

Nếu bạn cần thay đổi kích thước hoặc cắt ảnh hàng loạt, hoặc nếu bạn cần chuẩn hóa ảnh có tỷ lệ khung hình tương tự thành kích thước cụ thể, hãy xem Imagemagick .

ChatGPT/LLM có thể giúp bạn viết các lệnh tốt converthoặc mogrify(thay đổi hình ảnh tại chỗ) cho tập dữ liệu của bạn.

hình ảnh ma thuật llm
Lựa chọn độ phân giải

Trước khi đào tạo, bạn sẽ cần chọn 1-3 độ phân giải/tỷ lệ khung hình từ các bảng bên dưới cho tập dữ liệu của mình. Tạo datasets/Your_Loras_name/thư mục trong thư mục ComfyUI của bạn. Bên trong, tạo một thư mục cho mỗi độ phân giải bạn đã chọn. Tôi đã sử dụng danh sách độ phân giải này .

Có thể có hình ảnh hoặc thay đổi kích thước hình ảnh theo độ phân giải không thể xử lý trong bước đào tạo, do đó, bạn nên sử dụng độ phân giải trong bảng.

Độ phân giải tối đa sẽ mất 2-3 ngày để đào tạo đến 3000 bước trên phần cứng tương tự. Chỉ sử dụng độ phân giải tối thiểu nếu hình ảnh nguồn của bạn rất nhỏ.

ARTối thiểuKhuyến khíchTối đa
1:1320 x 3201024 x 10241408 x 1408
3:2384 x 2561216 x 8321728 x 1152
4:3448 x 3201152 x 8961664 x 1216
16:9448 x 2561344 x 7681920 x 1088
21:9576 x 2561536 x 6402176 x 960

Đánh giá hình ảnh và hình ảnh chuyển động

Đối với các tập dữ liệu lớn, hãy xem lại và xóa ngay mọi hình ảnh chất lượng kém, không liên quan hoặc trùng lặp.

Nếu hình ảnh của bạn có hình mờ, chúng sẽ ảnh hưởng đến kết quả LORA. Hãy cân nhắc sử dụng quy trình làm việc img2img với trình chỉnh sửa mặt nạ của ComfyUI (nhấp chuột phải vào nút tải hình ảnh) để xóa chúng.

Tôi thích xem lại hình ảnh hàng loạt bằng XN View MP, công cụ này cũng cho phép bạn sắp xếp tệp theo kích thước hình ảnh, điều này có thể hữu ích nếu tập lệnh thu thập dữ liệu của bạn không sắp xếp hình ảnh cho bạn.

Màn hình XN View

Lời chú thích (Caption)

Tải xuống quy trình tạo chú thích ComfyUI tại đây.

Đối với các tập dữ liệu nhỏ, tôi đã thành công khi chú thích thủ công cho hình ảnh. Ngay cả khi bạn sử dụng phương pháp tự động bên dưới, bạn vẫn nên xem xét/sửa đổi chúng để có kết quả tốt nhất.

Để tự động chú thích các tập dữ liệu lớn, chúng tôi sẽ sử dụng Miaoshouai Tagger được tinh chỉnh bằng thẻ hình ảnh và hình ảnh Civit.ai. Bạn có thể sử dụng quy trình làm việc bên dưới để chú thích hàng loạt cho hình ảnh của mình.

Tệp chú thích cần phải là tệp txt trong cùng thư mục với hình ảnh có cùng tên chính xác. Ví dụ: coolLora/myimage.jpg coolLora/myimage.txt

MIAO_Captions.png

Đào tạo (Training)

Tải xuống quy trình làm việc Comfy UI của Lora Training tại đây .

Đào tạo nên mất 2-8 giờ với các thiết lập phù hợp và sử dụng hình ảnh có kích thước hợp lý, ngay cả với các tập dữ liệu rất lớn. Nếu mọi thứ chạy quá chậm (bạn có thể thấy nó/các nó trong bảng điều khiển), hãy thử giảm độ phân giải hình ảnh của bạn.

Quy trình đào tạo

Chạy quy trình đào tạo

Bật/Tắt 3 Thùng dữ liệu, nhập đường dẫn đến thư mục hình ảnh/chú thích của bạn và đặt kích thước

thùng dữ liệu

Trong phần Cấu hình đào tạo Lora, hãy nhập tên Lora, từ kích hoạt, thư mục lưu và xem các tùy chọn khác.

cấu hình lora

Hãy đảm bảo bạn tải đúng Transformer và T5

tải tài sản thông lượng

Các lời nhắc mẫu sẽ được tạo ở mỗi vòng lặp (750 bước theo mặc định)

mẫu lời nhắc

Các cài đặt đào tạo tùy chọn khác có thể được tìm thấy trong nhóm Cài đặt

thiết lập khác

Kiểm tra

Tải xuống quy trình kiểm tra ComfyUI Flux LORA tại đây.

Lora và các bước trung gian của bạn sẽ được lưu vào vị trí đầu ra của bạn. Di chuyển LORA vào ComfyUI/models/lorasthư mục của bạn và bạn đã sẵn sàng sử dụng LORA mới của mình!

Để kiểm tra các lời nhắc, điểm mạnh và cài đặt khác nhau, hãy thử quy trình kiểm tra Lora được liên kết ở trên. Quy trình này sẽ tạo ra các lưới 2x1 với Lora bật và tắt bằng cách sử dụng các phạm vi điểm mạnh có thể cấu hình.

loratest.png
văn bản thay thế

Chia sẻ!

Hãy chia sẻ LORA của bạn (trừ khi đó là LORA của bạn hoặc chú chó của bạn) với cộng đồng CivitAI và nếu bạn sử dụng hướng dẫn này, hãy để lại liên kết đến LORA của bạn trong phần bình luận bên dưới.

Thành phố

Tham khảo các quy trình làm việc ComfyUI hữu ích khác trong Github Repo này .

Phụ lục: Công cụ và quy trình làm việc

Mô hình thông lượng

Quy trình làm việc

Công cụ chuẩn bị tập dữ liệu

  • PureRef - Công cụ để sắp xếp và quản lý các bộ sưu tập hình ảnh lớn.
  • ImageMagick - Được sử dụng để thay đổi kích thước, cắt xén và chuẩn hóa hình ảnh thông qua cli.
  • XN View MP - Hữu ích cho việc xem xét hàng loạt và sắp xếp hình ảnh theo kích thước.

Chuyện khác

Mua cho tôi một tách cà phê

Bình luận