Hướng dẫn đầy đủ về cách tạo Flux LORA. Bao gồm quy trình làm việc.

Bắt đầu
Trong hướng dẫn này, chúng tôi sẽ hướng dẫn cách đào tạo LORA cho mô hình tạo hình ảnh Flux AI từ đầu đến cuối bao gồm:
- Công cụ và mẹo để xây dựng và tổ chức tập dữ liệu
- Tùy chọn chú thích
- Đào tạo mô hình bằng quy trình làm việc Comfy UI
- Kiểm tra LORA
Phương pháp này được sử dụng để tạo ra:
![]() | ![]() |
---|
Thông số kỹ thuật yêu cầu
Hướng dẫn này được viết bằng Geforce RTX 3090 24GB và RAM 24GB. Tôi nghe nói Flux Dev training gặp lỗi OOM khi sử dụng 4090 16GB.
Flux Dev hay Flux Schnell?
Chúng tôi sẽ sử dụng mô hình Flux Dev, nhưng mô hình Flux Schnell cũng có cách hoạt động tương tự.
Nếu bạn cần tải xuống mô hình dev, hãy vào đây . Bạn sẽ cần phải đăng nhập và chấp nhận ToS. Đặt mô hình vào thư mục điểm kiểm tra của bạn.
Chuẩn bị một tập dữ liệu
Như thường lệ, sự chuẩn bị là chìa khóa thành công ở đây. Bạn phải có hình ảnh chất lượng cao, có chú thích phù hợp về chủ đề hoặc phong cách của mình để tạo ra một LORA tốt.
Số lượng hình ảnh bạn cần trong tập dữ liệu phụ thuộc vào chủ đề của bạn.
Nếu bạn đang tạo LORA của một người hoặc một vật cụ thể thì 25 hình ảnh sẽ phù hợp.
Đối với các phong cách/giao diện chung, LORA có thể hoạt động trên nhiều lời nhắc/bối cảnh khác nhau hoặc LORA mang tính khái niệm khác, thì 100-200 hình ảnh là phù hợp với tôi.
Bộ dữ liệu của bạn càng lớn thì khả năng hình ảnh bị mờ hoặc có chú thích không chính xác càng cao.
Ngoài ra, sử dụng hình ảnh có nhiều kích thước và tỷ lệ khung hình khác nhau sẽ tạo ra kết quả cuối cùng tốt hơn. Chúng ta sẽ hướng dẫn cách chọn độ phân giải cụ thể sau.
Tìm kiếm hình ảnh
Nếu bạn đang xây dựng một LORA theo khái niệm hoặc phong cách, tôi khuyên bạn nên dành thời gian tìm kiếm một nguồn/kho lưu trữ hình ảnh tốt. (Nguồn của NASA LORA được hiển thị ở trên là trang lưu trữ APOD NASA .)

Nếu bạn đang thu thập hình ảnh thủ công trên web hoặc từ một kho lưu trữ lớn, hãy xem PureRef cho phép bạn kéo và thả bất kỳ hình ảnh nào vào một khung vẽ vô hạn và sắp xếp, thay đổi kích thước và lưu chúng thành một tệp.
Nếu bạn tìm thấy một tập hợp lớn hình ảnh ở đâu đó, như trong ví dụ của NASA, tôi đã thành công RẤT NHIỀU khi sử dụng ChatGPT để viết các tập lệnh thu thập dữ liệu Python để tải xuống hình ảnh bằng Scrapy trong một lời nhắc duy nhất. Bạn cũng có thể làm điều này với các video YouTube bằng các thư viện tương tự.
Nếu bạn thu thập một bộ ảnh lớn, bạn nên yêu cầu LLM sắp xếp chúng vào các thư mục có tỷ lệ khung hình khác nhau, điều này sẽ tiết kiệm thời gian sau này. Ví dụ về lời mô tả ChatGPT tại đây
Tổ chức và chuẩn hóa hình ảnh
Trước khi đào tạo LORA, chúng ta cần sắp xếp đúng cách các hình ảnh tập dữ liệu của mình vào các thư mục dựa trên kích thước đầu vào của chúng. Nếu bạn có hình ảnh rất lớn, bạn cũng có thể cần phải thay đổi kích thước của chúng.
Thay đổi kích thước hình ảnh
Tập lệnh đào tạo LORA sẽ thay đổi kích thước hình ảnh đầu vào, nhưng thực hiện việc này trước sẽ giúp bạn kiểm soát hình ảnh đầu vào tốt hơn và cho phép bạn xem những thay đổi kích thước không phù hợp trước khi dành nhiều giờ để đào tạo, do đó, đây là bước được khuyến nghị.
Ngay cả khi bạn không thay đổi kích thước hình ảnh theo cách thủ công hoặc không cần thay đổi kích thước, bạn vẫn cần sắp xếp hình ảnh vào các thư mục theo độ phân giải, trừ khi bạn đang đào tạo ở một độ phân giải duy nhất.
Ảo thuật hình ảnh
Nếu bạn cần thay đổi kích thước hoặc cắt ảnh hàng loạt, hoặc nếu bạn cần chuẩn hóa ảnh có tỷ lệ khung hình tương tự thành kích thước cụ thể, hãy xem Imagemagick .
ChatGPT/LLM có thể giúp bạn viết các lệnh tốt convert
hoặc mogrify
(thay đổi hình ảnh tại chỗ) cho tập dữ liệu của bạn.

Lựa chọn độ phân giải
Trước khi đào tạo, bạn sẽ cần chọn 1-3 độ phân giải/tỷ lệ khung hình từ các bảng bên dưới cho tập dữ liệu của mình. Tạo datasets/Your_Loras_name/
thư mục trong thư mục ComfyUI của bạn. Bên trong, tạo một thư mục cho mỗi độ phân giải bạn đã chọn. Tôi đã sử dụng danh sách độ phân giải này .
Có thể có hình ảnh hoặc thay đổi kích thước hình ảnh theo độ phân giải không thể xử lý trong bước đào tạo, do đó, bạn nên sử dụng độ phân giải trong bảng.
Độ phân giải tối đa sẽ mất 2-3 ngày để đào tạo đến 3000 bước trên phần cứng tương tự. Chỉ sử dụng độ phân giải tối thiểu nếu hình ảnh nguồn của bạn rất nhỏ.
AR | Tối thiểu | Khuyến khích | Tối đa |
---|---|---|---|
1:1 | 320 x 320 | 1024 x 1024 | 1408 x 1408 |
3:2 | 384 x 256 | 1216 x 832 | 1728 x 1152 |
4:3 | 448 x 320 | 1152 x 896 | 1664 x 1216 |
16:9 | 448 x 256 | 1344 x 768 | 1920 x 1088 |
21:9 | 576 x 256 | 1536 x 640 | 2176 x 960 |
Đánh giá hình ảnh và hình ảnh chuyển động
Đối với các tập dữ liệu lớn, hãy xem lại và xóa ngay mọi hình ảnh chất lượng kém, không liên quan hoặc trùng lặp.
Nếu hình ảnh của bạn có hình mờ, chúng sẽ ảnh hưởng đến kết quả LORA. Hãy cân nhắc sử dụng quy trình làm việc img2img với trình chỉnh sửa mặt nạ của ComfyUI (nhấp chuột phải vào nút tải hình ảnh) để xóa chúng.
Tôi thích xem lại hình ảnh hàng loạt bằng XN View MP, công cụ này cũng cho phép bạn sắp xếp tệp theo kích thước hình ảnh, điều này có thể hữu ích nếu tập lệnh thu thập dữ liệu của bạn không sắp xếp hình ảnh cho bạn.

Lời chú thích (Caption)
Tải xuống quy trình tạo chú thích ComfyUI tại đây.
Đối với các tập dữ liệu nhỏ, tôi đã thành công khi chú thích thủ công cho hình ảnh. Ngay cả khi bạn sử dụng phương pháp tự động bên dưới, bạn vẫn nên xem xét/sửa đổi chúng để có kết quả tốt nhất.
Để tự động chú thích các tập dữ liệu lớn, chúng tôi sẽ sử dụng Miaoshouai Tagger được tinh chỉnh bằng thẻ hình ảnh và hình ảnh Civit.ai. Bạn có thể sử dụng quy trình làm việc bên dưới để chú thích hàng loạt cho hình ảnh của mình.
Tệp chú thích cần phải là tệp txt trong cùng thư mục với hình ảnh có cùng tên chính xác. Ví dụ: coolLora/myimage.jpg coolLora/myimage.txt

Đào tạo (Training)
Tải xuống quy trình làm việc Comfy UI của Lora Training tại đây .
Đào tạo nên mất 2-8 giờ với các thiết lập phù hợp và sử dụng hình ảnh có kích thước hợp lý, ngay cả với các tập dữ liệu rất lớn. Nếu mọi thứ chạy quá chậm (bạn có thể thấy nó/các nó trong bảng điều khiển), hãy thử giảm độ phân giải hình ảnh của bạn.

Chạy quy trình đào tạo
Bật/Tắt 3 Thùng dữ liệu, nhập đường dẫn đến thư mục hình ảnh/chú thích của bạn và đặt kích thước

Trong phần Cấu hình đào tạo Lora, hãy nhập tên Lora, từ kích hoạt, thư mục lưu và xem các tùy chọn khác.

Hãy đảm bảo bạn tải đúng Transformer và T5

Các lời nhắc mẫu sẽ được tạo ở mỗi vòng lặp (750 bước theo mặc định)

Các cài đặt đào tạo tùy chọn khác có thể được tìm thấy trong nhóm Cài đặt

Kiểm tra
Tải xuống quy trình kiểm tra ComfyUI Flux LORA tại đây.
Lora và các bước trung gian của bạn sẽ được lưu vào vị trí đầu ra của bạn. Di chuyển LORA vào ComfyUI/models/loras
thư mục của bạn và bạn đã sẵn sàng sử dụng LORA mới của mình!
Để kiểm tra các lời nhắc, điểm mạnh và cài đặt khác nhau, hãy thử quy trình kiểm tra Lora được liên kết ở trên. Quy trình này sẽ tạo ra các lưới 2x1 với Lora bật và tắt bằng cách sử dụng các phạm vi điểm mạnh có thể cấu hình.


Chia sẻ!
Hãy chia sẻ LORA của bạn (trừ khi đó là LORA của bạn hoặc chú chó của bạn) với cộng đồng CivitAI và nếu bạn sử dụng hướng dẫn này, hãy để lại liên kết đến LORA của bạn trong phần bình luận bên dưới.

Tham khảo các quy trình làm việc ComfyUI hữu ích khác trong Github Repo này .
Phụ lục: Công cụ và quy trình làm việc
Mô hình thông lượng
Quy trình làm việc
- ComfyUI Captioning Workflow - Quy trình tự động thêm chú thích cho hình ảnh.
- Quy trình đào tạo Lora cho ComfyUI - Thiết lập toàn diện để đào tạo LORA với Flux. thử nghiệm
- Quy trình kiểm tra LORA - Quy trình kiểm tra nhiều lời nhắc, điểm mạnh và cài đặt khác nhau.
Công cụ chuẩn bị tập dữ liệu
- PureRef - Công cụ để sắp xếp và quản lý các bộ sưu tập hình ảnh lớn.
- ImageMagick - Được sử dụng để thay đổi kích thước, cắt xén và chuẩn hóa hình ảnh thông qua cli.
- XN View MP - Hữu ích cho việc xem xét hàng loạt và sắp xếp hình ảnh theo kích thước.
Chuyện khác
- Ví dụ về ChatGPT để thu thập dữ liệu - Để tạo các tập lệnh thu thập dữ liệu Python, lệnh chú thích và quy trình xử lý hình ảnh.
- Kho lưu trữ quy trình làm việc ComfyUI - Bộ sưu tập các quy trình làm việc hữu ích.
- Miaoshouai Tagger Github - Tự động thêm chú thích vào các tập dữ liệu lớn bằng thẻ hình ảnh Civit.ai