สเตเบิลดิฟฟิวชัน (Stable Diffusion) คือตัวแบบปัญญาประดิษฐ์ช่วยสร้างซึ่งเปิดตัวในปี 2022 โดยพื้นฐานแล้วจะทำการสร้างภาพตามข้อความสั่ง (text-to-image) แต่นอกจากนี้ยังสามารถสร้างภาพขึ้นจากภาพ (image-to-image) การวาดเติมภายใน (inpainting), การวาดเติมภายนอก (outpainting) ได้ด้วย
ภาพที่สร้างขึ้นจากข้อความว่า "a photograph of an astronaut riding a horse" (ภาพถ่ายนักบินอวกาศขี่ม้า) | |
นักพัฒนา | กลุ่ม CompVis (มหาวิทยาลัยมิวนิก) |
---|---|
วันที่เปิดตัว | 22 สิงหาคม 2022 |
รุ่นเสถียร | SDXL 1.0 (ตัวแบบ) / 26 กรกฎาคม 2023 |
ที่เก็บข้อมูล | github |
ภาษาที่เขียน | ไพธอน |
ระบบปฏิบัติการ | ระบบปฏิบัติใด ๆ ที่รองรับ CUDA |
ประเภท | text-to-image |
สัญญาอนุญาต | Creative ML OpenRAIL-M |
เว็บไซต์ | stability |
สเตเบิลดิฟฟิวชันเป็นแบบแฝงชนิดหนึ่งซึ่งอาศัยโครงข่ายประสาทเทียมทำการเรียนรู้เชิงลึก พัฒนาขึ้นโดยกลุ่ม CompVis ที่มหาวิทยาลัยมิวนิก โดยเป็นผลงานร่วมกันระหว่างบริษัท Stability AI, CompVis LMU และ Runway โดยได้รับการสนับสนุนจาก และ ในเดือนตุลาคม 2022 ทาง Stability AI ระดมทุนได้ 101 ล้านดอลลาร์สหรัฐ
รหัสต้นทางและค่าพารามิเตอร์น้ำหนักของสเตเบิลดิฟฟิวชันนั้นได้รับการเปิดเป็นสาธารณะ และสามารถทำงานบนฮาร์ดแวร์สำหรับผู้บริโภคส่วนใหญ่ที่มีการติดตั้ง GPU ที่มี อย่างน้อย 8GB จึงกล่าวได้ว่าสเตเบิลดิฟฟิวชันนั้นมีความแตกต่างจากตัวแบบแปลงข้อความเป็นรูปภาพแบบดั้งเดิมที่เป็นซอฟต์แวร์จำกัดสิทธิ์ เช่น และ ซึ่งเข้าถึงได้ผ่านบริการคลาวด์เท่านั้น
สเตเบิลดิฟฟิวชันได้ทำการกวาดรวบรวมข้อมูลภาพนับพันล้านภาพจากอินเทอร์เน็ตเพื่อใช้เป็นข้อมูลในการเรียนรู้ แต่ภาพเหล่านี้ส่วนใหญ่มีลิขสิทธิ์ และไม่ได้รับความยินยอม จึงมีข้อพิพาทว่าภาพดังกล่าวละเมิดกฎหมายหรือไม่ อยู่ภายใต้การใช้งานโดยชอบหรือไม่ และเป็นไปอย่างถูกต้องหรือไม่ โดยทาง Stability AI ได้ถูกฟ้องร้องมากมายหลายคดี
เทคโนโลยี
โครงสร้างสถาปัตยกรรม
สเตเบิลดิฟฟิวชันได้รับการสร้างขึ้นมาจาก ชนิดหนึ่งที่เรียกว่า แบบจำลองการแพร่แบบแฝง (latent diffusion model, LDM) เริ่มปรากฏการใช้งานตั้งแต่ในปี 2015 โดยได้รับการฝึกเพื่อจุดประสงค์ในการกำจัด ที่ถูกเพิ่มเข้าไปในภาพต้นฉบับสำหรับฝึกเรียนรู้อย่างต่อเนื่อง และใช้ (autoencoder)
ตัวแบบสเตเบิลดิฟฟิวชันประกอบขึ้นจาก 3 ส่วนหลักคือ (VAE), และตัวเข้ารหัสข้อความ VAE จะทำการบีบย่อจากปริภูมิพิกเซลไปเป็นซึ่งอยู่ในมิติที่ต่ำกว่า เพื่อจับความหมายพื้นฐานของภาพ ค่าที่ถูกแปลงให้อยู่ในรูปของปริภูมิแฝงนี้จะเข้าสู่กระบวนการที่เรียกว่ากระบวนการแพร่ไปข้างหน้า (forward diffusion process) ซึ่งมีการป้อนคลื่นรบกวนเกาส์ให้อย่างต่อเนื่อง ก้อน U-Net ที่มีส่วนประกอบของ จะทำการกำจัดคลื่นรบกวนจากผลลัพธ์ที่ผ่านกระบวนการแพร่ไปข้างหน้า กระบวนการนี้เรียกว่ากระบวนการแพร่ย้อนกลับ (reverse diffusion process) โดยค่าที่ได้นี้จะยังอยู่ในรูปของปริภูมิแฝง และท้ายที่สุด ตัวถอดรหัสของ VAE จะแปลงค่าในปริภูมิแฝงกลับไปเป็นปริภูมิพิกเซล แล้วสร้างเป็นภาพสุดท้ายขึ้นมา
กระบวนการลดสัญญาณรบกวนสามารถปรับเงื่อนไขได้อย่างยืดหยุ่นด้วยการป้อนข้อความ รูปภาพ หรือรูปแบบอื่น ๆ ข้อมูลสำหรับให้เงื่อนไขซึ่งผ่านการเข้ารหัสจะถูกส่งไปยัง U-Net สำหรับกำจัดคลื่นรบกวนโดยกลไก cross-attention สำหรับกรณีที่ให้เงื่อนไขโดยการป้อนข้อความ ข้อความที่ป้อนเข้าไปจะถูกแปลงให้อยู่ในรูปของปริภูมิฝังตัวโดยใช้ตัวเข้ารหัสข้อความ CLIP ViT-L/14 ที่ได้รับการฝึกมาเรียบร้อยแล้ว นักวิจัยได้อธิบายว่าข้อได้เปรียบของ LDM คือช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับการเรียนรู้และการสร้างสรรค์
ข้อมูลการเรียนรู้
สเตเบิลดิฟฟิวชันทำการเรียนรู้จากคู่ของรูปภาพและคำบรรยายที่ได้มาจากชุดข้อมูล LAION-5B ซึ่งเป็นชุดข้อมูลที่เปิดเผยต่อสาธารณะซึ่งได้มาจากการที่รวบรวมข้อมูลจากเว็บไซต์ คู่ของรุปภาพและข้อความ 5 พันล้านคู่ถูกจัดประเภทตามภาษา ถูกกรองตามความละเอียดภาพ ความน่าจะเป็นที่จะมีลายน้ำ รวมถึงคะแนนด้านสุนทรียภาพ ทำเป็นชุดข้อมูลแยกกัน ชุดข้อมูลนี้สร้างขึ้นโดย ซึ่งเป็นองค์กรไม่แสวงผลกำไรของเยอรมนี โดยได้รับการสนับสนุนเงินทุนจากบริษัท Stability AI ตัวแบบสเตเบิลดิฟฟิวชันได้รับการฝึกจากชุดย่อยสามชุดของ LAION-5B: laion2B-en, laion-high-solution และ laion-aesthetics v2 5+ การวิเคราะห์ข้อมูลการฝึกอบรมโดยบุคคลที่สามสำหรับตัวแบบนี้พบว่าจากรูปภาพ 12 ล้านภาพที่ดึงมาจากชุดข้อมูลแบบกว้างดั้งเดิมที่ใช้นั้น มีประมาณ 47% มาจากโดเมนที่แตกต่างกัน 100 โดเมน โดยพบว่าที่มาจาก Pinterest คิดเป็น 8.5% และตามด้วยเว็บไซต์ เช่น WordPress, Blogspot, Flickr, DeviantArt และ Wikimedia Commons
กระบวนการเรียนรู้
ตัวแบบนี้เริ่มทำการเรียนรู้ครั้งแรกจาก laion2B-en และ laion-high-resolution และหลายครั้งล่าสุดได้เรียนรู้จาก LAION-Aesthetics v2 5+ โดย LAION-Aesthetics v2 5+ นั้นเป็นชุดข้อมูลย่อยของภาพพร้อมคำบรรยาย 600 ล้านภาพซึ่งได้รับการคาดการณ์ว่าเมื่อ LAION-Aesthetics Predictor V2 ถามผู้คนว่าพวกเขาชอบภาพนั้นมากเพียงใด พวกเขาจะให้คะแนนโดยเฉลี่ย 5 เต็ม 10 ชุดย่อย LAION-Aesthetics v2 5+ ไม่รวมภาพความละเอียดต่ำและภาพที่ LAION-5B-WatermarkDetection ตรวจพบว่าน่าจะมีลายน้ำด้วยความน่าจะเป็น 80% ขึ้นไป ในการฝึกครั้งสุดท้ายนั้น 10% ของเงื่อนไขประกอบข้อความ (คำบรรยาย) ได้ถูกลบทิ้งเพื่อปรับปรุงคำแนะนำการแพร่แบบปราศจากตัวแยกประเภท
ตัวแบบทำการเรียนรู้โดย 256 เครื่องบน ในราคา 600,000 เหรียญสหรัฐ โดยใช้เวลารัน GPU ทั้งหมด 150,000 ชั่วโมง
ขีดจำกัด
สเตเบิลดิฟฟิวชันมีปัญหา เช่น คุณภาพถดถอยและความไม่ถูกต้องภายใต้เงื่อนไขบางประการ รุ่นเริ่มต้นของตัวแบบนี้ได้รับการฝึกฝนบนชุดข้อมูลที่ประกอบด้วยรูปภาพที่มีความละเอียด 512×512 ดังนั้นหากขนาดภาพที่ผู้ใช้ต้องการสร้างแตกต่างจากความละเอียด 512×512 นี้คุณภาพของรูปภาพที่สร้างได้จะลดลงอย่างมาก ในการอัปเดตเป็นรุ่น 2.0 ได้ใช้ความสามารถในการสร้างภาพที่ความละเอียด 768×768 ความท้าทายอีกประการหนึ่งคือคุณภาพข้อมูลของส่วนแขนขาในชุดข้อมูล LAION ต่ำ จึงเป็นอุปสรรคต่อการสร้างภาพแขนขาของมนุษย์ การขาดคุณสมบัติที่เป็นตัวแทนในชุดข้อมูลแสดงให้เห็นว่าตัวแบบไม่ได้รับการฝึกมาให้ทำความเข้าใจโครงสร้างแขนขาและใบหน้าของมนุษย์มาอย่างดีนัก จึงมักสับสนเมื่อถูกสั่งให้สร้างภาพดังกล่าว มีการยืนยันแล้วว่าเป็นเรื่องยากที่จะสร้างภาพแขนขา ไม่เพียงแต่แขนขาของมนุษย์เท่านั้น แต่ยังรวมถึงแขนขาของสัตว์ด้วย และการพยายามสร้างรูปม้าล้มเหลว 25% จากทั้งหมด
การเข้าถึงสำหรับนักพัฒนาแต่ละรายก็เป็นปัญหาเช่นกัน การปรับแต่งตัวแบบสำหรับกรณีการใช้งานแบบใหม่ที่ไม่ถูกรวมอยู่ในชุดข้อมูล เช่น การสร้างตัวละครอนิเมะต้องใช้ข้อมูลการเรียนรู้และการฝึกอบรมใหม่ อย่างไรก็ตาม กระบวนการปรับแต่งอย่างละเอียดนี้มีความอ่อนไหวต่อคุณภาพของข้อมูลใหม่ รูปภาพความละเอียดต่ำหรือรูปภาพที่มีความละเอียดแตกต่างจากข้อมูลการฝึกดั้งเดิมไม่เพียงแต่ป้องกันไม่ให้โมเดลเรียนรู้งานใหม่เท่านั้น แต่ยังช่วยลดประสิทธิภาพโดยรวมของโมเดลอีกด้วย นอกจากนี้ แม้ว่าโมเดลจะได้รับการฝึกโดยใช้รูปภาพคุณภาพสูง แต่การรันโมเดลบนคอมพิวเตอร์ผู้บริโภคทั่วไปก็เป็นเรื่องยาก ตัวอย่างเช่น กระบวนการเรียนรู้ของตัวแบบที่ชื่อ waifu-diffusion ต้องใช้ VRAM ขั้นต่ำ 30GB แต่ GPU สำหรับผู้บริโภคทั่วไป เช่น GeForce 30 ของ NVIDIA มีความจุ VRAM ประมาณ 12GB จึงเกินกว่าทรัพยากรปกติที่คนทั่วไปมี
ทางผู้พัฒนาสเตเบิลดิฟฟิวชันได้ยอมรับว่าตัวแบบได้รับการฝึกจากภาพที่มีข้อความบรรยายเป็นภาษาอังกฤษเป็นหลัก ซึ่งอาจก่อให้เกิด ผู้พัฒนายังได้ชี้ให้เห็นว่ากระบวนการการเรียนรู้ยังขาดข้อมูลจากชุมชนและวัฒนธรรมอื่น ๆ ส่งผลให้ภาพที่ผลิตจากมุมมองของตะวันตกและตอกย้ำอคติทางสังคม นอกจากนี้ ข้อความสั่งที่เขียนเป็นภาษาอังกฤษจะให้ภาพที่แม่นยำมากกว่าข้อความที่เขียนในภาษาอื่น และมีความโน้มเอียงไปทางวัฒนธรรมตะวันตก (หรือคนขาว)
ความสามารถ
ตัวแบบสเตเบิลดิฟฟิวชันมีความสามารถในการสร้างภาพใหม่ตั้งแต่เริ่มต้นโดยการป้อนข้อความสั่งที่อธิบายองค์ประกอบที่จะรวมหรือจะไม่รวมอยู่ในภาพที่จะสร้าง นอกจากนี้ยังสามารถเตรียมภาพที่มีอยู่เดิม เอามาสั่งให้ทำการวาดใหม่ได้ด้วยกลไกการลดสัญญาณรบกวนการแพร่ เพื่อรวมใส่ประกอบใหม่ ๆ ที่อธิบายไว้ในข้อความคำสั่งที่ป้อนให้ นอกจากนี้ยังสามารถทำการแก้ภาพโดยกระบวนการวาดเติมภาพภายใน (inpainting) และการวาดเติมภาพภายนอก (outpainting) มีการใช้งานโอเพนซอร์สที่แตกต่างกันมากมาย
ในการใช้งานสเตเบิลดิฟฟิวชันนั้น แนะนำให้รันด้วย VRAM อย่างน้อย 10GB แต่หากมี VRAM น้อยกว่านั้น ก็สามารถอ่านค่าน้ำหนักด้วยความแม่นยำ float16 แทนค่าตั้งต้น float32 เพื่อประหยัด VRAM ได้ โดยแลกกับประสิทธิภาพที่ลดลงไประดับหนึ่ง
การสร้างภาพตามข้อความ (text-to-image)
กระบวนการสร้างรูปภาพจากข้อความเรียกว่า txt2img (หรือ text-to-image, t2i) โดยมีพารามิเตอร์ทางเลือกต่าง ๆ เช่น วิธีการสุ่มตัวอย่าง ความละเอียดของภาพเป็นต้น กระบวนการนี้สร้างไฟล์รูปภาพตามการตีความข้อความสั่งป้อนเข้าไป รูปภาพที่สร้างขึ้นจะถูกฝังด้วยลายน้ำดิจิทัลที่มองไม่เห็นเพื่อระบุว่าถูกสร้างขึ้นโดยสเตเบิลดิฟฟิวชัน แต่หากปรับขนาดหรือทำการหมุนก็จะหายไป
การสร้าง txt2img แต่ละรายการจะมีค่าเริ่มต้นเฉพาะที่ส่งผลต่อภาพที่สร้างได้ ผู้ใช้สามารถเลือกที่จะสุ่มค่าเริ่มต้นเพื่อให้ได้ผลลัพธ์ที่แตกต่างกัน หรือใช้ค่าเริ่มต้นเดียวกันเพื่อให้ได้ผลลัพธ์เดียวกันกับรูปภาพที่สร้างไว้ก่อนหน้านี้ นอกจากนี้ยังสามารถปรับจำนวนขั้นตอนการอนุมานของตัวสุ่มตัวอย่างได้อีกด้วย การเพิ่มค่าจำนวนขั้นจะทำให้ใช้เวลาในการสร้างนานขึ้น ในขณะที่การลดค่าเกินไปได้ภาพที่ไม่ชัดเจน การปรับค่ามาตราส่วน CFG (classifier-free guidance scale) มีผลต่อความเที่ยงตรงของภาพที่มีต่อข้อความป้อนเข้า ในการทดลองสร้างอาจใช้ค่า CFG ที่ต่ำ และเมื่อต้องการสร้างภาพที่ระบุชัดเจนจึงค่อยใช้ค่าสูง
ความสามารถอื่น ๆ ของ txt2img เช่น การกำหนดค่าน้ำหนักความสำคัญให้กับข้อความสั่งบางส่วน เช่นใส่วงเล็บครอบข้อความสั่งที่ต้องการเน้นว่ามีความสำคัญ อีกวิธีหนึ่งในการปรับน้ำหนักบางส่วนของข้อความสั่งคือการระบุข้อความสั่งเชิงลบ (negative prompt) ช่วยให้ผู้ใช้ระบุลักษณะที่ต้องการหลีกเลี่ยงสิ่งที่ไม่ต้องการจะได้เมื่อสร้างรูปภาพขึ้น
การสร้างภาพจากภาพ (image-to-image)
สเตเบิลดิฟฟิวชันยังมีความสามารถอีกแบบหนึ่งที่เรียกว่า img2img (หรือ image-to-image, i2i) ซึ่งใช้ข้อความสั่งประกอบกับรูปภาพที่เตรียมไว้ และระบุค่าความเข้มระหว่าง 0.0 ถึง 1.0 ความสามารถนี้จะช่วยทำการสร้างรูปภาพใหม่ตามรูปภาพต้นฉบับ ซึ่งมีองค์ประกอบตามที่ระบุในข้อความสั่ง ค่าความเข้มแสดงถึงปริมาณสัญญาณรบกวนที่ป้อนเพิ่มให้กับภาพที่ส่งออก หากค่าความเข้มสูงจะทำให้เกิดองค์ประกอบใหม่เพิ่มเติมในภาพมากขึ้น แต่อาจสร้างภาพที่ไม่ตรงกับความหมายตามข้อความที่ระบุ
img2img สามารถเพิ่มสัญญาณรบกวนให้กับภาพต้นฉบับได้ ดังนั้นจึงอาจเป็นประโยชน์สำหรับการปกปิดแหล่งข้อมูลหรือการต่อขยายข้อมูล โดยเปลี่ยนลักษณะโดยรวมของข้อมูลรูปภาพ นอกจากนี้ยังอาจใช้สำหรับการขยายขนาด โดยเพิ่มความละเอียด ภาพด้วยการเติมรายละเอียดให้กับภาพมากขึ้น นอกจากนี้แล้วยังมีการทดลองใช้สเตเบิลดิฟฟิวชันเป็นเครื่องมือบีบอัดรูปภาพอีกด้วย เมื่อเปรียบเทียบกับ JPEG และ WebP วิธีการสมัยใหม่ที่ใช้ในการบีบอัดภาพของสเตเบิลดิฟฟิวชัน มีข้อจำกัดในการรักษาข้อความขนาดเล็กและใบหน้า
การวาดเติมภาพภายใน (inpainting) คือการปรับเปลี่ยนบางส่วนของภาพเดิมที่มีอยู่ โดยเติมภาพในพื้นที่ส่วนที่ระบุด้วยเนื้อหาที่สร้างขึ้นใหม่ตามข้อความสั่งที่ป้อนเข้าไป ทาง Stability AI ได้สร้างตัวแบบเฉพาะที่ได้รับการปรับแต่งอย่างละเอียดโดยเฉพาะสำหรับใช้เติมภาพภายในเมื่อครั้งเปิดตัวสเตเบิลดิฟฟิวชัน 2.0 นอกจากนี้ยังมีการวาดเติมภาพภายนอก (outpainting) ซึ่งตรงกันข้ามกับการเติมภาพภายใน คือช่วยให้สามารถขยายภาพเกินความละเอียดดั้งเดิมและเติมเนื้อหาที่สร้างขึ้นตามข้อความสั่งลงในที่ว่าง
สเตเบิลดิฟฟิวชัน 2.0 ซึ่งเปิดตัวเมื่อวันที่ 24 พฤศจิกายน 2022 ได้เปิดตัวตัวแบบเชิงลึกที่มีชื่อว่า deep2img ตัวแบบนี้อนุมานความลึกของรูปภาพป้อนเข้าที่ให้มา แล้วสร้างรูปภาพใหม่ตามข้อความสั่งและข้อมูลเชิงลึก ทำให้รูปภาพที่ได้ออกมานั้นสามารถรักษาความสอดคล้องและความลึกของรูปภาพที่ป้อนเข้า
การใช้งาน ข้อพิพาท และการดำเนินคดี
สเตเบิลดิฟฟิวชัน ไม่เรียกร้องสิทธิ์ใด ๆ ในรูปภาพที่สร้างขึ้น และให้สิทธิ์แก่ผู้ใช้ในการใช้รูปภาพใด ๆ ที่สร้างจากตัวแบบโดยอิสระ ตราบใดที่เนื้อหาของรูปภาพไม่ผิดกฎหมายหรือเป็นอันตรายต่อบุคคลใด ๆ อย่างไรก็ตาม สเตเบิลดิฟฟิวชันและตัวแบบช่วยสร้างอื่น ๆ เรียนรู้จากภาพที่มีลิขสิทธิ์โดยไม่ได้รับความยินยอมจากผู้ถือสิทธิ์ ทำให้เกิดการถกเถียงกันเรื่องจริยธรรมในการเป็นเจ้าของและเสรีภาพที่ผู้ใช้สามารถใช้ภาพ
นักวารสารศาสตร์ ได้วิจารณ์เทคโนโลยีปัญญาประดิษฐ์และบริษัทที่เกี่ยวข้องอย่างรุนแรง โดยกล่าวว่าเป็น "การขโมยที่ยิ่งใหญ่ที่สุดในประวัติศาสตร์ของมนุษย์" กล่าวคือ บริษัทปัญญาประดิษฐ์กำลังผูกขาดความรู้ของมนุษย์ทั้งหมดที่เผยแพร่บนอินเทอร์เน็ตโดยยัดไว้ในผลิตภัณฑ์ของตน และผลงานที่ผู้คนได้ทำมาตลอดทั้งชีวิตกำลังถูกใช้เป็นข้อมูลการฝึกโดยไม่ได้รับความยินยอมหรือได้รับอนุญาต
อรวินท์ นรยานัน (Arvind Narayanan) นักวิทยาศาสตร์คอมพิวเตอร์ และศาสตราจารย์แห่ง มหาวิทยาลัยพรินซ์ตัน กล่าวว่า บริษัทที่พัฒนาปัญญาประดิษฐ์ช่วยสร้างภาพกำลังพัฒนาและปรับใช้ในลักษณะที่ไม่เป็นมิตรต่อศิลปิน เช่น การรวบรวมภาพการฝึกอบรมโดยไม่ได้รับความยินยอมหรือการชดเชย นักพัฒนาสามารถปฏิบัติต่อศิลปินในฐานะหุ้นส่วนและผู้มีส่วนได้ส่วนเสียมากกว่ามองว่าเป็นแค่วัตถุดิบสำหรับการฝึกปัญญาประดิษฐ์
เมื่อวันที่ 3 เมษายน 2023 มหาวิทยาลัยโตเกียวได้ออกแถลงการณ์ที่ลงนามโดยผู้อำนวยการและรองประธานคุนิฟุมิ โอตะ โดยแจ้งเตือนนักศึกษาและคณาจารย์ทุกคนที่ใช้ปัญญาประดิษฐ์ช่วยสร้าง เช่น และ สเตเบิลดิฟฟิวชัน ปัญญาประดิษฐ์ช่วยสร้างภาพได้ดึงเนื้อหาจากอินเทอร์เน็ต เรียนรู้จากอินเทอร์เน็ต แล้วสร้างภาพขึ้นมา โดยผู้สร้างข้อมูลต้นฉบับเหล่านี้กำลังหยิบยกประเด็นปัญหาโดยอ้างว่า ลิขสิทธิ์ของตนได้ถูกละเมิดโดยที่พวกเขาไม่รู้ตัว เขากล่าวถึงความเป็นไปได้ที่เนื้อหาที่สร้างโดยปัญญาประดิษฐ์ช่วยสร้างภาพเหล่านี้อาจกลายเป็นประเด็นของการฟ้องร้องได้ในอนาคต
อ้างอิง
- "Stable Diffusion Repository on GitHub". CompVis - Machine Vision and Learning Research Group, LMU Munich. 17 September 2022. สืบค้นเมื่อ 17 September 2022.
- "Announcing SDXL 1.0". stability.ai. เก็บจากแหล่งเดิมเมื่อ July 26, 2023. สืบค้นเมื่อ 2023-07-26.
- "Diffuse The Rest - a Hugging Face Space by huggingface". huggingface.co. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-05.
- "Stable Diffusion Launch Announcement". Stability.Ai. เก็บจากแหล่งเดิมเมื่อ 2022-09-05. สืบค้นเมื่อ 2022-09-06.
- "Revolutionizing image generation by AI: Turning text into images". LMU Munich. สืบค้นเมื่อ 17 September 2022.
- Wiggers, Kyle (17 October 2022). "Stability AI, the startup behind Stable Diffusion, raises $101M". Techcrunch (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-17.
- "The new killer app: Creating AI art will absolutely crush your PC". PCWorld. เก็บจากแหล่งเดิมเมื่อ 2022-08-31. สืบค้นเมื่อ 2022-08-31.
- Vincent, James (15 September 2022). "Anyone can use this AI art generator — that's the risk". The Verge. สืบค้นเมื่อ 2022-11-30.
- "Artists are alarmed by AI — and they're fighting back". The Washington Post (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-02-18.
- Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. สืบค้นเมื่อ 2022-10-31.
- "High-Resolution Image Synthesis with Latent Diffusion Models". Machine Vision & Learning Group (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-04.
- "Stable Diffusion launch announcement". Stability.Ai (ภาษาอังกฤษแบบบริติช). สืบค้นเมื่อ 2022-11-02.
- Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. :2112.10752.
- Baio, Andy (2022-08-30). "Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator". Waxy.org (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
- "This artist is dominating AI-generated art. And he's not happy about it". MIT Technology Review (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
- Ivanovs, Alex (2022-09-08). "Stable Diffusion: Tutorials, Resources, and Tools". Stack Diary (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
- Schuhmann, Christoph (2022-11-02), CLIP+MLP Aesthetic Score Predictor, สืบค้นเมื่อ 2022-11-02
- "LAION-Aesthetics | LAION". laion.ai (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-08-26. สืบค้นเมื่อ 2022-09-02.
- Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". :2207.12598 [cs.LG].Ho, Jonathan; Salimans, Tim (25 July 2022). "Classifier-Free Diffusion Guidance". :2207.12598 [cs.LG]。
- Wiggers, Kyle (2022-08-12). "A startup wants to democratize the tech behind DALL-E 2, consequences be damned". TechCrunch (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-11-02.
- Mostaque, Emad (August 28, 2022). "Cost of construction". Twitter (ภาษาอังกฤษ). เก็บจากแหล่งเดิมเมื่อ 2022-09-06. สืบค้นเมื่อ 2022-09-06.
- "CompVis/stable-diffusion-v1-4 · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-11-02.
- "Stable Diffusion with 🧨 Diffusers". huggingface.co. สืบค้นเมื่อ 2022-10-31.
- "Stable Diffusion 2.0 Release". stability.ai. สืบค้นเมื่อ 2022-11-24.
- "LAION". laion.ai (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
- "Generating images with Stable Diffusion". Paperspace Blog (ภาษาอังกฤษ). 2022-08-24. สืบค้นเมื่อ 2022-10-31.
- François Chollet. "(If you were wondering how often Stable Diffusion will give you a horse with more than 4 legs (or sometimes less) when you ask it for a photo of a horse: in my experience it's about 20-25% of the time.)". Twitter (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
- "hakurei/waifu-diffusion · Hugging Face". huggingface.co. สืบค้นเมื่อ 2022-10-31.
- Mercurio, Anthony (2022-10-31), Waifu Diffusion, สืบค้นเมื่อ 2022-10-31
- Smith, Ryan. "NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money". www.anandtech.com. สืบค้นเมื่อ 2022-10-31.
- Meng, Chenlin; He, Yutong (August 2, 2021). "SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations". :2108.01073 [cs.CV].
- "Stable Diffusion web UI". GitHub. 10 November 2022. สืบค้นเมื่อ 2022-11-30.
- invisible-watermark, Shield Mountain, 2022-11-02, สืบค้นเมื่อ 2022-11-02
- "stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools". GitHub (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
- Luzi, Lorenzo; Siahkoohi, Ali (2022-10-21). "Boomerang: Local sampling on image manifolds using diffusion models". :2210.12100 [cs.CV].
- Bühlmann, Matthias (2022-09-28). "Stable Diffusion Based Image Compression". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-11-02.
- Cai, Kenrick. "Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion". Forbes (ภาษาอังกฤษ). สืบค้นเมื่อ 2022-10-31.
- ナオミ・クライン、中村峻太郎(訳)「「幻覚を見ている」のはAIの機械ではなく、その製作者たちだ」『世界』岩波書店 2023年7月号 p85~95
- "生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について". 東京大学. สืบค้นเมื่อ 2023-04-05.
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
setebildiffiwchn Stable Diffusion khuxtwaebbpyyapradisthchwysrangsungepidtwinpi 2022 odyphunthanaelwcathakarsrangphaphtamkhxkhwamsng text to image aetnxkcakniyngsamarthsrangphaphkhuncakphaph image to image karwadetimphayin inpainting karwadetimphaynxk outpainting iddwysetebildiffiwchnphaphthisrangkhuncakkhxkhwamwa a photograph of an astronaut riding a horse phaphthaynkbinxwkaskhima nkphthnaklum CompVis mhawithyalymiwnik wnthiepidtw22 singhakhm 2022runesthiyrSDXL 1 0 twaebb 26 krkdakhm 2023thiekbkhxmulgithub wbr com wbr Stability AI wbr stablediffusionphasathiekhiyniphthxnrabbptibtikarrabbptibtiid thirxngrb CUDApraephthtext to imagesyyaxnuyatCreative ML OpenRAIL Mewbiststability wbr ai setebildiffiwchnepnaebbaefngchnidhnungsungxasyokhrngkhayprasathethiymthakareriynruechingluk phthnakhunodyklum CompVis thimhawithyalymiwnik odyepnphlnganrwmknrahwangbristh Stability AI CompVis LMU aela Runway odyidrbkarsnbsnuncak aela ineduxntulakhm 2022 thang Stability AI radmthunid 101 landxllarshrth rhstnthangaelakhapharamietxrnahnkkhxngsetebildiffiwchnnnidrbkarepidepnsatharna aelasamarththanganbnhardaewrsahrbphubriophkhswnihythimikartidtng GPU thimi xyangnxy 8GB cungklawidwasetebildiffiwchnnnmikhwamaetktangcaktwaebbaeplngkhxkhwamepnrupphaphaebbdngedimthiepnsxftaewrcakdsiththi echn aela sungekhathungidphanbrikarkhlawdethann setebildiffiwchnidthakarkwadrwbrwmkhxmulphaphnbphnlanphaphcakxinethxrentephuxichepnkhxmulinkareriynru aetphaphehlaniswnihymilikhsiththi aelaimidrbkhwamyinyxm cungmikhxphiphathwaphaphdngklawlaemidkdhmayhruxim xyuphayitkarichnganodychxbhruxim aelaepnipxyangthuktxnghruxim odythang Stability AI idthukfxngrxngmakmayhlaykhdiethkhonolyiokhrngsrangsthaptykrrmkhxngsetebildiffiwchnokhrngsrangsthaptykrrm setebildiffiwchnidrbkarsrangkhunmacak chnidhnungthieriykwa aebbcalxngkaraephraebbaefng latent diffusion model LDM erimpraktkarichngantngaetinpi 2015 odyidrbkarfukephuxcudprasngkhinkarkacd thithukephimekhaipinphaphtnchbbsahrbfukeriynruxyangtxenuxng aelaich autoencoder twaebbsetebildiffiwchnprakxbkhuncak 3 swnhlkkhux VAE aelatwekharhskhxkhwam VAE cathakarbibyxcakpriphumiphikeslipepnsungxyuinmitithitakwa ephuxcbkhwamhmayphunthankhxngphaph khathithukaeplngihxyuinrupkhxngpriphumiaefngnicaekhasukrabwnkarthieriykwakrabwnkaraephripkhanghna forward diffusion process sungmikarpxnkhlunrbkwnekasihxyangtxenuxng kxn U Net thimiswnprakxbkhxng cathakarkacdkhlunrbkwncakphllphththiphankrabwnkaraephripkhanghna krabwnkarnieriykwakrabwnkaraephryxnklb reverse diffusion process odykhathiidnicayngxyuinrupkhxngpriphumiaefng aelathaythisud twthxdrhskhxng VAE caaeplngkhainpriphumiaefngklbipepnpriphumiphikesl aelwsrangepnphaphsudthaykhunma krabwnkarldsyyanrbkwnsamarthprbenguxnikhidxyangyudhyundwykarpxnkhxkhwam rupphaph hruxrupaebbxun khxmulsahrbihenguxnikhsungphankarekharhscathuksngipyng U Net sahrbkacdkhlunrbkwnodyklik cross attention sahrbkrnithiihenguxnikhodykarpxnkhxkhwam khxkhwamthipxnekhaipcathukaeplngihxyuinrupkhxngpriphumifngtwodyichtwekharhskhxkhwam CLIP ViT L 14 thiidrbkarfukmaeriybrxyaelw nkwicyidxthibaywakhxidepriybkhxng LDM khuxchwyephimprasiththiphaphkarkhanwnsahrbkareriynruaelakarsrangsrrkh khxmulkareriynru setebildiffiwchnthakareriynrucakkhukhxngrupphaphaelakhabrryaythiidmacakchudkhxmul LAION 5B sungepnchudkhxmulthiepidephytxsatharnasungidmacakkarthirwbrwmkhxmulcakewbist khukhxngrupphaphaelakhxkhwam 5 phnlankhuthukcdpraephthtamphasa thukkrxngtamkhwamlaexiydphaph khwamnacaepnthicamilayna rwmthungkhaaenndansunthriyphaph thaepnchudkhxmulaeykkn chudkhxmulnisrangkhunody sungepnxngkhkrimaeswngphlkairkhxngeyxrmni odyidrbkarsnbsnunenginthuncakbristh Stability AI twaebbsetebildiffiwchnidrbkarfukcakchudyxysamchudkhxng LAION 5B laion2B en laion high solution aela laion aesthetics v2 5 karwiekhraahkhxmulkarfukxbrmodybukhkhlthisamsahrbtwaebbniphbwacakrupphaph 12 lanphaphthidungmacakchudkhxmulaebbkwangdngedimthiichnn mipraman 47 macakodemnthiaetktangkn 100 odemn odyphbwathimacak Pinterest khidepn 8 5 aelatamdwyewbist echn WordPress Blogspot Flickr DeviantArt aela Wikimedia Commons krabwnkareriynru twaebbnierimthakareriynrukhrngaerkcak laion2B en aela laion high resolution aelahlaykhrnglasudideriynrucak LAION Aesthetics v2 5 ody LAION Aesthetics v2 5 nnepnchudkhxmulyxykhxngphaphphrxmkhabrryay 600 lanphaphsungidrbkarkhadkarnwaemux LAION Aesthetics Predictor V2 thamphukhnwaphwkekhachxbphaphnnmakephiyngid phwkekhacaihkhaaennodyechliy 5 etm 10 chudyxy LAION Aesthetics v2 5 imrwmphaphkhwamlaexiydtaaelaphaphthi LAION 5B WatermarkDetection trwcphbwanacamilaynadwykhwamnacaepn 80 khunip inkarfukkhrngsudthaynn 10 khxngenguxnikhprakxbkhxkhwam khabrryay idthuklbthingephuxprbprungkhaaenanakaraephraebbprascaktwaeykpraephth twaebbthakareriynruody 256 ekhruxngbn inrakha 600 000 ehriyyshrth odyichewlarn GPU thnghmd 150 000 chwomng khidcakd setebildiffiwchnmipyha echn khunphaphthdthxyaelakhwamimthuktxngphayitenguxnikhbangprakar runerimtnkhxngtwaebbniidrbkarfukfnbnchudkhxmulthiprakxbdwyrupphaphthimikhwamlaexiyd 512 512 dngnnhakkhnadphaphthiphuichtxngkarsrangaetktangcakkhwamlaexiyd 512 512 nikhunphaphkhxngrupphaphthisrangidcaldlngxyangmak inkarxpedtepnrun 2 0 idichkhwamsamarthinkarsrangphaphthikhwamlaexiyd 768 768 khwamthathayxikprakarhnungkhuxkhunphaphkhxmulkhxngswnaekhnkhainchudkhxmul LAION ta cungepnxupsrrkhtxkarsrangphaphaekhnkhakhxngmnusy karkhadkhunsmbtithiepntwaethninchudkhxmulaesdngihehnwatwaebbimidrbkarfukmaihthakhwamekhaicokhrngsrangaekhnkhaaelaibhnakhxngmnusymaxyangdink cungmksbsnemuxthuksngihsrangphaphdngklaw mikaryunynaelwwaepneruxngyakthicasrangphaphaekhnkha imephiyngaetaekhnkhakhxngmnusyethann aetyngrwmthungaekhnkhakhxngstwdwy aelakarphyayamsrangrupmalmehlw 25 cakthnghmd karekhathungsahrbnkphthnaaetlaraykepnpyhaechnkn karprbaetngtwaebbsahrbkrnikarichnganaebbihmthiimthukrwmxyuinchudkhxmul echn karsrangtwlakhrxniematxngichkhxmulkareriynruaelakarfukxbrmihm xyangirktam krabwnkarprbaetngxyanglaexiydnimikhwamxxnihwtxkhunphaphkhxngkhxmulihm rupphaphkhwamlaexiydtahruxrupphaphthimikhwamlaexiydaetktangcakkhxmulkarfukdngedimimephiyngaetpxngknimihomedleriynrunganihmethann aetyngchwyldprasiththiphaphodyrwmkhxngomedlxikdwy nxkcakni aemwaomedlcaidrbkarfukodyichrupphaphkhunphaphsung aetkarrnomedlbnkhxmphiwetxrphubriophkhthwipkepneruxngyak twxyangechn krabwnkareriynrukhxngtwaebbthichux waifu diffusion txngich VRAM khnta 30GB aet GPU sahrbphubriophkhthwip echn GeForce 30 khxng NVIDIA mikhwamcu VRAM praman 12GB cungekinkwathrphyakrpktithikhnthwipmi thangphuphthnasetebildiffiwchnidyxmrbwatwaebbidrbkarfukcakphaphthimikhxkhwambrryayepnphasaxngkvsepnhlk sungxackxihekid phuphthnayngidchiihehnwakrabwnkarkareriynruyngkhadkhxmulcakchumchnaelawthnthrrmxun sngphlihphaphthiphlitcakmummxngkhxngtawntkaelatxkyaxkhtithangsngkhm nxkcakni khxkhwamsngthiekhiynepnphasaxngkvscaihphaphthiaemnyamakkwakhxkhwamthiekhiyninphasaxun aelamikhwamonmexiyngipthangwthnthrrmtawntk hruxkhnkhaw khwamsamarthtwaebbsetebildiffiwchnmikhwamsamarthinkarsrangphaphihmtngaeterimtnodykarpxnkhxkhwamsngthixthibayxngkhprakxbthicarwmhruxcaimrwmxyuinphaphthicasrang nxkcakniyngsamarthetriymphaphthimixyuedim examasngihthakarwadihmiddwyklikkarldsyyanrbkwnkaraephr ephuxrwmisprakxbihm thixthibayiwinkhxkhwamkhasngthipxnih nxkcakniyngsamarththakaraekphaphodykrabwnkarwadetimphaphphayin inpainting aelakarwadetimphaphphaynxk outpainting mikarichnganoxephnsxrsthiaetktangknmakmay inkarichngansetebildiffiwchnnn aenanaihrndwy VRAM xyangnxy 10GB aethakmi VRAM nxykwann ksamarthxankhanahnkdwykhwamaemnya float16 aethnkhatngtn float32 ephuxprahyd VRAM id odyaelkkbprasiththiphaphthildlngipradbhnung karsrangphaphtamkhxkhwam text to image phlkhxngkhxkhwamsngechinglbinkarsrangphaph bn immikarpxnkhxkhwamsngechinglb klang green trees lang round stones round rocks krabwnkarsrangrupphaphcakkhxkhwameriykwa txt2img hrux text to image t2i odymipharamietxrthangeluxktang echn withikarsumtwxyang khwamlaexiydkhxngphaphepntn krabwnkarnisrangiflrupphaphtamkartikhwamkhxkhwamsngpxnekhaip rupphaphthisrangkhuncathukfngdwylaynadicithlthimxngimehnephuxrabuwathuksrangkhunodysetebildiffiwchn aethakprbkhnadhruxthakarhmunkcahayip karsrang txt2img aetlaraykarcamikhaerimtnechphaathisngphltxphaphthisrangid phuichsamartheluxkthicasumkhaerimtnephuxihidphllphththiaetktangkn hruxichkhaerimtnediywknephuxihidphllphthediywknkbrupphaphthisrangiwkxnhnani nxkcakniyngsamarthprbcanwnkhntxnkarxnumankhxngtwsumtwxyangidxikdwy karephimkhacanwnkhncathaihichewlainkarsrangnankhun inkhnathikarldkhaekinipidphaphthiimchdecn karprbkhamatraswn CFG classifier free guidance scale miphltxkhwamethiyngtrngkhxngphaphthimitxkhxkhwampxnekha inkarthdlxngsrangxacichkha CFG thita aelaemuxtxngkarsrangphaphthirabuchdecncungkhxyichkhasung khwamsamarthxun khxng txt2img echn karkahndkhanahnkkhwamsakhyihkbkhxkhwamsngbangswn echniswngelbkhrxbkhxkhwamsngthitxngkarennwamikhwamsakhy xikwithihnunginkarprbnahnkbangswnkhxngkhxkhwamsngkhuxkarrabukhxkhwamsngechinglb negative prompt chwyihphuichrabulksnathitxngkarhlikeliyngsingthiimtxngkarcaidemuxsrangrupphaphkhun karsrangphaphcakphaph image to image phlkhxng img2img inkarsrangphaph bn phaphtnchbbthisrangodysetebildiffiwchn 1 5 lang phaphprbaekthisrangodysetebildiffiwchn XL setebildiffiwchnyngmikhwamsamarthxikaebbhnungthieriykwa img2img hrux image to image i2i sungichkhxkhwamsngprakxbkbrupphaphthietriymiw aelarabukhakhwamekhmrahwang 0 0 thung 1 0 khwamsamarthnicachwythakarsrangrupphaphihmtamrupphaphtnchbb sungmixngkhprakxbtamthirabuinkhxkhwamsng khakhwamekhmaesdngthungprimansyyanrbkwnthipxnephimihkbphaphthisngxxk hakkhakhwamekhmsungcathaihekidxngkhprakxbihmephimetiminphaphmakkhun aetxacsrangphaphthiimtrngkbkhwamhmaytamkhxkhwamthirabu img2img samarthephimsyyanrbkwnihkbphaphtnchbbid dngnncungxacepnpraoychnsahrbkarpkpidaehlngkhxmulhruxkartxkhyaykhxmul odyepliynlksnaodyrwmkhxngkhxmulrupphaph nxkcakniyngxacichsahrbkarkhyaykhnad odyephimkhwamlaexiyd phaphdwykaretimraylaexiydihkbphaphmakkhun nxkcakniaelwyngmikarthdlxngichsetebildiffiwchnepnekhruxngmuxbibxdrupphaphxikdwy emuxepriybethiybkb JPEG aela WebP withikarsmyihmthiichinkarbibxdphaphkhxngsetebildiffiwchn mikhxcakdinkarrksakhxkhwamkhnadelkaelaibhna karwadetimphaphphayin inpainting khuxkarprbepliynbangswnkhxngphaphedimthimixyu odyetimphaphinphunthiswnthirabudwyenuxhathisrangkhunihmtamkhxkhwamsngthipxnekhaip thang Stability AI idsrangtwaebbechphaathiidrbkarprbaetngxyanglaexiydodyechphaasahrbichetimphaphphayinemuxkhrngepidtwsetebildiffiwchn 2 0 nxkcakniyngmikarwadetimphaphphaynxk outpainting sungtrngknkhamkbkaretimphaphphayin khuxchwyihsamarthkhyayphaphekinkhwamlaexiyddngedimaelaetimenuxhathisrangkhuntamkhxkhwamsnglnginthiwang setebildiffiwchn 2 0 sungepidtwemuxwnthi 24 phvscikayn 2022 idepidtwtwaebbechinglukthimichuxwa deep2img twaebbnixnumankhwamlukkhxngrupphaphpxnekhathiihma aelwsrangrupphaphihmtamkhxkhwamsngaelakhxmulechingluk thaihrupphaphthiidxxkmannsamarthrksakhwamsxdkhlxngaelakhwamlukkhxngrupphaphthipxnekhakarichngan khxphiphath aelakardaeninkhdisetebildiffiwchn imeriykrxngsiththiid inrupphaphthisrangkhun aelaihsiththiaekphuichinkarichrupphaphid thisrangcaktwaebbodyxisra trabidthienuxhakhxngrupphaphimphidkdhmayhruxepnxntraytxbukhkhlid xyangirktam setebildiffiwchnaelatwaebbchwysrangxun eriynrucakphaphthimilikhsiththiodyimidrbkhwamyinyxmcakphuthuxsiththi thaihekidkarthkethiyngkneruxngcriythrrminkarepnecakhxngaelaesriphaphthiphuichsamarthichphaph nkwarsarsastr idwicarnethkhonolyipyyapradisthaelabrisththiekiywkhxngxyangrunaerng odyklawwaepn karkhomythiyingihythisudinprawtisastrkhxngmnusy klawkhux bristhpyyapradisthkalngphukkhadkhwamrukhxngmnusythnghmdthiephyaephrbnxinethxrentodyydiwinphlitphnthkhxngtn aelaphlnganthiphukhnidthamatlxdthngchiwitkalngthukichepnkhxmulkarfukodyimidrbkhwamyinyxmhruxidrbxnuyat xrwinth nryann Arvind Narayanan nkwithyasastrkhxmphiwetxr aelasastracaryaehng mhawithyalyphrinstn klawwa brisththiphthnapyyapradisthchwysrangphaphkalngphthnaaelaprbichinlksnathiimepnmitrtxsilpin echn karrwbrwmphaphkarfukxbrmodyimidrbkhwamyinyxmhruxkarchdechy nkphthnasamarthptibtitxsilpininthanahunswnaelaphumiswnidswnesiymakkwamxngwaepnaekhwtthudibsahrbkarfukpyyapradisth emuxwnthi 3 emsayn 2023 mhawithyalyotekiywidxxkaethlngkarnthilngnamodyphuxanwykaraelarxngprathankhunifumi oxta odyaecngetuxnnksuksaaelakhnacarythukkhnthiichpyyapradisthchwysrang echn aela setebildiffiwchn pyyapradisthchwysrangphaphiddungenuxhacakxinethxrent eriynrucakxinethxrent aelwsrangphaphkhunma odyphusrangkhxmultnchbbehlanikalnghyibykpraednpyhaodyxangwa likhsiththikhxngtnidthuklaemidodythiphwkekhaimrutw ekhaklawthungkhwamepnipidthienuxhathisrangodypyyapradisthchwysrangphaphehlanixacklayepnpraednkhxngkarfxngrxngidinxnakhtxangxing Stable Diffusion Repository on GitHub CompVis Machine Vision and Learning Research Group LMU Munich 17 September 2022 subkhnemux 17 September 2022 Announcing SDXL 1 0 stability ai ekbcakaehlngedimemux July 26 2023 subkhnemux 2023 07 26 Diffuse The Rest a Hugging Face Space by huggingface huggingface co ekbcakaehlngedimemux 2022 09 05 subkhnemux 2022 09 05 Stable Diffusion Launch Announcement Stability Ai ekbcakaehlngedimemux 2022 09 05 subkhnemux 2022 09 06 Revolutionizing image generation by AI Turning text into images LMU Munich subkhnemux 17 September 2022 Wiggers Kyle 17 October 2022 Stability AI the startup behind Stable Diffusion raises 101M Techcrunch phasaxngkvs subkhnemux 2022 10 17 The new killer app Creating AI art will absolutely crush your PC PCWorld ekbcakaehlngedimemux 2022 08 31 subkhnemux 2022 08 31 Vincent James 15 September 2022 Anyone can use this AI art generator that s the risk The Verge subkhnemux 2022 11 30 Artists are alarmed by AI and they re fighting back The Washington Post phasaxngkvs subkhnemux 2023 02 18 Alammar Jay The Illustrated Stable Diffusion jalammar github io subkhnemux 2022 10 31 High Resolution Image Synthesis with Latent Diffusion Models Machine Vision amp Learning Group phasaxngkvsaebbxemrikn subkhnemux 2022 11 04 Stable Diffusion launch announcement Stability Ai phasaxngkvsaebbbritich subkhnemux 2022 11 02 Rombach Blattmann Lorenz Esser Ommer June 2022 High Resolution Image Synthesis with Latent Diffusion Models PDF International Conference on Computer Vision and Pattern Recognition CVPR New Orleans LA pp 10684 10695 2112 10752 Baio Andy 2022 08 30 Exploring 12 Million of the 2 3 Billion Images Used to Train Stable Diffusion s Image Generator Waxy org phasaxngkvsaebbxemrikn subkhnemux 2022 11 02 This artist is dominating AI generated art And he s not happy about it MIT Technology Review phasaxngkvs subkhnemux 2022 11 02 Ivanovs Alex 2022 09 08 Stable Diffusion Tutorials Resources and Tools Stack Diary phasaxngkvsaebbxemrikn subkhnemux 2022 11 02 Schuhmann Christoph 2022 11 02 CLIP MLP Aesthetic Score Predictor subkhnemux 2022 11 02 LAION Aesthetics LAION laion ai phasaxngkvs ekbcakaehlngedimemux 2022 08 26 subkhnemux 2022 09 02 Ho Jonathan Salimans Tim 2022 07 25 Classifier Free Diffusion Guidance 2207 12598 cs LG Ho Jonathan Salimans Tim 25 July 2022 Classifier Free Diffusion Guidance 2207 12598 cs LG Wiggers Kyle 2022 08 12 A startup wants to democratize the tech behind DALL E 2 consequences be damned TechCrunch phasaxngkvsaebbxemrikn subkhnemux 2022 11 02 Mostaque Emad August 28 2022 Cost of construction Twitter phasaxngkvs ekbcakaehlngedimemux 2022 09 06 subkhnemux 2022 09 06 CompVis stable diffusion v1 4 Hugging Face huggingface co subkhnemux 2022 11 02 Stable Diffusion with Diffusers huggingface co subkhnemux 2022 10 31 Stable Diffusion 2 0 Release stability ai subkhnemux 2022 11 24 LAION laion ai phasaxngkvs subkhnemux 2022 10 31 Generating images with Stable Diffusion Paperspace Blog phasaxngkvs 2022 08 24 subkhnemux 2022 10 31 Francois Chollet If you were wondering how often Stable Diffusion will give you a horse with more than 4 legs or sometimes less when you ask it for a photo of a horse in my experience it s about 20 25 of the time Twitter phasaxngkvs subkhnemux 2022 10 31 hakurei waifu diffusion Hugging Face huggingface co subkhnemux 2022 10 31 Mercurio Anthony 2022 10 31 Waifu Diffusion subkhnemux 2022 10 31 Smith Ryan NVIDIA Quietly Launches GeForce RTX 3080 12GB More VRAM More Power More Money www anandtech com subkhnemux 2022 10 31 Meng Chenlin He Yutong August 2 2021 SDEdit Guided Image Synthesis and Editing with Stochastic Differential Equations 2108 01073 cs CV Stable Diffusion web UI GitHub 10 November 2022 subkhnemux 2022 11 30 invisible watermark Shield Mountain 2022 11 02 subkhnemux 2022 11 02 stable diffusion tools emphasis at master JohannesGaessler stable diffusion tools GitHub phasaxngkvs subkhnemux 2022 11 02 Luzi Lorenzo Siahkoohi Ali 2022 10 21 Boomerang Local sampling on image manifolds using diffusion models 2210 12100 cs CV Buhlmann Matthias 2022 09 28 Stable Diffusion Based Image Compression Medium phasaxngkvs subkhnemux 2022 11 02 Cai Kenrick Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To 1 Billion Forbes phasaxngkvs subkhnemux 2022 10 31 ナオミ クライン 中村峻太郎 訳 幻覚を見ている のはAIの機械ではなく その製作者たちだ 世界 岩波書店 2023年7月号 p85 95 生成系AI ChatGPT BingAI Bard Midjourney Stable Diffusion等 について 東京大学 subkhnemux 2023 04 05