ในการเรียนรู้ของเครื่อง กฎการปรับมาตราประสาท (neural scaling law) คือกฎการปรับมาตราสำหรับพารามิเตอร์ของโครงข่ายประสาทเทียม
ภาพรวม
โดยทั่วไป สมบัติของแบบจำลองโครงข่ายประสาทเทียม จะวัดด้วยตัวบ่งชี้ 4 ตัว ได้แก่ ขนาดแบบจำลอง, ขนาดชุดข้อมูลฝึก, ทรัพยากรในการฝึก และ สมรรถภาพหลังการฝึก ค่าทั้งสี่สามารถกำหนดได้อย่างแน่นอนด้วยจำนวนจริง และเป็นที่ทราบกันดีว่าเชิงประจักษ์เป็นไปตามกฎทางสถิติง่าย โดยทั่วไปแล้วพารามิเตอร์เหล่านี้จะเขียนแทนด้วย (จำนวนพารามิเตอร์, ขนาดของชุดข้อมูล, ทรัพยากรการคำนวณ, ค่าการสูญเสีย)
ขนาดแบบจำลอง
ในกรณีส่วนใหญ่ ขนาดของแบบจำลองหมายถึงจำนวนพารามิเตอร์ เพราะแบบจำลองโครงข่ายประสาทเทียมส่วนใหญ่ (เช่นทรานส์ฟอร์เมอร์) จะใช้พารามิเตอร์ทั้งหมดสำหรับการอนุมานเสมอ
อย่างไรก็ตาม ในกรณีแบบจำลองแบบมากเลขศูนย์เช่น Mixture-of-Expert อาจไม่เป็นเช่นนั้นเสมอไป เนื่องจากการอนุมานแบบจำลองแบบมากเลขศูนย์ จะใช้เพียงส่วนหนึ่งของพารามิเตอร์ทั้งหมดเท่านั้น
ขนาดชุดข้อมูลฝึก
โดยทั่วไปขนาดของชุดข้อมูลการฝึกอบรมจะวัดตามจำนวนจุดข้อมูลที่มีอยู่ เป็นการดีที่จะใช้ชุดข้อมูลการฝึกที่ใหญ่กว่า เนื่องจากการฝึกแบบจำลองต้องใช้แหล่งข้อมูลที่หลากหลายและหลากหลาย จำนวนชุดข้อมูลช่วยปรับปรุงประสิทธิภาพการวางนัยทั่วไปเมื่อใช้แบบจำลองกับข้อมูลที่ไม่รู้จัก อย่างไรก็ตาม การเพิ่มขนาดของชุดข้อมูลการฝึกยังหมายถึงการเพิ่มทรัพยากรในการคำนวณและเวลาที่ต้องใช้ในการฝึกแบบจำลองอีกด้วย
วิธี "ฝึกล่วงหน้าและปรับละเอียด " ที่ใช้กับ แบบจำลองภาษาขนาดใหญ่ส่วนใหญ่ ใช้ชุดข้อมูลการฝึก 2 ประเภท เรียกว่าชุดข้อมูลก่อนการฝึก และชุดข้อมูลปรับละเอียด ขนาดของข้อมูลเหล่านี้มีผลกระทบต่อประสิทธิภาพของแบบจำลองที่แตกต่างกัน โดยทั่วไปแล้ว การปรับละเอียดจะใช้ชุดข้อมูลที่มีขนาดใหญ่กว่าชุดก่อนการฝึกน้อยกว่า 1%
ข้อมูลคุณภาพสูงจำนวนเล็กน้อยก็เพียงพอสำหรับการปรับละเอียด อย่างไรก็ตาม บางครั้งการใช้ข้อมูลมากขึ้นก็อาจไม่ช่วยปรับปรุงประสิทธิภาพ
ทรัพยากรการฝึก
โดยทั่วไปทรัพยากรที่ใช้ในการฝึกจะวัดกันในแง่ของเวลาที่ใช้ฝึก (ต้องใช้เวลาในการฝึกนานเท่าใด) และทรัพยากรในการคำนวณ (ต้องใช้พลังงานในการคำนวณและหน่วยความจำเท่าใดในการฝึก) โดยเฉพาะอย่างยิ่ง ค่าใช้จ่ายในการฝึกอบรมสามารถลดลงได้อย่างมากด้วยระเบียบวิธีการฝึกที่มีประสิทธิภาพ ซอฟต์แวร์ที่ได้รับการปรับปรุง และ บน GPU และ TPU
ทรัพยากรในการฝึกแบบจำลองโครงข่ายประสาทเทียมอาจแสดงเป็นฟังก์ชันของปัจจัยต่าง ๆ เช่น ขนาดแบบจำลอง ขนาดชุดข้อมูลการฝึก ความซับซ้อนของขั้นตอนวิธีการฝึก และทรัพยากรการคำนวณที่มีอยู่
การเพิ่มชุดข้อมูลการฝึกเป็น 2 เท่าไม่ได้หมายความว่าจะเพิ่มค่าใช้จ่ายในการฝึกอบรมเป็น 2 เท่าเสมอไป เนื่องจากแบบจำลองอาจได้รับการฝึกหลายครั้งโดยชุดข้อมูลที่กำหนด
สมรรถภาพ
ประสิทธิภาพของแบบจำลองโครงข่ายประสาทเทียมได้รับการประเมินโดยความแม่นยำของแบบจำลองที่สามารถทำนายผลลัพธ์ที่ได้รับจากค่าป้อนเข้าได้ ตัวชี้วัดการประเมินทั่วไป ได้แก่:
- อัตราความแม่นยำ, ความเที่ยง, การเรียกคืน, คะแนน F1 ในงานจำแนก
- (MSE) และ ค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ย (MAE) ในงานการถดถอย
- ค่าลบล็อกภาวะน่าจะเป็น () ต่อโทเค็นในแบบจำลองภาษา
- สำหรับแบบจำลองอื่น ๆ (เช่น และ )
ประสิทธิภาพของแบบจำลองสามารถปรับปรุงได้ด้วยการใช้ข้อมูลที่มากขึ้น, การใช้แบบจำลองที่ใหญ่ขึ้น, การใช้ร่วมกับขั้นตอนวิธีการฝึกที่แตกต่างกัน, การป้องกันการเรียนรู้เกิน และ การหยุดก่อนกำหนดด้วยชุดข้อมูลการตรวจสอบความถูกต้อง เป็นต้น
อ้างอิง
- Bahri, Yasaman; Dyer, Ethan (2021-02-12). "Explaining Neural Scaling Laws". :2102.06701 [cs.LG].
- Hestness, Joel; Narang, Sharan (2017-12-01). "Deep Learning Scaling is Predictable, Empirically". :1712.00409 [cs.LG].
- Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). "DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale". Proceedings of the 39th International Conference on Machine Learning (ภาษาอังกฤษ). PMLR: 18332–18346.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia; Yu, Ping (2023-05-01). "LIMA: Less Is More for Alignment".
{{}}
: Cite journal ต้องการ|journal=
((help)) - Andy L. Jones, Scaling Scaling Laws with Board Games
- LMSYS Chatbot leaderboard
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
inkareriynrukhxngekhruxng kdkarprbmatraprasath neural scaling law khuxkdkarprbmatrasahrbpharamietxrkhxngokhrngkhayprasathethiymsmrrthphaphkhxngpyyapradisthsahrbaebbcalxngtang inchwngpi 1998 thung 2024phaphrwmodythwip smbtikhxngaebbcalxngokhrngkhayprasathethiym cawddwytwbngchi 4 tw idaek khnadaebbcalxng khnadchudkhxmulfuk thrphyakrinkarfuk aela smrrthphaphhlngkarfuk khathngsisamarthkahndidxyangaennxndwycanwncring aelaepnthithrabkndiwaechingpracksepniptamkdthangsthitingay odythwipaelwpharamietxrehlanicaekhiynaethndwy N D C L displaystyle N D C L canwnpharamietxr khnadkhxngchudkhxmul thrphyakrkarkhanwn khakarsuyesiy khnadaebbcalxng inkrniswnihy khnadkhxngaebbcalxnghmaythungcanwnpharamietxr ephraaaebbcalxngokhrngkhayprasathethiymswnihy echnthransfxremxr caichpharamietxrthnghmdsahrbkarxnumanesmx xyangirktam inkrniaebbcalxngaebbmakelkhsunyechn Mixture of Expert xacimepnechnnnesmxip enuxngcakkarxnumanaebbcalxngaebbmakelkhsuny caichephiyngswnhnungkhxngpharamietxrthnghmdethann khnadchudkhxmulfuk odythwipkhnadkhxngchudkhxmulkarfukxbrmcawdtamcanwncudkhxmulthimixyu epnkardithicaichchudkhxmulkarfukthiihykwa enuxngcakkarfukaebbcalxngtxngichaehlngkhxmulthihlakhlayaelahlakhlay canwnchudkhxmulchwyprbprungprasiththiphaphkarwangnythwipemuxichaebbcalxngkbkhxmulthiimruck xyangirktam karephimkhnadkhxngchudkhxmulkarfukynghmaythungkarephimthrphyakrinkarkhanwnaelaewlathitxngichinkarfukaebbcalxngxikdwy withi fuklwnghnaaelaprblaexiyd thiichkb aebbcalxngphasakhnadihyswnihy ichchudkhxmulkarfuk 2 praephth eriykwachudkhxmulkxnkarfuk aelachudkhxmulprblaexiyd khnadkhxngkhxmulehlanimiphlkrathbtxprasiththiphaphkhxngaebbcalxngthiaetktangkn odythwipaelw karprblaexiydcaichchudkhxmulthimikhnadihykwachudkxnkarfuknxykwa 1 khxmulkhunphaphsungcanwnelknxykephiyngphxsahrbkarprblaexiyd xyangirktam bangkhrngkarichkhxmulmakkhunkxacimchwyprbprungprasiththiphaph thrphyakrkarfuk odythwipthrphyakrthiichinkarfukcawdkninaengkhxngewlathiichfuk txngichewlainkarfuknanethaid aelathrphyakrinkarkhanwn txngichphlngnganinkarkhanwnaelahnwykhwamcaethaidinkarfuk odyechphaaxyangying khaichcayinkarfukxbrmsamarthldlngidxyangmakdwyraebiybwithikarfukthimiprasiththiphaph sxftaewrthiidrbkarprbprung aela bn GPU aela TPU thrphyakrinkarfukaebbcalxngokhrngkhayprasathethiymxacaesdngepnfngkchnkhxngpccytang echn khnadaebbcalxng khnadchudkhxmulkarfuk khwamsbsxnkhxngkhntxnwithikarfuk aelathrphyakrkarkhanwnthimixyu karephimchudkhxmulkarfukepn 2 ethaimidhmaykhwamwacaephimkhaichcayinkarfukxbrmepn 2 ethaesmxip enuxngcakaebbcalxngxacidrbkarfukhlaykhrngodychudkhxmulthikahnd smrrthphaph prasiththiphaphkhxngaebbcalxngokhrngkhayprasathethiymidrbkarpraeminodykhwamaemnyakhxngaebbcalxngthisamarththanayphllphththiidrbcakkhapxnekhaid twchiwdkarpraeminthwip idaek xtrakhwamaemnya khwamethiyng kareriykkhun khaaenn F1 inngancaaenk MSE aela khakhladekhluxnsmburnechliy MAE inngankarthdthxy khalblxkphawanacaepn txothekhninaebbcalxngphasa sahrbaebbcalxngxun echn aela prasiththiphaphkhxngaebbcalxngsamarthprbprungiddwykarichkhxmulthimakkhun karichaebbcalxngthiihykhun karichrwmkbkhntxnwithikarfukthiaetktangkn karpxngknkareriynruekin aela karhyudkxnkahnddwychudkhxmulkartrwcsxbkhwamthuktxng epntnxangxingBahri Yasaman Dyer Ethan 2021 02 12 Explaining Neural Scaling Laws 2102 06701 cs LG Hestness Joel Narang Sharan 2017 12 01 Deep Learning Scaling is Predictable Empirically 1712 00409 cs LG Rajbhandari Samyam Li Conglong Yao Zhewei Zhang Minjia Aminabadi Reza Yazdani Awan Ammar Ahmad Rasley Jeff He Yuxiong 2022 06 28 DeepSpeed MoE Advancing Mixture of Experts Inference and Training to Power Next Generation AI Scale Proceedings of the 39th International Conference on Machine Learning phasaxngkvs PMLR 18332 18346 Goodfellow I Bengio Y amp Courville A 2016 Deep Learning MIT Press Zhou Chunting Liu Pengfei Xu Puxin Iyer Srini Sun Jiao Mao Yuning Ma Xuezhe Efrat Avia Yu Ping 2023 05 01 LIMA Less Is More for Alignment a href wiki E0 B9 81 E0 B8 A1 E0 B9 88 E0 B9 81 E0 B8 9A E0 B8 9A Cite journal title aemaebb Cite journal cite journal a Cite journal txngkar journal help Andy L Jones Scaling Scaling Laws with Board Games LMSYS Chatbot leaderboard