ทรานส์ฟอร์เมอร์ฝึกล่วงหน้าก่อกำเนิด (generative pre-trained transformer, GPT) เป็นชุดของแบบจำลองภาษาขนาดใหญ่ และยังเป็นเฟรมเวิร์กสำหรับปัญญาประดิษฐ์ช่วยสร้าง พัฒนาโดย OpenAI ได้รับการฝึกโดยใช้คลังข้อความขนาดใหญ่เพื่อให้สามารถสร้างประโยคที่เหมือนข้อความของมนุษย์
GPT ใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรมทรานส์ฟอร์เมอร์ และใช้แนวทางแบบจำลองภาษาเดียวกันกับ Universal Language Model Fine-tuning (ULMFiT) สามารถทำการปรับละเอียด เพื่อใช้ในงานการประมวลผลภาษาธรรมชาติต่าง ๆ เช่น การแปล และ คำว่า "ฝึกล่วงหน้า" (pre-trained) ในชื่อ หมายถึงกระบวนการฝึกเบื้องต้นโดยคลังข้อความขนาดใหญ่ ในระหว่างที่แบบจำลองเรียนรู้ที่จะคาดเดาคำที่ตามหลังแต่ละประโยค นี่เป็นรากฐานที่มั่นคงซึ่งช่วยให้แบบจำลองทำงานได้อย่างถูกต้องแม้จะมีข้อมูลจำนวนจำกัดสำหรับกระบวนแยกเฉพาะ
ประวัติศาสตร์
เมื่อวันที่ 11 มิถุนายน 2018 บริษัท OpenAI ได้เผยแพร่บทความ "Improving Language Understanding by Generative Pre-Training" ซึ่งเป็นบทความแรกที่เพยแพร่เนื้อหาเกี่ยวกับ GPT
ณ เวลานั้น แบบการประมวลผลภาษาธรรมชาติของระบบประสาทที่มีประสิทธิภาพดีที่สุดใช้การเรียนรู้แบบมีผู้สอนเป็นหลักจากข้อมูลที่มีการติดฉลากกำกับด้วยตนเองจำนวนมาก การพึ่งพาการเรียนรู้แบบมีผู้สอนไม่เพียงแต่มีข้อจำกัดตรงที่ต้องการใช้ชุดข้อมูลที่มีคำอธิบายประกอบที่ทำมาอย่างดีพอเท่านั้น แต่ยังทำให้การฝึกแบบจำลองขนาดใหญ่มากมีราคาแพงและใช้เวลานานมาก ในหลายภาษา (เช่น ภาษาสวาฮีลี และ ภาษาครีโอลเฮติ) เป็นเรื่องยากที่จะแปลและตีความโดยใช้แบบจำลองดังกล่าว เนื่องจากไม่มีข้อความสำหรับการสร้างคลังข้อมูล ในขณะที่แนวทางการเรียนรู้แบบกึ่งมีผู้สอนของ GPT ช่วยให้สามารถทำได้ โดยการฝึกประกอบด้วย 2 ขั้นตอน คือ การฝึกแบบจำลองก่อกำเนิดแบบไม่มีผู้สอนเพื่อให้ได้พารามิเตอร์น้ำหนักสำหรับแบบจำลองภาษาตั้งต้น จากนั้นจึงใช้แบบจำลองจำแนกแบบมีผู้สอนทำการปรับละเอียดให้เข้ากับงานที่ต้องการใช้
การฝึกใช้ P600 ทั้งหมด 8 แผ่น ใช้เวลา 30 และประสิทธิภาพการดำเนินการอยู่ที่ 33% เท่ากับ 0.96 petaFLOPS / วัน
แบบจำลองรากฐาน
แบบจำลอง | จำนวนพารามิเตอร์ | ข้อมูลที่ใช้ฝึก | วันที่ปล่อย | จำนวนวันและทรัพยากรในการฝึก |
---|---|---|---|---|
117 ล้าน | : ข้อความ 4.5 GB จากหนังสือที่ไม่ตีพิมพ์ 7000 เล่มในหลากหลายหมวด | 11 มิถุนายน 2018 | 30 วันที่ 8 P600 GPUs หรือ 1 petaFLOP/s-day. | |
1.5 พันล้าน | WebText: ข้อความ 40 GB เอกสาร 8 ล้านฉบับจากเว็บเพจ 45 หน้าบน Reddit | 14 กุมภาพันธ์ 2019 (แบบจำกัด) และ 5 พฤศจิกายน 2019 (แบบเต็ม) | เปนสิบ petaflop/s-day, หรือ 1.5e21 FLOP. | |
175 พันล้าน | 499 ล้านโทเค็นจากคอมมอนครอวล์ (570 GB) | 28 พฤษภาคม 2020 | 3640 petaflop/s-day (Table D.1) หรือ 3.1e23 FLOP | |
175 พันล้าน | ไม่เปิดเผย | 15 มีนาคม 2022 | ไม่เปิดเผย | |
ไม่เปิดเผย แต่ประมาณกันว่า 1.7 ล้านล้าน | ไม่เปิดเผย | 14 มีนาคม 2023 | ไม่เปิดเผย ประมาณ 2.1 × 1025 FLOP |
อ้างอิง
- Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
- "Generative AI: a game-changer society needs to be ready for". World Economic Forum. 9 January 2023.
- "The A to Z of Artificial Intelligence". Time. April 13, 2023.
- Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.
- "CSDL | IEEE Computer Society". www.computer.org.
- Lewis Tunstall; Leandro von Werra; Thomas Wolf (2022-08-03). 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発. แปลโดย 中山光樹. : . p. 9. ISBN .
- Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. เก็บ (PDF)จากแหล่งเดิมเมื่อ 26 January 2021. สืบค้นเมื่อ 23 January 2021.
- Tsvetkov, Yulia (22 June 2017). "Opportunities and Challenges in Working with Low-Resource Languages" (PDF). Carnegie Mellon University. เก็บ (PDF)จากแหล่งเดิมเมื่อ 31 March 2020. สืบค้นเมื่อ 23 January 2021.
- "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2023-03-18.
- Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. :1506.06724. เก็บจากแหล่งเดิมเมื่อ 2023-02-05. สืบค้นเมื่อ 2023-02-07.
- "Improving language understanding with unsupervised learning". openai.com (ภาษาอังกฤษแบบอเมริกัน). June 11, 2018. เก็บจากแหล่งเดิมเมื่อ 2023-03-18. สืบค้นเมื่อ 2023-03-18.
- Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.
- Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". NeurIPS. :2005.14165v4.
- "ML input trends visualization". Epoch (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-05-02.
- Ver Meer, Dave (June 1, 2023). "ChatGPT Statistics". NamePepper (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-06-09.
- "GPT-4 has more than a trillion parameters – Report". March 25, 2023.
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
thransfxremxrfuklwnghnakxkaenid generative pre trained transformer GPT epnchudkhxngaebbcalxngphasakhnadihy aelayngepnefrmewirksahrbpyyapradisthchwysrang phthnaody OpenAI idrbkarfukodyichkhlngkhxkhwamkhnadihyephuxihsamarthsrangpraoykhthiehmuxnkhxkhwamkhxngmnusyokhrngsrang GPT runaerksud GPT ichechphaaswnthxdrhskhxngsthaptykrrmthransfxremxr aelaichaenwthangaebbcalxngphasaediywknkb Universal Language Model Fine tuning ULMFiT samarththakarprblaexiyd ephuxichinngankarpramwlphlphasathrrmchatitang echn karaepl aela khawa fuklwnghna pre trained inchux hmaythungkrabwnkarfukebuxngtnodykhlngkhxkhwamkhnadihy inrahwangthiaebbcalxngeriynruthicakhadedakhathitamhlngaetlapraoykh niepnrakthanthimnkhngsungchwyihaebbcalxngthanganidxyangthuktxngaemcamikhxmulcanwncakdsahrbkrabwnaeykechphaaprawtisastremuxwnthi 11 mithunayn 2018 bristh OpenAI idephyaephrbthkhwam Improving Language Understanding by Generative Pre Training sungepnbthkhwamaerkthiephyaephrenuxhaekiywkb GPT n ewlann aebbkarpramwlphlphasathrrmchatikhxngrabbprasaththimiprasiththiphaphdithisudichkareriynruaebbmiphusxnepnhlkcakkhxmulthimikartidchlakkakbdwytnexngcanwnmak karphungphakareriynruaebbmiphusxnimephiyngaetmikhxcakdtrngthitxngkarichchudkhxmulthimikhaxthibayprakxbthithamaxyangdiphxethann aetyngthaihkarfukaebbcalxngkhnadihymakmirakhaaephngaelaichewlananmak inhlayphasa echn phasaswahili aela phasakhrioxlehti epneruxngyakthicaaeplaelatikhwamodyichaebbcalxngdngklaw enuxngcakimmikhxkhwamsahrbkarsrangkhlngkhxmul inkhnathiaenwthangkareriynruaebbkungmiphusxnkhxng GPT chwyihsamarththaid odykarfukprakxbdwy 2 khntxn khux karfukaebbcalxngkxkaenidaebbimmiphusxnephuxihidpharamietxrnahnksahrbaebbcalxngphasatngtn caknncungichaebbcalxngcaaenkaebbmiphusxnthakarprblaexiydihekhakbnganthitxngkarich karfukich P600 thnghmd 8 aephn ichewla 30 aelaprasiththiphaphkardaeninkarxyuthi 33 ethakb 0 96 petaFLOPS wnaebbcalxngrakthansiris GPT n aebbcalxng canwnpharamietxr khxmulthiichfuk wnthiplxy canwnwnaelathrphyakrinkarfuk117 lan khxkhwam 4 5 GB cakhnngsuxthiimtiphimph 7000 elminhlakhlayhmwd 000000002018 06 11 0000 11 mithunayn 2018 30 wnthi 8 P600 GPUs hrux 1 petaFLOP s day 1 5 phnlan WebText khxkhwam 40 GB exksar 8 lanchbbcakewbephc 45 hnabn Reddit 000000002019 02 14 0000 14 kumphaphnth 2019 aebbcakd aela 000000002019 11 05 0000 5 phvscikayn 2019 aebbetm epnsib petaflop s day hrux 1 5e21 FLOP 175 phnlan 499 lanothekhncakkhxmmxnkhrxwl 570 GB 000000002020 05 28 0000 28 phvsphakhm 2020 3640 petaflop s day Table D 1 hrux 3 1e23 FLOP175 phnlan imepidephy 15 minakhm 2022 imepidephyimepidephy aetpramanknwa 1 7 lanlan imepidephy 000000002023 03 14 0000 14 minakhm 2023 imepidephy praman 2 1 1025 FLOPxangxingHaddad Mohammed How does GPT 4 work and how can you start using it in ChatGPT www aljazeera com Generative AI a game changer society needs to be ready for World Economic Forum 9 January 2023 The A to Z of Artificial Intelligence Time April 13 2023 Hu Luhui November 15 2022 Generative AI and Future Medium CSDL IEEE Computer Society www computer org Lewis Tunstall Leandro von Werra Thomas Wolf 2022 08 03 機械学習エンジニアのためのTransformers 最先端の自然言語処理ライブラリによるモデル開発 aeplody 中山光樹 p 9 ISBN 978 4 87311 995 3 Radford Alec Narasimhan Karthik Salimans Tim Sutskever Ilya 11 June 2018 Improving Language Understanding by Generative Pre Training PDF OpenAI p 12 ekb PDF cakaehlngedimemux 26 January 2021 subkhnemux 23 January 2021 Tsvetkov Yulia 22 June 2017 Opportunities and Challenges in Working with Low Resource Languages PDF Carnegie Mellon University ekb PDF cakaehlngedimemux 31 March 2020 subkhnemux 23 January 2021 Improving language understanding with unsupervised learning openai com phasaxngkvsaebbxemrikn subkhnemux 2023 03 18 Zhu Yukun Kiros Ryan Zemel Rich Salakhutdinov Ruslan Urtasun Raquel Torralba Antonio Fidler Sanja 2015 Aligning Books and Movies Towards Story Like Visual Explanations by Watching Movies and Reading Books IEEE International Conference on Computer Vision ICCV 2015 pp 19 27 1506 06724 ekbcakaehlngedimemux 2023 02 05 subkhnemux 2023 02 07 Improving language understanding with unsupervised learning openai com phasaxngkvsaebbxemrikn June 11 2018 ekbcakaehlngedimemux 2023 03 18 subkhnemux 2023 03 18 Vincent James November 7 2019 OpenAI has published the text generating AI it said was too dangerous to share The Verge Brown Tom B Mann Benjamin Ryder Nick Subbiah Melanie Kaplan Jared Dhariwal Prafulla Neelakantan Arvind Shyam Pranav Sastry Girish Askell Amanda Agarwal Sandhini Herbert Voss Ariel Krueger Gretchen Henighan Tom Child Rewon Ramesh Aditya Ziegler Daniel M Wu Jeffrey Winter Clemens Hesse Christopher Chen Mark Sigler Eric Litwin Mateusz Gray Scott Chess Benjamin Clark Jack Berner Christopher McCandlish Sam Radford Alec Sutskever Ilya Amodei Dario May 28 2020 Language Models are Few Shot Learners NeurIPS 2005 14165v4 ML input trends visualization Epoch phasaxngkvs subkhnemux 2023 05 02 Ver Meer Dave June 1 2023 ChatGPT Statistics NamePepper phasaxngkvs subkhnemux 2023 06 09 GPT 4 has more than a trillion parameters Report March 25 2023