แบบจำลองภาษาขนาดใหญ large language model LLM เป นแบบจำลองภาษาท ประกอบข นจากโครงข ายประสาทเท ยมท ม พาราม เตอร จำนวนมาก หล

แบบจำลองภาษาขนาดใหญ่ (large language model, LLM) เป็นแบบจำลองภาษาที่ประกอบขึ้นจากโครงข่ายประสาทเทียมที่มีพารามิเตอร์จำนวนมาก (หลายสิบล้านถึงพันล้าน) ที่ สามารถทำการเรียนรู้แบบสอนตัวเอง หรือทำการเรียนรู้แบบกึ่งมีผู้สอน โดยใช้ข้อความที่ไม่มีฉลากกำกับจำนวนมาก

ตัวอย่างการวิเคราะห์ข้อมูลด้วยกลไกความใส่ใจภายในแบบจำลองภาษาขนาดใหญ่

แบบจำลองภาษาขนาดใหญ่เริ่มปรากฏขึ้นประมาณปี 2018 และได้แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในงานที่หลากหลาย เป็นตัวเปลี่ยนจุดสนใจของการวิจัยการประมวลภาษาธรรมชาติไปจากกระบวนทัศน์ก่อนหน้าที่มักใช้การเรียนรู้แบบมีผู้สอนสำหรับงานเฉพาะ แม้ว่าการประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่จะประสบผลสำเร็จอย่างน่าทึ่ง การพัฒนาแบบจำลองภาษาขนาดใหญ่ยังอยู่ในช่วงเริ่มต้น และนักวิจัยจำนวนมากกำลังมีส่วนร่วมในการปรับปรุงแบบจำลองภาษาขนาดใหญ่

แม้ว่าจะไม่มีคำจำกัดความที่เป็นทางการของคำว่าแบบจำลองภาษาขนาดใหญ่ แต่ก็มักจะหมายถึงแบบจำลองการเรียนรู้เชิงลึก ที่มีพารามิเตอร์นับล้านถึงพันล้านหรือมากกว่านั้นซึ่งได้รับการฝึกล่วงหน้าโดยคลังข้อความขนาดใหญ่ แบบจำลองภาษาขนาดใหญ่เป็นแบบจำลองการใช้งานทั่วไปที่มีความเป็นเลิศในงานต่าง ๆ มากมาย ซึ่งแตกต่างจากแบบจำลองที่ได้รับการฝึกสำหรับงานเฉพาะด้าน เช่น , และ ความสามารถและขอบเขตของแบบจำลองภาษาขนาดใหญ่นั้นนอกจากจะมาจากความก้าวหน้าในการออกแบบแล้ว ยังได้มาจากปริมาณทรัพยากร (ข้อมูล ขนาดพารามิเตอร์ พลังการคำนวณ) ปรากฎว่าแบบจำลองภาษาประสาทที่มีพารามิเตอร์จำนวนมากสามารถจับไวยากรณ์และความหมายของภาษามนุษย์ได้มาก เมื่อได้รับการฝึกฝนมาอย่างดีในงานง่าย ๆ อย่างการทำนายคำถัดไปในประโยค นอกจากนี้ แบบจำลองภาษาขนาดใหญ่ยังแสดงความรู้ทั่วไปเกี่ยวกับโลกและสามารถ "จดจำ" ข้อเท็จจริงจำนวนมากในระหว่างการฝึก

จากการวิเคราะห์อภิมานปี 2023 ซึ่งถือว่ามีความน่าเชื่อถือสูง มีนักวิจัยทั่วโลกที่ให้ความสนใจกับความคิดสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่ เราสามารถใช้แบบจำลองภาษาขนาดใหญ่เพื่อทำงานที่แบบจำลองภาษาขนาดเล็กไม่สามารถทำได้ นักวิชาการบางคนมองว่านี่เป็นความสร้างสรรค์ อย่างไรก็ตาม ก็มีคนโต้แย้งว่านี่เป็นผลจากการเลือกตัวชี้วัด ไม่ใช่ความสร้างสรรค์แต่อย่างใด ข้อโต้แย้งระบุว่าข้อได้เปรียบเชิงสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่อาจไม่สามารถมองเห็นได้หากเลือกตัวชี้วัดที่แตกต่างไป

อ้างอิง

Goled, Shraddha (May 7, 2021). "Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ". Analytics India Magazine. สืบค้นเมื่อ 2023-05-13.
"Responsible AI - Week 3". Coursera (ภาษาญี่ปุ่น). สืบค้นเมื่อ 2023-07-23.
Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (ภาษาอังกฤษ). ISSN 2835-8856.
Bowman, Samuel R. "Eight Things to Know about Large Language Models" (PDF). {{}}: Cite journal ต้องการ |journal= ((help))
Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023). "Are Emergent Abilities of Large Language Models a Mirage?". doi:10.48550/ARXIV.2304.15004. {{}}: Cite journal ต้องการ |journal= ((help))

[:1-1] Goled, Shraddha (May 7, 2021). "Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ". Analytics India Magazine. สืบค้นเมื่อ 2023-05-13.

[2] "Responsible AI - Week 3". Coursera (ภาษาญี่ปุ่น). สืบค้นเมื่อ 2023-07-23.

[emergentpaper-3] Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (ภาษาอังกฤษ). ISSN 2835-8856.

[Bowman-4] Bowman, Samuel R. "Eight Things to Know about Large Language Models" (PDF). {{}}: Cite journal ต้องการ |journal= ((help))

[5] Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023). "Are Emergent Abilities of Large Language Models a Mirage?". doi:10.48550/ARXIV.2304.15004. {{}}: Cite journal ต้องการ |journal= ((help))