กลไกความใส่ใจ (attention mechanism) หรือ แอตเทนชัน (attention) ในโครงข่ายประสาทเทียม เป็นเทคนิคที่ออกแบบมาเพื่อเลียนแบบกระบวนการความใสใจในการรับรู้ของมนุษย์
กลไกความใส่ใจมีส่วนช่วยในการเสริมน้ำหนักของข้อมูลป้อนเข้าบางส่วนที่สำคัญ และทำให้ส่วนอื่นอ่อนลง แนวคิดนี้ได้แรงบันดาลใจมาจากการที่ว่าโครงข่ายควรให้ความสำคัญกับข้อมูลบางส่วนที่แม้ว่าจะเล็ก ๆ แต่ก็มีสำคัญมากขึ้น มีความยืดหยุ่นในการขึ้นอยู่กับบริบทเพื่อกำหนดว่าส่วนใดของข้อมูลมีความสำคัญมากกว่าส่วนอื่น ๆ เมื่อเทียบกับวิธีการถ่วงน้ำหนักแบบมาตรฐานที่ให้ค่าคงที่ตลอดการดำเนินการ วิธีการนี้ใช้ "ค่าน้ำหนักแบบอ่อน" ซึ่งสามารถเปลี่ยนแปลงได้ขณะดำเนินการได้
กลไกที่คล้ายกับกลไกความใส่ใจได้ถูกเสนอขึ้นมาตั้งแต่ช่วงปี 1990 ภายใต้ชื่อต่อไปนี้:
- มอดูลแบบคูณ (multiplicative module)
- หน่วยซิกมาไพ (sigma-pi unit)
- โครงข่ายไฮเปอร์ (hyper-network)
มีเทคนิคมากมายที่ประยุกต์ใช้กลไกความใส่ใจได้แก่:
- หน่วยความจำของเครื่องทัวริงประสาท
- การประมวลภาษาธรรมชาติด้วยทรานส์ฟอร์เมอร์ หรือ หน่วยความจำระยะสั้นแบบยาว
- การจัดการข้อมูลพหุฐานนิยมใน
ความเป็นมา
กลไกความใส่ใจได้รับการออกแบบให้เป็นส่วนประกอบที่ทำหน้าที่ดังต่อไปนี้:
- seq2seq: แปลงแถวลำดับเวกเตอร์ป้อนเข้าเป็นแถวลำดับเวกเตอร์ขาออก
- การพิจารณาความขึ้นกับระยะไกล: ดัชนี เชื่อมโยงค่าป้อนเข้าและค่าขาออกระยะไกล
- การแปลงแถวลำดับเวกเตอร์ความยาวตามที่ต้องการ: ทำการประมวลผลแถวลำดับป้อนเข้าที่มีความยาวต่างกันสำหรับการอนุมานแต่ละครั้ง
- ความสามารถสูงในการประมวลผลแบบคู่ขนาน: ช่วงเร่งความเร็วในการเรียนรู้และการอนุมาน
ตัวอย่างเช่น ลองพิจารณาการแปลด้วยเครื่อง ซึ่งเป็นงานที่ไม่ได้ทำง่าย ๆ โดยแค่แทนคำต่อคำ เนื่องจากลำดับคำในภาษาต่าง ๆ นั้นมีความแตกต่างกัน ดังนั้น เมื่อแปลงแถวลำดับเวกเตอร์คำป้อนเข้าเป็นลำดับเวกเตอร์คำเอาท์พุต จำเป็นต้องแปลงลำดับให้เป็นลำดับ (seq2seq) นอกจากนี้แล้ว ยังมีกรณีที่การอ้างอิงเฉพาะส่วนที่อยู่ใกล้นั้นไม่เพียงพอ จำเป็นต้องพิจารณาคำที่อยู่ก่อนหน้าไปไกลด้วย ตัวอย่างเช่นในการแปลประโยคคำถามภาษาอังกฤษเป็นภาษาไทย ต้องใช้คำว่า "Do" () ด้านหน้าสุดเพื่ออ้างอิงในการสร้าง "หรือ?" ต่อท้าย () กล่าวคือ จำเป็นต้องคำนึงถึงคำที่อยู่ไกลได้ด้วย นอกจากนี้ เนื่องจากความยาวของประโยคไม่คงที่ จึงจำเป็นต้องสามารถรองรับข้อมูลป้อนเข้าที่มีความยาวตามที่ต้องการได้ การเรียนรู้เชิงปฏิบัติเกี่ยวกับลำดับเวกเตอร์ขนาดยาวโดยใช้แบบจำลองขนาดใหญ่ต้องใช้ความสามารถในการประมวลผลแบบคู่ขนานสูง
ตัวอย่างเช่นชั้นโครงข่ายประสาทป้อนไปข้างหน้าสามารถใช้สำหรับ seq2seq โดยการถ่วงน้ำหนักในทิศทางเวลาได้ แต่เนื่องจากค่าน้ำหนักเป็นตัวเลขคงที่ จึงไม่สามารถจัดการลำดับเวกเตอร์ที่มีความยาวตามใด ๆ ตามที่ต้องการได้ โครงข่ายประสาทแบบสังวัตนาการสามารถใช้สำหรับ seq2seq ที่มีความยาวไม่แน่นอนได้ แต่ต้องใช้เคอร์เนลขนาดใหญ่หรือหลายชั้นเพื่อจัดการส่วนที่ขึ้นกับระยะไกล แม้ว่าแบบจำลองโครงข่ายประสาทแบบเวียนซ้ำจะสามารถตอบสนองความต้องการทั้ง 3 ข้อในทางทฤษฎีได้ แต่ในทางปฏิบัติเป็นที่ทราบกันดีว่าข้อมูลส่วนที่พึ่งพาระยะไกลจะหายไปในระหว่างการถดถอยแต่ละขั้น
ความจำเป็นนี้ไม่ได้จำกัดอยู่แค่ที่การประมวลภาษาธรรมชาติเช่นการแปลด้วยเครื่อง แต่ยังจำเป็นในงานต่าง ๆ มากมาย เช่น การรู้จำแบบ ที่อ้างถึงวัตถุที่อยู่ห่างไกลในภาพ และ การสังเคราะห์เสียงพูด ที่บันทึกการเปลี่ยนแปลงของระดับเสียงในระยะยาว ด้วยเหตุนี้ กลไกความใส่ใจจึงได้รับการเสนอและใช้เป็นส่วนประกอบที่รับข้อมูลป้อนเข้าโดยตรงในแต่ละตำแหน่งเมื่อแปลงสายอักขระที่มีความยาวใด ๆ ให้เป็นแถวลำดับ
แนวคิด
การคำนวนภายในกลไกความใส่ใจทำโดย "ผลรวมถ่วงน้ำหนักแบบไม่ตายตัวขึ้นอยู่กับเควียรีของลำดับเวกเตอร์ป้อนเข้า"
กลไกความใส่ใจจะทำการคำนวณผลรวมถ่วงน้ำหนักของเวกเตอร์ป้อนเข้า แต่ละตัว แล้วได้เวกเตอร์ขาออก (โดย เป็นดัชนีของข้อมูลป้อนเข้า ส่วน เป็นดัชนีของข้อมูลขาออก) ในที่นี้ ค่าน้ำหนักไม่ได้เป็นเพียงค่าคงที่ แต่ได้มาจากการคำนวณ การคำนวณจากเวกเตอร์ ที่แสดงข้อมูลที่โยงกับค่าขาออกตัวที่ กับตัวเวกเตอร์ป้อนเข้านั้นเอง อาจแสดงแนวคิดการคำนวณได้ดังสูตรต่อไปนี้
ดังที่เห็นได้จากสูตรนี้ กลไกความใส่ใจจะคำนวณน้ำหนักสำหรับค่าขาออกแต่ละค่าจากเวกเตอร์แสดงความเกี่ยวพันและเวกเตอร์ป้อนเข้า แล้วพิจารณาค่าป้อนเข้าทั้งหมดตามน้ำหนัก ทำให้สามารถพิจารณาแถวลำดับข้อมูลป้อนเข้าทั้งหมดต่อเวกเตอร์ขาออกแต่ละตัวได้โดยตรง ในขณะที่จัดการลำดับเวกเตอร์ที่มีความยาวตามต้องการผ่านการคำนวณน้ำหนักแบบไม่คงที่
กลไกความใส่ใจนี้สามารถพิจารณาใหม่ได้จากมุมมองอื่น กลไกความใส่ใจจะทำการเตรียม ค่า (value) ที่บวกเพิ่มโดยขึ้นกับค่าป้อนเข้า และตัวจำแนก ที่สรุปรวบข้อมูล เรียกว่า คีย์ (key) จากนั้นก็เตรียมเวกเตอร์เควียรี (query) ที่ขึ้นกับข้อมูลความเกี่ยวพันกับค่าขาออกแต่ละค่า แล้วกำหนดค่าน้ำหนักของค่าที่ขึ้นกับความสอดคล้องระหว่างเควียรีกับคีย์ กล่าวคือ แสดงได้ดังสูตรต่อไปนี้:
แม้ว่าจะมีรูปแบบเกือบจะเหมือนกับสูตรแนวคิดแรก แต่ก็มีความยืดหยุ่นเพิ่มขึ้นในการแปลงข้อมูลที่ป้อนเข้าให้เป็นค่าแล้วจึงดำเนินการหาผลรวม
เพื่อที่จะเปลี่ยนแนวคิดนี้ให้เป็นการดำเนินการที่ใช้งานได้จริง ต้องดำเนินการอย่างเป็นรูปธรรมดังต่อไปนี้ อันดับแรก หากไม่มีข้อจำกัดเรื่องขนาดของ แล้ว เวกเตอร์ขาออกจะแจกแจงออกไปเมื่อเจอค่าป้อนเข้าที่มีความยาวมากเป็นอนันต์ ดังนั้นจึงกำหนดให้จำกัดให้ผลรวมค่าน้ำหนักเป็น 1 () ได้มีการนิยามฟังก์ชันที่วัดความสอดคล้องระหว่างเควียรีและคีย์ภายในข้อจำกัดนี้ (กลไกเควียรี-คีย์) แต่ฟังก์ชันนี้มีการใช้งานอยู่หลายรูปแบบ แบบที่มักใช้งานคือใช้ฟังก์ชันซอฟต์แมกซ์กับผลคูณจุด
ตัวอย่างการแปลภาษา
หากต้องการสร้างเครื่องแปลจากภาษาอังกฤษเป็นภาษาฝรั่งเศส จะต้องประกอบตัวเข้ารหัส/ตัวถอดรหัสพื้นฐานเข้ากับหน่วยความใส่ใจ (ดูภาพด้านล่าง) ในตัวอย่างที่ง่ายที่สุด หน่วยความใส่ใจประกอบด้วยผลคูณจุดของสถานะของตัวเข้ารหัสแบบถดถอย และไม่จำเป็นต้องฝึก ในความเป็นจริง หน่วยของความใส่ใจประกอบด้วยชั้นโครงข่ายประสาทเทียมแบบเชื่อมต่อสมบูรณ์ 3 ชั้นที่เรียกว่า เควียรี-คีย์-ค่า (query-key-value) ซึ่งต้องมีการฝึก
ข้อความ | คำอธิบาย |
---|---|
100 | ความยาวสูงสุด |
300 | ขนาดการฝังคำ (มิติของเวกเตอร์คำ) |
500 | ความยาวของเวกเตอร์ซ่อน |
9k, 10k | ขนาดพจนานุกรมของภาษาป้อนเข้าและขาออก |
x, Y | เวกเตอร์ของพจนานุกรมแบบ 1-hot ที่ความยาวเป็น 9k และ 10k x → x ไม่ใช่ผลคูณเวกเตอร์ แต่ใช้เป็นตารางอ้างอิงค่า Y เป็นข้อมูล 1-hot ของ D ที่ชั้นตัวถอดรหัสเชิงเส้น นั่นคือเอาอาร์กิวเมนต์ของค่าสูงสุดของค่าขาออกของชั้นเชิงเส้นของ D |
x | เวกเตอร์ฝังคำความยาว 300 เวกเตอร์นี้มักผ่านการคำนวณล่วงหน้าโดยใช้วิธีการเช่น word2vec หรือ |
h | เวกเตอร์ซ่อนตัวเข้ารหัสความยาว 500 ที่แต่ละจุดเวกเตอร์นี้จะสรุปรวบคำทั้งหมดก่อนหน้า h ตัวสุดท้ายเรียกว่า "เวกเตอร์คำ" หรือที่ฮินตันเรียกว่า "เวกเตอร์ความคิด" |
s | เวกเตอร์สถานะซ่อนตัวถอดรหัสความยาว 500 |
E | ตัวเข้ารหัส RNN 500 นิวรอน จำนวนขาออกเป็น 500 จำ ตัวเข้ารหัสจะป้อนเข้าสู่ตัวถอดรหัสโดยตรงแค่ตอนแรกสุดเท่านั้น แต่หลังจากนั้นจะไม่ใช่แล้ว เส้นเชื่อมตรงจึงแสดงด้วยเส้นสีส้มอ่อน |
D | ตัวถอดรหัส 2 ชั้น ชั้นถดถอยมี 500 นิวรอน ชั้นเชิงเส้นเชื่อมต่อสมบูรณ์มี 10,000 นิวรอน (ขนาดคำศัพท์เป้าหมาย) แค่ชั้นเชิงเส้นก็มีจำนวนพารามิเตอร์ค่าน้ำหนักเป็น 5 ล้าน (500×10000) แล้ว ส่วนชั้นถดถอยมีเป็น 10 เท่า |
score | คะแนนการจัดเรียง ความยาว 100 |
w | ค่ำน้ำหนักการใส่ใจ เป็นเวกเตอร์ 100 ตัว ค่าเหล่านี้จะเปลี่ยนแปลงไปในระหว่างขั้นตอนการฝึก |
A | ส่วนประกอบกลไกความใส่ใจ อาจเป็นผลคูณจุดของสถานะถดถอย หรือชั้นเชื่อมต่อสมบูรณ์ของเควียรี-คีย์-ค่า ค่าขาออกเป็นเวกเตอร์ w ความยาว 1000 |
H | 500×100 เป็นส่วนที่เวกเตอร์ซ่อน h ความยาว 100 เชื่อมโยงกับเมทริกซ์ |
c | เวกเตอร์บริบทความยาว 500 c เป็นการเชื่อมต่อเชิงเส้นถ่วงน้ำหนักเวกเตอร์ h ตัวด้วย w |
เมื่อดูเป็นเมทริกซ์ จะเห็นได้ว่าค่าน้ำหนักความใส่ใจจะบ่งบอกว่าโครงข่ายปรับแบ่งความใส่ใจไปตามบริบทอย่างไร
I | love | you | |
je | 0.94 | 0.02 | 0.04 |
t' | 0.11 | 0.01 | 0.88 |
aime | 0.03 | 0.95 | 0.02 |
แนวคิดเรื่องน้ำหนักความใส่ใจนี้ช่วยแก้ปัญหา "ความสามารถในการอธิบาย" ที่โครงข่ายประสาทเทียมมักถูกวิพากษ์วิจารณ์ หากเป็นโครงข่ายที่ทำการแปลคำต่อคำโดยไม่คำนึงถึงลำดับของคำจะได้เป็นเมทริกซ์ที่เกือบจะมีแต่องค์ประกอบแนวทแยง ในทางกลับกัน การที่มีค่าที่ไม่ใช่ในแนวทแยงอยู่นั้นบ่งชี้ว่ากลไกความใส่ใจนั้นมีความละเอียดอ่อนกว่านั้น ในการผ่านตัวถอดรหัสครั้งแรก 94% ของน้ำหนักความใส่ใจอยู่ที่คำภาษาอังกฤษคำแรก "I" ดังนั้นโครงข่ายจึงแสดงคำว่า "je" ในการผ่านตัวถอดรหัสครั้งที่สอง คำภาษาอังกฤษที่สาม "you" ได้ค่าน้ำหนักความใส่ใจ 88% ดังนั้นจึงแสดง "t" ในประโยคสุดท้าย คำภาษาอังกฤษที่สอง "ความรัก" ได้ค่าน้ำหนักความใส่ใจ 95% ดังนั้นจึงแสดง "aime"
รูปแบบอื่น
กลไกความใส่ใจหลายรูปแบบที่ใช้ค่าถ่วงน้ำหนักแบบยืดหยุ่น ตัวอย่างได้แก่:
- ความใส่ใจแบบบวก (additive attention): หรือเรียกว่า Bahdanau Attention
- ความใส่ใจแบบทวีคูณ (multiplicative): หรือที่เรียกว่า Luong Attention
- ความใส่ใจในตัว (self-attention)
สำหรับโครงข่ายประสาทแบบสังวัตนาการ กลไกความใส่ใจยังสามารถแบ่งตามมิติที่กลไกทำงาน คืออาจแยกตามปริภูมิ หรือแยกตามช่อง หรือทั้งสองอย่างรวมกัน
ตัวแปรเหล่านี้จะรวมค่าป้อนเข้าฝั่งตัวเข้ารหัสอีกครั้ง และแจกแจงใหม่ไปยังขาออกเป้าหมายแต่ละรายการ ในหลายกรณี เมทริกซ์ที่มีลักษณะคล้ายสหสัมพันธ์ของผลคูณจุดจะให้ปัจจัยในการถ่วงน้ำหนักใหม่ (ดูคำอธิบายประกอบ)
1. ผลคูณจุดตัวเข้ารหัส-ตัวถอดรหัส | 2. QKV ตัวเข้ารหัส-ตัวถอดรหัส | 3. ผลคูณจุดเฉพาะตัวเข้ารหัส | 4. QKV เฉพาะตัวเข้ารหัส | 5. บทช่วยสอนของ Pytorch |
---|---|---|---|---|
ฉลาก | คำอธิบาย |
---|---|
ตัวแปร X, H, S, T | ตัวแปรตัวพิมพ์ใหญ่แสดงถึงประโยคทั้งหมด ไม่ใช่แค่คำปัจจุบัน ตัวอย่างเช่น H คือเมทริกซ์ที่แสดงถึงสถานะที่ซ่อนอยู่ของตัวเข้ารหัส หนึ่งคำต่อสดมภ์ |
S, T | S คือสถานะซ่อนของตัวถอดรหัส และ T คือการฝังคำเป้าหมาย ในระหว่างขั้นตอนการฝึกอบรมของรูปแบบการสอนของ Pytorch นั้น T จะสลับระหว่างแหล่งข้อมูลทั้งสองตาม ขึ้นอยู่กับระดับของ (teacher forcing) ที่ใช้ T สามารถเป็นการฝังคำขาออกของโครงข่าย เช่น embedding(argmax(FC ขาออก)) หรือไม่ก็ ในกรณีของการบังคับผู้สอน T สามารถเป็นการฝังคำที่ถูกต้องที่รู้อยู่แล้วซึ่งเกิดขึ้นพร้อมกับความน่าจะเป็นในการบังคับที่คงที่ (เช่น 1/2) |
X, H | สถานะซ่อนของตัวเข้ารหัส H, การฝังคำป้อนเข้า X |
W | สัมประสิทธิ์ความใส่ใจ |
Qw, Kw, Vw, FC | เมทริกซ์น้ำหนักสำหรับเวกเตอร์ของ เควียรี-คีย์-ค่า FC คือเมทริกซ์น้ำหนักของชั้นเชื่อมต่อสมบูรณ์ |
⊕, ⊗ | ⊕ การต่อเวกเตอร์, ⊗ การคูณเมทริกซ์ |
corr | ซอฟต์แม็กซ์ตามสดมภ์ (เมทริกซ์ที่รวมผลคูณจุดทั้งหมด) ผลคูณจุดในแบบที่ 3 คือ xi* xj ในแบบที่ 1 คือ hi* sj ในแบบที่ 2 คือ columni (Kw* H)* columnj (Qw* S) ในแบบที่ 4 คือ columni (Kw* X)* columnj (Qw* X) ในแบบที่ 5 ใช้ชั้นเชื่อมต่อสมบูรณ์เพื่อกำหนดค่าสัมประสิทธิ์ สำหรับแบบ QKV ผลคูณจุดจะถูกทำให้เป็นมาตรฐานด้วย sqrt(d) ในที่นี้ d คือความสูงของเมทริกซ์ QKV |
การใช้งาน
แบบจำลองที่ยืนพื้นจากสถาปัตยกรรมทรานส์ฟอร์เมอร์นั้นใช้กลไกความใส่ใจเป็นแกนหลัก ทรานส์ฟอร์เมอร์มีเมทริกซ์น้ำหนักอิสระหลายตัวในภายในชั้นเดียวกัน
อ้างอิง
- Yann Lecun (2020). Deep Learning course at NYU, Spring 2020, video lecture Week 6. เหตุการณ์เกิดขึ้นที่ 53:00. สืบค้นเมื่อ 2022-03-08.
- Feldman, J. A.; Ballard, D. H. (1982-07-01). "Connectionist models and their properties". Cognitive Science. 6 (3): 205–254. doi:10.1016/S0364-0213(82)80001-3. ISSN 0364-0213.
- Rumelhart, David E.; Hinton, G. E.; Mcclelland, James L. (1987-07-29). "A General Framework for Parallel Distributed Processing" (PDF). ใน Rumelhart, David E.; Hinton, G. E.; PDP Research Group (บ.ก.). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations (ภาษาอังกฤษ). Cambridge, Massachusetts: MIT Press. ISBN .
- Ha, David; Dai, Andrew; Le, Quoc V. (2016-12-01). "HyperNetworks". :1609.09106 [cs.LG].
- Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (2016-10-12). "Hybrid computing using a neural network with dynamic external memory". Nature (ภาษาอังกฤษ). 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
- Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). "Stand-Alone Self-Attention in Vision Models". :1906.05909 [cs.CV].
- Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). "Perceiver: General Perception with Iterative Attention". :2103.03206 [cs.CV].
- Ray, Tiernan. "Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything". ZDNet (ภาษาอังกฤษ). สืบค้นเมื่อ 2021-08-19.
- "for mapping one ... sequence ... to another sequence ... Motivating our use of self-attention" Vaswani. (2017). Attention Is All You Need.
- "Motivating our use of self-attention ... Learning long-range dependencies is a key challenge in many sequence transduction tasks." Vaswani. (2017). Attention Is All You Need.
- "for mapping one variable-length sequence ... Motivating our use of self-attention" Vaswani. (2017). Attention Is All You Need.
- "three desiderata ... Another is the amount of computation that can be parallelized" Vaswani. (2017). Attention Is All You Need.
- "A neural machine translation system ... translating a source sentence ... to a target sentence" Luong. (2015). Effective Approaches to Attention-based Neural Machine Translation.
- "to encode a variable-length source sentence ... and to decode the vector into a variable-length target sentence" Bahdanau. (2015). Neural machine translation by jointly learning to align and translate. ICLR.
- "A single convolutional layer ... does not connect all pairs of input and output positions. Doing so requires a stack of ... convolutional layers" Vaswani. (2017). Attention Is All You Need.
- "three desiderata ... The third is the path length between long-range dependencies in the network. ... One key factor affecting the ability to learn such dependencies is the length of the paths forward and backward signals have to traverse in the network." Vaswani. (2017). Attention Is All You Need.
- "An attention function can be described as mapping a query and a set of key-value pairs to an output" Vaswani. (2017). Attention Is All You Need.
- "An attention function ... The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key." Vaswani. (2017). Attention Is All You Need.
- "An attention function can be described as mapping a query and a set of key-value pairs to an output" Vaswani. (2017). Attention Is All You Need.
- "We compute the dot products of the query with all keys, divide each by √ dk, and apply a softmax function" Vaswani. (2017). Attention Is All You Need.
- "Pytorch.org seq2seq tutorial". สืบค้นเมื่อ December 2, 2021.
- Bahdanau, Dzmitry (2016-05-19). "Neural Machine Translation by Jointly Learning to Align and Translate". :1409.0473 [cs.CL].
- Luong, Minh-Thang (2015-09-20). "Effective Approaches to Attention-based Neural Machine Translation". :1508.04025v5 [cs.CL].
- Zhu, Xizhou; Cheng, Dazhi; Zhang, Zheng; Lin, Stephen; Dai, Jifeng (2019). "An Empirical Study of Spatial Attention Mechanisms in Deep Networks". 2019 IEEE/CVF International Conference on Computer Vision (ICCV): 6687–6696. :1904.05873. doi:10.1109/ICCV.2019.00679. ISBN . S2CID 118673006.
- Hu, Jie; Shen, Li; Sun, Gang (2018). "Squeeze-and-Excitation Networks". IEEE/CVF Conference on Computer Vision and Pattern Recognition: 7132–7141. :1709.01507. doi:10.1109/CVPR.2018.00745. ISBN . S2CID 206597034.
- Woo, Sanghyun; Park, Jongchan; Lee, Joon-Young; Kweon, In So (2018-07-18). "CBAM: Convolutional Block Attention Module". :1807.06521 [cs.CV].
- Georgescu, Mariana-Iuliana; Ionescu, Radu Tudor; Miron, Andreea-Iuliana; Savencu, Olivian; Ristea, Nicolae-Catalin; Verga, Nicolae; Khan, Fahad Shahbaz (2022-10-12). "Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes for Medical Image Super-Resolution". :2204.04218 [eess.IV].
- Neil Rhodes (2021). CS 152 NN—27: Attention: Keys, Queries, & Values. เหตุการณ์เกิดขึ้นที่ 06:30. สืบค้นเมื่อ 2021-12-22.
- Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020. เหตุการณ์เกิดขึ้นที่ 05:30. สืบค้นเมื่อ 2021-12-22.
- Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020. เหตุการณ์เกิดขึ้นที่ 20:15. สืบค้นเมื่อ 2021-12-22.
- Robertson, Sean. "NLP From Scratch: Translation With a Sequence To Sequence Network and Attention". pytorch.org. สืบค้นเมื่อ 2021-12-22.
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
klikkhwamisic attention mechanism hrux aextethnchn attention inokhrngkhayprasathethiym epnethkhnikhthixxkaebbmaephuxeliynaebbkrabwnkarkhwamisicinkarrbrukhxngmnusy klikkhwamisicmiswnchwyinkaresrimnahnkkhxngkhxmulpxnekhabangswnthisakhy aelathaihswnxunxxnlng aenwkhidniidaerngbndalicmacakkarthiwaokhrngkhaykhwrihkhwamsakhykbkhxmulbangswnthiaemwacaelk aetkmisakhymakkhun mikhwamyudhyuninkarkhunxyukbbribthephuxkahndwaswnidkhxngkhxmulmikhwamsakhymakkwaswnxun emuxethiybkbwithikarthwngnahnkaebbmatrthanthiihkhakhngthitlxdkardaeninkar withikarniich khanahnkaebbxxn sungsamarthepliynaeplngidkhnadaeninkarid klikthikhlaykbklikkhwamisicidthukesnxkhunmatngaetchwngpi 1990 phayitchuxtxipni mxdulaebbkhun multiplicative module hnwysikmaiph sigma pi unit okhrngkhayihepxr hyper network miethkhnikhmakmaythiprayuktichklikkhwamisicidaek hnwykhwamcakhxngekhruxngthwringprasath karpramwlphasathrrmchatidwythransfxremxr hrux hnwykhwamcarayasnaebbyaw karcdkarkhxmulphhuthanniyminkhwamepnmaklikkhwamisicidrbkarxxkaebbihepnswnprakxbthithahnathidngtxipni seq2seq aeplngaethwladbewketxrpxnekhaepnaethwladbewketxrkhaxxk karphicarnakhwamkhunkbrayaikl dchni i displaystyle i echuxmoyngkhapxnekhaaelakhakhaxxkrayaikl karaeplngaethwladbewketxrkhwamyawtamthitxngkar thakarpramwlphlaethwladbpxnekhathimikhwamyawtangknsahrbkarxnumanaetlakhrng khwamsamarthsunginkarpramwlphlaebbkhukhnan chwngerngkhwamerwinkareriynruaelakarxnuman twxyangechn lxngphicarnakaraepldwyekhruxng sungepnnganthiimidthangay odyaekhaethnkhatxkha enuxngcakladbkhainphasatang nnmikhwamaetktangkn dngnn emuxaeplngaethwladbewketxrkhapxnekhaepnladbewketxrkhaexathphut caepntxngaeplngladbihepnladb seq2seq nxkcakniaelw yngmikrnithikarxangxingechphaaswnthixyuiklnnimephiyngphx caepntxngphicarnakhathixyukxnhnaipikldwy twxyangechninkaraeplpraoykhkhathamphasaxngkvsepnphasaithy txngichkhawa Do i 0 displaystyle i 0 danhnasudephuxxangxinginkarsrang hrux txthay i L displaystyle i L klawkhux caepntxngkhanungthungkhathixyuikliddwy nxkcakni enuxngcakkhwamyawkhxngpraoykhimkhngthi cungcaepntxngsamarthrxngrbkhxmulpxnekhathimikhwamyawtamthitxngkarid kareriynruechingptibtiekiywkbladbewketxrkhnadyawodyichaebbcalxngkhnadihytxngichkhwamsamarthinkarpramwlphlaebbkhukhnansung twxyangechnchnokhrngkhayprasathpxnipkhanghnasamarthichsahrb seq2seq odykarthwngnahnkinthisthangewlaid aetenuxngcakkhanahnkepntwelkhkhngthi cungimsamarthcdkarladbewketxrthimikhwamyawtamid tamthitxngkarid okhrngkhayprasathaebbsngwtnakarsamarthichsahrb seq2seq thimikhwamyawimaennxnid aettxngichekhxrenlkhnadihyhruxhlaychnephuxcdkarswnthikhunkbrayaikl aemwaaebbcalxngokhrngkhayprasathaebbewiynsacasamarthtxbsnxngkhwamtxngkarthng 3 khxinthangthvsdiid aetinthangptibtiepnthithrabkndiwakhxmulswnthiphungpharayaiklcahayipinrahwangkarthdthxyaetlakhn khwamcaepnniimidcakdxyuaekhthikarpramwlphasathrrmchatiechnkaraepldwyekhruxng aetyngcaepninngantang makmay echn karrucaaebb thixangthungwtthuthixyuhangiklinphaph aela karsngekhraahesiyngphud thibnthukkarepliynaeplngkhxngradbesiynginrayayaw dwyehtuni klikkhwamisiccungidrbkaresnxaelaichepnswnprakxbthirbkhxmulpxnekhaodytrnginaetlataaehnngemuxaeplngsayxkkhrathimikhwamyawid ihepnaethwladbaenwkhidkarkhanwnphayinklikkhwamisicthaody phlrwmthwngnahnkaebbimtaytwkhunxyukbekhwiyrikhxngladbewketxrpxnekha klikkhwamisiccathakarkhanwnphlrwmthwngnahnkkhxngewketxrpxnekha xk displaystyle boldsymbol x k aetlatw aelwidewketxrkhaxxk yi displaystyle boldsymbol y i ody k displaystyle k epndchnikhxngkhxmulpxnekha swn i displaystyle i epndchnikhxngkhxmulkhaxxk inthini khanahnkimidepnephiyngkhakhngthi aetidmacakkarkhanwn karkhanwncakewketxr ci displaystyle boldsymbol c i thiaesdngkhxmulthioyngkbkhakhaxxktwthi i displaystyle i kbtwewketxrpxnekhannexng xacaesdngaenwkhidkarkhanwniddngsutrtxipni yi kwikxk kf ci xk xk displaystyle boldsymbol y i sum k w ik boldsymbol x k sum k f boldsymbol c i boldsymbol x k boldsymbol x k dngthiehnidcaksutrni klikkhwamisiccakhanwnnahnksahrbkhakhaxxkaetlakhacakewketxraesdngkhwamekiywphnaelaewketxrpxnekha aelwphicarnakhapxnekhathnghmdtamnahnk thaihsamarthphicarnaaethwladbkhxmulpxnekhathnghmdtxewketxrkhaxxkaetlatwidodytrng inkhnathicdkarladbewketxrthimikhwamyawtamtxngkarphankarkhanwnnahnkaebbimkhngthi klikkhwamisicnisamarthphicarnaihmidcakmummxngxun klikkhwamisiccathakaretriym kha vk displaystyle boldsymbol v k value thibwkephimodykhunkbkhapxnekha xk displaystyle boldsymbol x k aelatwcaaenk kk displaystyle boldsymbol k k thisruprwbkhxmul eriykwa khiy key caknnketriymewketxrekhwiyri query qk displaystyle boldsymbol q k thikhunkbkhxmulkhwamekiywphnkbkhakhaxxkaetlakha aelwkahndkhanahnkkhxngkhathikhunkbkhwamsxdkhlxngrahwangekhwiyrikbkhiy klawkhux aesdngiddngsutrtxipni yi Attention qi K V kg qi kk vk kf ci xk h xk displaystyle boldsymbol y i Attention boldsymbol q i K V sum k g boldsymbol q i boldsymbol k k boldsymbol v k sum k f boldsymbol c i boldsymbol x k h boldsymbol x k aemwacamirupaebbekuxbcaehmuxnkbsutraenwkhidaerk aetkmikhwamyudhyunephimkhuninkaraeplngkhxmulthipxnekhaihepnkhaaelwcungdaeninkarhaphlrwm ephuxthicaepliynaenwkhidniihepnkardaeninkarthiichnganidcring txngdaeninkarxyangepnrupthrrmdngtxipni xndbaerk hakimmikhxcakderuxngkhnadkhxng wik displaystyle w ik aelw ewketxrkhaxxkcaaeckaecngxxkipemuxecxkhapxnekhathimikhwamyawmakepnxnnt dngnncungkahndihcakdihphlrwmkhanahnkepn 1 kwik 1 textstyle sum k w ik 1 idmikarniyamfngkchnthiwdkhwamsxdkhlxngrahwangekhwiyriaelakhiyphayinkhxcakdni klikekhwiyri khiy aetfngkchnnimikarichnganxyuhlayrupaebb aebbthimkichngankhuxichfngkchnsxftaemkskbphlkhuncud qi kk displaystyle boldsymbol q i cdot boldsymbol k k twxyangkaraeplphasahaktxngkarsrangekhruxngaeplcakphasaxngkvsepnphasafrngess catxngprakxbtwekharhs twthxdrhsphunthanekhakbhnwykhwamisic duphaphdanlang intwxyangthingaythisud hnwykhwamisicprakxbdwyphlkhuncudkhxngsthanakhxngtwekharhsaebbthdthxy aelaimcaepntxngfuk inkhwamepncring hnwykhxngkhwamisicprakxbdwychnokhrngkhayprasathethiymaebbechuxmtxsmburn 3 chnthieriykwa ekhwiyri khiy kha query key value sungtxngmikarfuk source source source source source source source source widioxaesdngladbkaraeplphasathilakhntxnaephnphngkhxngtwekharhs twthxdrhsthiprakxbdwyklikkhwamisic dansay sida khuxtwekharhs twthxdrhs nnkhuxepntwekharhsxtonmti trngklang sism khuxhnwykhwamisic aeladankhwa siethaaela 3 si khuxphlkarkhanwn phunthisiethainemthriks H aelaewketxr w khwasud hmaythungkhasuny twelkhhxyrabukhnadewketxr aelatwhxytwxksr i aela i 1 rabukhntxnewlakhaxthibay khxkhwam khaxthibay100 khwamyawsungsud300 khnadkarfngkha mitikhxngewketxrkha 500 khwamyawkhxngewketxrsxn9k 10k khnadphcnanukrmkhxngphasapxnekhaaelakhaxxkx Y ewketxrkhxngphcnanukrmaebb 1 hot thikhwamyawepn 9k aela 10k x x imichphlkhunewketxr aetichepntarangxangxingkha Y epnkhxmul 1 hot khxng D thichntwthxdrhsechingesn nnkhuxexaxarkiwemntkhxngkhasungsudkhxngkhakhaxxkkhxngchnechingesnkhxng Dx ewketxrfngkhakhwamyaw 300 ewketxrnimkphankarkhanwnlwnghnaodyichwithikarechn word2vec hruxh ewketxrsxntwekharhskhwamyaw 500 thiaetlacudewketxrnicasruprwbkhathnghmdkxnhna h twsudthayeriykwa ewketxrkha hruxthihintneriykwa ewketxrkhwamkhid s ewketxrsthanasxntwthxdrhskhwamyaw 500E twekharhs RNN 500 niwrxn canwnkhaxxkepn 500 ca twekharhscapxnekhasutwthxdrhsodytrngaekhtxnaerksudethann aethlngcaknncaimichaelw esnechuxmtrngcungaesdngdwyesnsismxxnD twthxdrhs 2 chn chnthdthxymi 500 niwrxn chnechingesnechuxmtxsmburnmi 10 000 niwrxn khnadkhasphthepahmay aekhchnechingesnkmicanwnpharamietxrkhanahnkepn 5 lan 500 10000 aelw swnchnthdthxymiepn 10 ethascore khaaennkarcderiyng khwamyaw 100w khanahnkkarisic epnewketxr 100 tw khaehlanicaepliynaeplngipinrahwangkhntxnkarfukA swnprakxbklikkhwamisic xacepnphlkhuncudkhxngsthanathdthxy hruxchnechuxmtxsmburnkhxngekhwiyri khiy kha khakhaxxkepnewketxr w khwamyaw 1000H 500 100 epnswnthiewketxrsxn h khwamyaw 100 echuxmoyngkbemthriksc ewketxrbribthkhwamyaw 500 c epnkarechuxmtxechingesnthwngnahnkewketxr h twdwy w c H w emuxduepnemthriks caehnidwakhanahnkkhwamisiccabngbxkwaokhrngkhayprbaebngkhwamisiciptambribthxyangir I love youje 0 94 0 02 0 04t 0 11 0 01 0 88aime 0 03 0 95 0 02 aenwkhideruxngnahnkkhwamisicnichwyaekpyha khwamsamarthinkarxthibay thiokhrngkhayprasathethiymmkthukwiphakswicarn hakepnokhrngkhaythithakaraeplkhatxkhaodyimkhanungthungladbkhxngkhacaidepnemthriksthiekuxbcamiaetxngkhprakxbaenwthaeyng inthangklbkn karthimikhathiimichinaenwthaeyngxyunnbngchiwaklikkhwamisicnnmikhwamlaexiydxxnkwann inkarphantwthxdrhskhrngaerk 94 khxngnahnkkhwamisicxyuthikhaphasaxngkvskhaaerk I dngnnokhrngkhaycungaesdngkhawa je inkarphantwthxdrhskhrngthisxng khaphasaxngkvsthisam you idkhanahnkkhwamisic 88 dngnncungaesdng t inpraoykhsudthay khaphasaxngkvsthisxng khwamrk idkhanahnkkhwamisic 95 dngnncungaesdng aime rupaebbxunklikkhwamisichlayrupaebbthiichkhathwngnahnkaebbyudhyun twxyangidaek khwamisicaebbbwk additive attention hruxeriykwa Bahdanau Attention khwamisicaebbthwikhun multiplicative hruxthieriykwa Luong Attention khwamisicintw self attention sahrbokhrngkhayprasathaebbsngwtnakar klikkhwamisicyngsamarthaebngtammitithiklikthangan khuxxacaeyktampriphumi hruxaeyktamchxng hruxthngsxngxyangrwmkn twaeprehlanicarwmkhapxnekhafngtwekharhsxikkhrng aelaaeckaecngihmipyngkhaxxkepahmayaetlaraykar inhlaykrni emthriksthimilksnakhlayshsmphnthkhxngphlkhuncudcaihpccyinkarthwngnahnkihm dukhaxthibayprakxb 1 phlkhuncudtwekharhs twthxdrhs 2 QKV twekharhs twthxdrhs 3 phlkhuncudechphaatwekharhs 4 QKV echphaatwekharhs 5 bthchwysxnkhxng Pytorchkarkhanwnkhwamisictxngichthngtwekharhsaelatwthxdrhs karkhanwnkhwamisictxngichthngtwekharhsaelatwthxdrhs twthxdrhsimidichsahrbkarkhanwnkhwamisic hakmipxnekha corr aekhediyw W khuxkhwamsmphnthintwkhxngphlkhuncud wij xi xj immikarichtwthxdrhsephuxkhanwnkhwamisic khanwnkhwamisicdwychnechuxmtxsmburn aethnthicaichkhwamsmphnthcakphlkhuncudkhxkhwamxthibay chlak khaxthibaytwaepr X H S T twaeprtwphimphihyaesdngthungpraoykhthnghmd imichaekhkhapccubn twxyangechn H khuxemthriksthiaesdngthungsthanathisxnxyukhxngtwekharhs hnungkhatxsdmphS T S khuxsthanasxnkhxngtwthxdrhs aela T khuxkarfngkhaepahmay inrahwangkhntxnkarfukxbrmkhxngrupaebbkarsxnkhxng Pytorch nn T caslbrahwangaehlngkhxmulthngsxngtam khunxyukbradbkhxng teacher forcing thiich T samarthepnkarfngkhakhaxxkkhxngokhrngkhay echn embedding argmax FC khaxxk hruximk inkrnikhxngkarbngkhbphusxn T samarthepnkarfngkhathithuktxngthiruxyuaelwsungekidkhunphrxmkbkhwamnacaepninkarbngkhbthikhngthi echn 1 2 X H sthanasxnkhxngtwekharhs H karfngkhapxnekha XW smprasiththikhwamisicQw Kw Vw FC emthriksnahnksahrbewketxrkhxng ekhwiyri khiy kha FC khuxemthriksnahnkkhxngchnechuxmtxsmburn kartxewketxr karkhunemthrikscorr sxftaemkstamsdmph emthriksthirwmphlkhuncudthnghmd phlkhuncudinaebbthi 3 khux xi xj inaebbthi 1 khux hi sj inaebbthi 2 khux columni Kw H columnj Qw S inaebbthi 4 khux columni Kw X columnj Qw X inaebbthi 5 ichchnechuxmtxsmburnephuxkahndkhasmprasiththi sahrbaebb QKV phlkhuncudcathukthaihepnmatrthandwy sqrt d inthini d khuxkhwamsungkhxngemthriks QKVkarichnganaebbcalxngthiyunphuncaksthaptykrrmthransfxremxrnnichklikkhwamisicepnaeknhlk thransfxremxrmiemthriksnahnkxisrahlaytwinphayinchnediywknxangxingYann Lecun 2020 Deep Learning course at NYU Spring 2020 video lecture Week 6 ehtukarnekidkhunthi 53 00 subkhnemux 2022 03 08 Feldman J A Ballard D H 1982 07 01 Connectionist models and their properties Cognitive Science 6 3 205 254 doi 10 1016 S0364 0213 82 80001 3 ISSN 0364 0213 Rumelhart David E Hinton G E Mcclelland James L 1987 07 29 A General Framework for Parallel Distributed Processing PDF in Rumelhart David E Hinton G E PDP Research Group b k Parallel Distributed Processing Volume 1 Explorations in the Microstructure of Cognition Foundations phasaxngkvs Cambridge Massachusetts MIT Press ISBN 978 0 262 68053 0 Ha David Dai Andrew Le Quoc V 2016 12 01 HyperNetworks 1609 09106 cs LG Graves Alex Wayne Greg Reynolds Malcolm Harley Tim Danihelka Ivo Grabska Barwinska Agnieszka Colmenarejo Sergio Gomez Grefenstette Edward Ramalho Tiago Agapiou John Badia Adria Puigdomenech Hermann Karl Moritz Zwols Yori Ostrovski Georg Cain Adam King Helen Summerfield Christopher Blunsom Phil Kavukcuoglu Koray Hassabis Demis 2016 10 12 Hybrid computing using a neural network with dynamic external memory Nature phasaxngkvs 538 7626 471 476 Bibcode 2016Natur 538 471G doi 10 1038 nature20101 ISSN 1476 4687 PMID 27732574 S2CID 205251479 Ramachandran Prajit Parmar Niki Vaswani Ashish Bello Irwan Levskaya Anselm Shlens Jonathon 2019 06 13 Stand Alone Self Attention in Vision Models 1906 05909 cs CV Jaegle Andrew Gimeno Felix Brock Andrew Zisserman Andrew Vinyals Oriol Carreira Joao 2021 06 22 Perceiver General Perception with Iterative Attention 2103 03206 cs CV Ray Tiernan Google s Supermodel DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything ZDNet phasaxngkvs subkhnemux 2021 08 19 for mapping one sequence to another sequence Motivating our use of self attention Vaswani 2017 Attention Is All You Need Motivating our use of self attention Learning long range dependencies is a key challenge in many sequence transduction tasks Vaswani 2017 Attention Is All You Need for mapping one variable length sequence Motivating our use of self attention Vaswani 2017 Attention Is All You Need three desiderata Another is the amount of computation that can be parallelized Vaswani 2017 Attention Is All You Need A neural machine translation system translating a source sentence to a target sentence Luong 2015 Effective Approaches to Attention based Neural Machine Translation to encode a variable length source sentence and to decode the vector into a variable length target sentence Bahdanau 2015 Neural machine translation by jointly learning to align and translate ICLR A single convolutional layer does not connect all pairs of input and output positions Doing so requires a stack of convolutional layers Vaswani 2017 Attention Is All You Need three desiderata The third is the path length between long range dependencies in the network One key factor affecting the ability to learn such dependencies is the length of the paths forward and backward signals have to traverse in the network Vaswani 2017 Attention Is All You Need An attention function can be described as mapping a query and a set of key value pairs to an output Vaswani 2017 Attention Is All You Need An attention function The output is computed as a weighted sum of the values where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key Vaswani 2017 Attention Is All You Need An attention function can be described as mapping a query and a set of key value pairs to an output Vaswani 2017 Attention Is All You Need We compute the dot products of the query with all keys divide each by dk and apply a softmax function Vaswani 2017 Attention Is All You Need Pytorch org seq2seq tutorial subkhnemux December 2 2021 Bahdanau Dzmitry 2016 05 19 Neural Machine Translation by Jointly Learning to Align and Translate 1409 0473 cs CL Luong Minh Thang 2015 09 20 Effective Approaches to Attention based Neural Machine Translation 1508 04025v5 cs CL Zhu Xizhou Cheng Dazhi Zhang Zheng Lin Stephen Dai Jifeng 2019 An Empirical Study of Spatial Attention Mechanisms in Deep Networks 2019 IEEE CVF International Conference on Computer Vision ICCV 6687 6696 1904 05873 doi 10 1109 ICCV 2019 00679 ISBN 978 1 7281 4803 8 S2CID 118673006 Hu Jie Shen Li Sun Gang 2018 Squeeze and Excitation Networks IEEE CVF Conference on Computer Vision and Pattern Recognition 7132 7141 1709 01507 doi 10 1109 CVPR 2018 00745 ISBN 978 1 5386 6420 9 S2CID 206597034 Woo Sanghyun Park Jongchan Lee Joon Young Kweon In So 2018 07 18 CBAM Convolutional Block Attention Module 1807 06521 cs CV Georgescu Mariana Iuliana Ionescu Radu Tudor Miron Andreea Iuliana Savencu Olivian Ristea Nicolae Catalin Verga Nicolae Khan Fahad Shahbaz 2022 10 12 Multimodal Multi Head Convolutional Attention with Various Kernel Sizes for Medical Image Super Resolution 2204 04218 eess IV Neil Rhodes 2021 CS 152 NN 27 Attention Keys Queries amp Values ehtukarnekidkhunthi 06 30 subkhnemux 2021 12 22 Alfredo Canziani amp Yann Lecun 2021 NYU Deep Learning course Spring 2020 ehtukarnekidkhunthi 05 30 subkhnemux 2021 12 22 Alfredo Canziani amp Yann Lecun 2021 NYU Deep Learning course Spring 2020 ehtukarnekidkhunthi 20 15 subkhnemux 2021 12 22 Robertson Sean NLP From Scratch Translation With a Sequence To Sequence Network and Attention pytorch org subkhnemux 2021 12 22