การฝังเพื่อนบ้านแบบเฟ้นสุ่มแจกแจง t (t-distributed stochastic neighbor embedding, t-SNE) เป็นวิธีการทางสถิติสำหรับการแสดงข้อมูลมิติสูงด้วยการกำหนดตำแหน่งข้อมูลแต่ละจุดในแผนที่สองมิติหรือสามมิติ โดยมีพื้นฐานจากขั้นตอนวิธีเพื่อนบ้านแบบเฟ้นสุ่มที่พัฒนาขึ้นครั้งแรกโดยเจฟฟรีย์ ฮินตัน และ แซม โรไวส์ (Sam Roweis) แล้วได้รับการเสนอรูปแบบ โดย เลาเรินส์ ฟัน แดร์ มาเติน (Laurens van der Maaten) และฮินตัน วิธีนี้เป็น ซึ่งเหมาะสำหรับการฝังข้อมูลมิติสูงลงในพื้นที่มิติต่ำ (2 มิติ หรือ 3 มิติ) สำหรับการแสดงให้เห็นเป็นภาพ โดยเฉพาะอย่างยิ่ง เมื่อจัดเรียงชุดข้อมูลมิติสูงใน 2 หรือ 3 มิติ ชุดที่คล้ายกันจะสัมพันธ์กับความน่าจะเป็นสูงในบริเวณใกล้เคียง และชุดที่แตกต่างกันจะสัมพันธ์กันในบริเวณที่ห่างไกล
ขั้นตอนวิธี t-SNE โดยหลักแล้วประกอบด้วย 2 ขั้นตอน โดยขั้นแรก คือการสร้างการแจกแจงความน่าจะเป็นเพื่อให้คู่ของข้อมูลมิติสูงแต่ละคู่มีแนวโน้มที่จะเลือกกลุ่มที่คล้ายกัน ในขณะที่ชุดที่แตกต่างจะมีความน่าจะเป็นที่จะอยู่กลุ่มเดียวกันน้อย ขั้นตอนต่อมาคือ กำหนดการแจกแจงความน่าจะเป็นที่คล้ายกันสำหรับเซตบนแผนที่มิติต่ำ และค้นหาตำแหน่งของจุดในแผนที่มิติต่ำที่จะลดไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์ระหว่างการแจกแจงทั้งสองให้เหลือน้อยที่สุด ขั้นตอนวิธีดั้งเดิมใช้ระยะทางแบบยุคลิด เป็นการวัดความคล้ายคลึงกันระหว่างจุดสองจุด แต่จำเป็นต้องแก้ไขอย่างเหมาะสมตามความจำเป็น
t-SNE ถูกนำมาใช้เพื่อแสดงภาพในการใช้งานที่หลากหลาย รวมถึงการวิจัยด้านความมั่นคงคอมพิวเตอร์ การวิเคราะห์ดนตรี การวิจัยมะเร็งชีวสารสนเทศศาสตร์ และการประมวลผลสัญญาณทางชีวการแพทย์ นอกจากนี้ยังมักใช้เพื่อแสดงภาพตัวแทนระดับสูงที่เรียนรู้จากโครงข่ายประสาทเทียม
แม้ว่ามักจะมองเห็นกลุ่มก้อนได้ในแผนภาพ t-SNE แต่ก็จำเป็นต้องมีความเข้าใจที่ดีเกี่ยวกับพารามิเตอร์ t-SNE เนื่องจากกลุ่มก้อนที่มองเห็นอาจเปลี่ยนไปอย่างมากโดยขึ้นกับพารามิเตอร์ที่เลือก กลุ่มก้อนดังกล่าวยังสามารถปรากฏขึ้นมาได้จากข้อมูลที่ไม่ใช่กลุ่มก้อนจริง นั่นคืออาจทำให้ได้กลุ่มก้อนปลอม ดังนั้นจึงอาจจำเป็นต้องค้นหาซ้ำโดยเลือกพารามิเตอร์และตรวจสอบผลลัพธ์ใหม่ t-SNE มักจะสามารถกู้คืนกลุ่มก้อนที่แยกจากกันได้ดี ได้มีการสาธิตให้เห็นถึงรูปแบบที่เรียบง่ายของรูปร่างโดยการเลือกพารามิเตอร์พิเศษแล้ว
รายละเอียด
สมมุติว่ามีชุดข้อมูล ตัวที่แสดงค่าหลายมิติ วัตถุประสงค์ของเราคือแสดงชุดข้อมูลนี้ในรูปของ ที่มีจำนวนมิติต่ำกว่าที่สามารถสะท้อนให้เห็นถึงลักษณะความคล้ายคลึงกันของชุดข้อมูลมิติสูง
พารามิเตอร์สำหรับ t-SNE ได้แก่ ค่าความงุนงง (perplexity) ของพารามิเตอร์ฟังก์ชันการสูญเสียและจำนวนการคำนวณวนซ้ำ ของพารามิเตอร์การปรับให้เหมาะสม, อัตราการเรียนรู้ , โมเมนตัม ฟัน แดร์ มาเติน ได้อธิบายไว้ว่าสมรรถนะของ t-SNE ไม่ค่อยขึ้นกับค่าความงุนงง โดยค่าความงุนงงที่เหมาะสมที่สุดนั้นต่างกันไปขึ้นอยู่กับข้อมูลที่ใช้ แต่โดยทั่วไปจะอยู่ระหว่าง 5 ถึง 50
ขั้นแรก เราคำนวณความคล้ายคลึงกันของแต่ละคู่สำหรับชุดข้อมูลมิติสูง ฟัน แดร์ มาเติน และ ฮินตัน ได้อธิบายว่า "ถ้าเลือกจุดข้อมูล โดยอิงตาม ให้เป็นสัดส่วนกับการแจกแจงความหนาแน่นความน่าจะเป็นแบบปรกติที่มีใจกลางอยู่ที่ แล้ว ความคล้ายคลึงกันระหว่าง กับ จะแสดงได้เป็นความน่าจะเป็นมีเงื่อนไข "
โดยสำหรับจุดเดียวกันจะได้ว่า
คือค่าเบี่ยงเบนของการแจกแจงปรกติ ซึ่งอาจหาได้โดยวิธีแบ่งครึ่ง เป็นไปตามความสัมพันธ์ความงุนงงดังต่อไปนี้
ในที่นี้ คือเอนโทรปีของข้อมูล หากกระจุกกันอยู่อย่างหนาแน่นในพื้นที่แคบแล้ว จะเป็นค่าที่มีขนาดเล็ก
จากนั้น[ความน่าจะเป็นร่วม]] คำนวณได้โดยใช้สูตรต่อไปนี้
โดยในกรณี จะกลายเป็น 0 (นั่นคือ )
ให้ผลเฉลยตั้งต้น ได้จากการสุ่มตัวอย่างของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็น 0
สุดท้าย ให้ทำซ้ำ T ครั้ง หาผลเฉลย ในขั้นตอนต่อไปตั้งแต่ขั้น t=1 ถึง t=T
คำนวณความคล้ายคลึงมิติต่ำสำหรับ ซึ่งเป็ผลเฉลยที่ t-1
ความน่าจะเป็นร่วมโดยใช้ () โดยมีองศาเสรีเป็น 1
อย่างไรก็ตาม จะให้ค่าเป็น 0 สำหรับคู่ที่มีจุดเดียวกัน
ให้ไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์สำหรับการแจกแจง P ของ และการแจกแจง Q ของ เป็นฟังก์ชันเป้าหมาย แล้วหาผลเฉลย ที่ทำให้มีค่าต่ำที่สุด
คำนวณความชันของฟังก์ชันเป้าหมายสำหรับแต่ละ i
ความชันของฟังก์ชันเป้าหมายและคำนวณหาผลเฉลย ลำดับที่ t จากคำตอบก่อนหน้า
การแสดงผลเฉลย ด้วยภาพทำให้สามารถเข้าใจกลุ่มของชุดข้อมูลที่มีมิติสูงได้
ข้อเสีย
- ยังไม่ชัดเจนว่าจะดำเนินการลดมิติทั่วไปอย่างไร
- มีสมบัติที่ค่อนข้างเป็นเฉพาะที่ทำให้มีความอ่อนไหวต่อคำสาปของมิติข้อมูลโดยธรรมชาติ
- ฟังก์ชันเกาส์เซียนใช้ระยะทางแบบยุคลิด จึงได้รับผลจากคำสาปของมิติ และสูญเสียความสามารถในการแยกแยะข้อมูลตามระยะทางสำหรับมิติสูง จะกลายเป็นมีค่าเกือบเท่ากัน เพื่อบรรเทาปัญหานี้ จึงได้มีการเสนอวิธีการที่ระยะห่างจะถูกปรับโดยการแปลงกำลังตามขนาดเฉพาะของแต่ละจุด
- ไม่รับประกันว่าฟังก์ชันเป้าหมาย t จะลู่เข้าที่ค่าต่ำสุดวงกว้าง
- แม้ว่าจะมีพารามิเตอร์และขั้นตอนวิธีเหมือนกัน ก็อาจได้ผลเฉลยที่แตกต่างกัน
อ้างอิง
- Hinton, Geoffrey; Roweis, Sam (January 2002). Stochastic neighbor embedding (PDF). Neural Information Processing Systems.
- van der Maaten, L.J.P.; Hinton, G.E. (Nov 2008). "Visualizing Data Using t-SNE" (PDF). Journal of Machine Learning Research. 9: 2579–2605.
- Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). "An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines". Proceedings of the IEEE International Symposium on Network Computing and Applications: 4–11.
- Hamel, P.; Eck, D. (2010). "Learning Features from Music Audio with Deep Belief Networks". Proceedings of the International Society for Music Information Retrieval Conference: 339–344.
- Jamieson, A.R.; Giger, M.L.; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). "Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t-SNE". Medical Physics. 37 (1): 339–351. doi:10.1118/1.3267037. PMC 2807447. PMID 20175497.
- Wallach, I.; Liliean, R. (2009). "The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding". Bioinformatics. 25 (5): 615–620. doi:10.1093/bioinformatics/btp035. PMID 19153135.
- Birjandtalab, J.; Pouyan, M. B.; Nourani, M. (2016-02-01). Nonlinear dimension reduction for EEG-based epileptic seizure detection. 2016 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI). pp. 595–598. doi:10.1109/BHI.2016.7455968. ISBN .
- Visualizing Representations: Deep Learning and Human Beings Christopher Olah's blog, 2015
- "K-means clustering on the output of t-SNE". Cross Validated. สืบค้นเมื่อ 2019-04-06.
- Pezzotti, Nicola; Lelieveldt, Boudewijn P. F.; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (2017-07-01). "Approximated and User Steerable tSNE for Progressive Visual Analytics". IEEE Transactions on Visualization and Computer Graphics (ภาษาอังกฤษแบบอเมริกัน). 23 (7): 1739–1752. doi:10.1109/tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434.
- Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (2016-10-13). "How to Use t-SNE Effectively" (ภาษาอังกฤษ). Distill. สืบค้นเมื่อ 2019-04-06.
- Linderman, George C.; Steinerberger, Stefan (2017-06-08). "Clustering with t-SNE, provably". :1706.02582 [cs.LG].
- Schubert, Erich; Gertz, Michael (2017-10-04). Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection. SISAP 2017 – 10th International Conference on Similarity Search and Applications. pp. 188–203. doi:10.1007/978-3-319-68474-1_13.
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
karfngephuxnbanaebbefnsumaeckaecng t t distributed stochastic neighbor embedding t SNE epnwithikarthangsthitisahrbkaraesdngkhxmulmitisungdwykarkahndtaaehnngkhxmulaetlacudinaephnthisxngmitihruxsammiti odymiphunthancakkhntxnwithiephuxnbanaebbefnsumthiphthnakhunkhrngaerkodyecffriy hintn aela aesm oriws Sam Roweis aelwidrbkaresnxrupaebb ody elaerins fn aedr maetin Laurens van der Maaten aelahintn withiniepn sungehmaasahrbkarfngkhxmulmitisunglnginphunthimitita 2 miti hrux 3 miti sahrbkaraesdngihehnepnphaph odyechphaaxyangying emuxcderiyngchudkhxmulmitisungin 2 hrux 3 miti chudthikhlaykncasmphnthkbkhwamnacaepnsunginbriewniklekhiyng aelachudthiaetktangkncasmphnthkninbriewnthihangiklkarich t SNE sahrbkarfngkha ephuxihehnphaphkaraeckaecngkhxngkhachudkhxmul thithakarfngihxyuinsxngmitiodyich t SNE khntxnwithi t SNE odyhlkaelwprakxbdwy 2 khntxn odykhnaerk khuxkarsrangkaraeckaecngkhwamnacaepnephuxihkhukhxngkhxmulmitisungaetlakhumiaenwonmthicaeluxkklumthikhlaykn inkhnathichudthiaetktangcamikhwamnacaepnthicaxyuklumediywknnxy khntxntxmakhux kahndkaraeckaecngkhwamnacaepnthikhlayknsahrbestbnaephnthimitita aelakhnhataaehnngkhxngcudinaephnthimititathicaldidewxrecnskhlaebk ilbelxrrahwangkaraeckaecngthngsxngihehluxnxythisud khntxnwithidngedimichrayathangaebbyukhlid epnkarwdkhwamkhlaykhlungknrahwangcudsxngcud aetcaepntxngaekikhxyangehmaasmtamkhwamcaepn t SNE thuknamaichephuxaesdngphaphinkarichnganthihlakhlay rwmthungkarwicydankhwammnkhngkhxmphiwetxr karwiekhraahdntri karwicymaerngchiwsarsnethssastr aelakarpramwlphlsyyanthangchiwkaraephthy nxkcakniyngmkichephuxaesdngphaphtwaethnradbsungthieriynrucakokhrngkhayprasathethiym aemwamkcamxngehnklumkxnidinaephnphaph t SNE aetkcaepntxngmikhwamekhaicthidiekiywkbpharamietxr t SNE enuxngcakklumkxnthimxngehnxacepliynipxyangmakodykhunkbpharamietxrthieluxk klumkxndngklawyngsamarthpraktkhunmaidcakkhxmulthiimichklumkxncring nnkhuxxacthaihidklumkxnplxm dngnncungxaccaepntxngkhnhasaodyeluxkpharamietxraelatrwcsxbphllphthihm t SNE mkcasamarthkukhunklumkxnthiaeykcakkniddi idmikarsathitihehnthungrupaebbthieriybngaykhxngruprangodykareluxkpharamietxrphiessaelwraylaexiydsmmutiwamichudkhxmul N displaystyle N twthiaesdngkhahlaymiti x1 xN displaystyle mathbf x 1 dots mathbf x N wtthuprasngkhkhxngerakhuxaesdngchudkhxmulniinrupkhxng y1 yN displaystyle mathbf y 1 dots mathbf y N thimicanwnmititakwathisamarthsathxnihehnthunglksnakhwamkhlaykhlungknkhxngchudkhxmulmitisung pharamietxrsahrb t SNE idaek khakhwamngunngng perplexity khxngpharamietxrfngkchnkarsuyesiyaelacanwnkarkhanwnwnsa T displaystyle T khxngpharamietxrkarprbihehmaasm xtrakareriynru h displaystyle eta omemntm a t displaystyle alpha t fn aedr maetin idxthibayiwwasmrrthnakhxng t SNE imkhxykhunkbkhakhwamngunngng odykhakhwamngunngngthiehmaasmthisudnntangknipkhunxyukbkhxmulthiich aetodythwipcaxyurahwang 5 thung 50 khnaerk erakhanwnkhwamkhlaykhlungknkhxngaetlakhusahrbchudkhxmulmitisung fn aedr maetin aela hintn idxthibaywa thaeluxkcudkhxmul xj displaystyle x j odyxingtam xi displaystyle x i ihepnsdswnkbkaraeckaecngkhwamhnaaennkhwamnacaepnaebbprktithimiicklangxyuthi xi displaystyle x i aelw khwamkhlaykhlungknrahwang xj displaystyle x j kb xi displaystyle x i caaesdngidepnkhwamnacaepnmienguxnikh pj i displaystyle p j i pj i exp xi xj 2 2si2 k iexp xi xk 2 2si2 displaystyle p j mid i frac exp lVert mathbf x i mathbf x j rVert 2 2 sigma i 2 sum k neq i exp lVert mathbf x i mathbf x k rVert 2 2 sigma i 2 odysahrbcudediywkncaidwa pi i 0 displaystyle p i mid i 0 si displaystyle sigma i khuxkhaebiyngebnkhxngkaraeckaecngprkti sungxachaidodywithiaebngkhrung epniptamkhwamsmphnthkhwamngunngngdngtxipni Perp Pi 2H Pi displaystyle Perp P i 2 H P i H Pi jpj ilog2 pj i displaystyle H P i sum j p j mid i log 2 p j mid i inthini H Pi displaystyle H P i khuxexnothrpikhxngkhxmul hakkracukknxyuxyanghnaaenninphunthiaekhbaelw si displaystyle sigma i caepnkhathimikhnadelk caknn khwamnacaepnrwm pij displaystyle p ij khanwnidodyichsutrtxipni pij pj i pi j2N displaystyle p ij frac p j mid i p i mid j 2N odyinkrni i j displaystyle i j caklayepn 0 nnkhux pii 0 displaystyle p ii 0 ihphlechlytngtn Y 0 displaystyle Y 0 idcakkarsumtwxyangkhxngkaraeckaecngaebbekasesiynthimikhaechliyepn 0 sudthay ihthasa T khrng haphlechly Y T displaystyle Y T inkhntxntxiptngaetkhn t 1 thung t T khanwnkhwamkhlaykhlungmititasahrb Y t 1 displaystyle Y t 1 sungepphlechlythi t 1 khwamnacaepnrwmodyich odymixngsaesriepn 1 qij 1 yi yj 2 1 k l 1 yk yl 2 1 displaystyle q ij frac 1 lVert mathbf y i mathbf y j rVert 2 1 sum k neq l 1 lVert mathbf y k mathbf y l rVert 2 1 xyangirktam caihkhaepn 0 sahrbkhuthimicudediywkn qii 0 displaystyle q ii 0 ihidewxrecnskhlaebk ilbelxrsahrbkaraeckaecng P khxng pij displaystyle p ij aelakaraeckaecng Q khxng qij displaystyle q ij epnfngkchnepahmay aelwhaphlechly Y t displaystyle Y t thithaihmikhatathisud KL P Q i jpijlog pijqij displaystyle KL P Q sum i neq j p ij log frac p ij q ij khanwnkhwamchnkhxngfngkchnepahmaysahrbaetla i dCdyi 4 j pij qij yi yj 1 yi yj 2 1 displaystyle frac delta C delta y i 4 sum j p ij q ij y i y j 1 lVert y i y j rVert 2 1 khwamchnkhxngfngkchnepahmayaelakhanwnhaphlechly Y t displaystyle Y t ladbthi t cakkhatxbkxnhna Y t Y t 1 hdCdY a t Y t 1 Y t 2 displaystyle Y t Y t 1 eta frac delta C delta Y alpha t left Y t 1 Y t 2 right karaesdngphlechly Y T displaystyle Y T dwyphaphthaihsamarthekhaicklumkhxngchudkhxmulthimimitisungidkhxesiyyngimchdecnwacadaeninkarldmitithwipxyangir mismbtithikhxnkhangepnechphaathithaihmikhwamxxnihwtxkhasapkhxngmitikhxmulodythrrmchati fngkchnekasesiynichrayathangaebbyukhlid xi xj displaystyle lVert x i x j rVert cungidrbphlcakkhasapkhxngmiti aelasuyesiykhwamsamarthinkaraeykaeyakhxmultamrayathangsahrbmitisung pij displaystyle p ij caklayepnmikhaekuxbethakn ephuxbrrethapyhani cungidmikaresnxwithikarthirayahangcathukprbodykaraeplngkalngtamkhnadechphaakhxngaetlacud imrbpraknwafngkchnepahmay t caluekhathikhatasudwngkwang aemwacamipharamietxraelakhntxnwithiehmuxnkn kxacidphlechlythiaetktangknxangxingHinton Geoffrey Roweis Sam January 2002 Stochastic neighbor embedding PDF Neural Information Processing Systems van der Maaten L J P Hinton G E Nov 2008 Visualizing Data Using t SNE PDF Journal of Machine Learning Research 9 2579 2605 Gashi I Stankovic V Leita C Thonnard O 2009 An Experimental Study of Diversity with Off the shelf AntiVirus Engines Proceedings of the IEEE International Symposium on Network Computing and Applications 4 11 Hamel P Eck D 2010 Learning Features from Music Audio with Deep Belief Networks Proceedings of the International Society for Music Information Retrieval Conference 339 344 Jamieson A R Giger M L Drukker K Lui H Yuan Y Bhooshan N 2010 Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t SNE Medical Physics 37 1 339 351 doi 10 1118 1 3267037 PMC 2807447 PMID 20175497 Wallach I Liliean R 2009 The Protein Small Molecule Database A Non Redundant Structural Resource for the Analysis of Protein Ligand Binding Bioinformatics 25 5 615 620 doi 10 1093 bioinformatics btp035 PMID 19153135 Birjandtalab J Pouyan M B Nourani M 2016 02 01 Nonlinear dimension reduction for EEG based epileptic seizure detection 2016 IEEE EMBS International Conference on Biomedical and Health Informatics BHI pp 595 598 doi 10 1109 BHI 2016 7455968 ISBN 978 1 5090 2455 1 Visualizing Representations Deep Learning and Human Beings Christopher Olah s blog 2015 K means clustering on the output of t SNE Cross Validated subkhnemux 2019 04 06 Pezzotti Nicola Lelieveldt Boudewijn P F Maaten Laurens van der Hollt Thomas Eisemann Elmar Vilanova Anna 2017 07 01 Approximated and User Steerable tSNE for Progressive Visual Analytics IEEE Transactions on Visualization and Computer Graphics phasaxngkvsaebbxemrikn 23 7 1739 1752 doi 10 1109 tvcg 2016 2570755 ISSN 1077 2626 PMID 28113434 Wattenberg Martin Viegas Fernanda Johnson Ian 2016 10 13 How to Use t SNE Effectively phasaxngkvs Distill subkhnemux 2019 04 06 Linderman George C Steinerberger Stefan 2017 06 08 Clustering with t SNE provably 1706 02582 cs LG Schubert Erich Gertz Michael 2017 10 04 Intrinsic t Stochastic Neighbor Embedding for Visualization and Outlier Detection SISAP 2017 10th International Conference on Similarity Search and Applications pp 188 203 doi 10 1007 978 3 319 68474 1 13