การแบ่งกลุ่มข้อมูล (อังกฤษ: data clustering) หรือ การวิเคราะห์คลัสเตอร์ (cluster analysis) เป็นวิธีการจัดกลุ่มข้อมูลที่มีลักษณะเหมือนกันไว้ในกลุ่มเดียวกัน (เรียกว่า คลัสเตอร์) เป็นส่วนหลักของการการทำเหมืองข้อมูล การรู้จำแบบ, ชีวสารสนเทศศาสตร์ การบีบอัดข้อมูล คอมพิวเตอร์กราฟิกส์ การเรียนรู้ของเครื่อง และใช้ในการวิเคราะห์ข้อมูลทางสถิติ
การวิเคราะห์คลัสเตอร์ในตัวเองไม่ใช่อัลกอริทึมแต่เป็นการทำงานร่วมกันของอัลกอริทึมที่หลากหลายเพื่อแก้ปัญหาในการทำงาน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยจะแบ่งชุดข้อมูล (มักจะเป็นเวกเตอร์) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน การคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่าง ๆ เช่น การวัดระยะแบบยูคลิด (Euclidean distance) (Manhattan distance) (Chebychev distance)
การวิเคราะห์คลัสเตอร์เริ่มมีการกล่าวถึงครั้งแรกในปี พ.ศ. 2475 โดย ไดร์ฟเวอร์ และโครเบอร์ และมีการนำมาใช้งานในด้านจิตวิทยาในปี พ.ศ. 2481
การแบ่งกลุ่มข้อมูลจะแตกต่างจากการแบ่งประเภทข้อมูล (classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มีการกำหนดประเภทของข้อมูลไว้ก่อน จึงกล่าวได้ว่าการแบ่งกลุ่มข้อมูล เป็นการเรียนรู้แบบไม่มีผู้สอน ขั้นตอนวิธีการแบ่งกลุ่ม ได้แก่ k-means clustering, , (som)
การแบ่งกลุ่มข้อมูลอาจใช้เป็นข้อตอนเบื้องต้นของการวิเคราะห์ข้อมูล เพื่อช่วยในการลดขนาดข้อมูล (แยกเป็นหลาย ๆ กลุ่มและคัดเฉพาะบางกลุ่มเพื่อทำการวิเคราะห์ต่อไป หรือแยกการวิเคราะห์ออกเป็นสำหรับแต่ละกลุ่ม) ก่อนที่จะนำไปวิเคราะห์ด้วยวิธีการอื่นต่อไป ขั้นตอนวิธีในการแบ่งกลุ่มข้อมูล โดยทั่วไปแบ่งได้เป็น 2 ประเภทใหญ่ ๆ คือ การแบ่งแบบเป็นลำดับขั้น (hierarchical) และ การแบ่งแบบตัดเป็นส่วน (partitional) การแบ่งแบบเป็นลำดับขั้นนั้น จะมีทำการแบ่งกลุ่มจากกลุ่มย่อยที่ถูกแบ่งไว้ก่อนหน้านั้นซ้ำหลายครั้ง ส่วนการแบ่งแบบตัดเป็นส่วนนั้น การแบ่งจะทำเพียงครั้งเดียว การแบ่งแบบเป็นลำดับขั้น จะมี 2 ลักษณะคือ แบบล่างขึ้นบน (bottom-up) หรือ เป็นการแบ่งแบบรวมกลุ่มจากกลุ่มย่อยให้ใหญ่ขึ้นไปเรื่อย ๆ โดยเริ่มจากกลุ่มเล็กสุดคือในแต่ละกลุ่มมีข้อมูลเพียงตัวเดียว และ แบบบนลงล่าง (top-down) หรือ เป็นการแบ่งแบบกลุ่มจากกลุ่มใหญ่ให้ย่อยไปเรื่อย ๆ โดยเริ่มจากกลุ่มใหญ่ที่สุด คือกลุ่มเดียวมีข้อมูลทุกตัวอยู่ในกลุ่ม
อ้างอิง
- Driver, Harold E.; Kroeber, Alfred L. (1932). "Quantitative Expression of Cultural Relationships" (PDF). University of California Publications in American Archaeology and Ethnology. 31 (4): 211–256. (PDF)จากแหล่งเดิมเมื่อ 9 กุมภาพันธ์ 2020. สืบค้นเมื่อ 15 พฤศจิกายน 2022 – โดยทาง UC Berkeley Library.
- Zubin, Joseph (1938). "A technique for measuring like-mindedness". The Journal of Abnormal and Social Psychology (ภาษาอังกฤษ). 33 (4): 508–516. doi:10.1037/h0055441. ISSN 0096-851X.
แหล่งข้อมูลอื่น
- วิกิมีเดียคอมมอนส์มีสื่อเกี่ยวกับ Cluster analysis
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
karaebngklumkhxmul xngkvs data clustering hrux karwiekhraahkhlsetxr cluster analysis epnwithikarcdklumkhxmulthimilksnaehmuxnkniwinklumediywkn eriykwa khlsetxr epnswnhlkkhxngkarkarthaehmuxngkhxmul karrucaaebb chiwsarsnethssastr karbibxdkhxmul khxmphiwetxrkrafiks kareriynrukhxngekhruxng aelaichinkarwiekhraahkhxmulthangsthiti karwiekhraahkhlsetxrintwexngimichxlkxrithumaetepnkarthanganrwmknkhxngxlkxrithumthihlakhlayephuxaekpyhainkarthangan khntxnwithithiichinkaraebngklumcaxasykhwamehmuxn similarity hrux khwamiklchid proximity odycaaebngchudkhxmul mkcaepnewketxr xxkepnklum cluster nakhxmulthimikhunlksnaehmuxnkn hruxkhlaykncdiwinklumediywkn karkhanwncakkarwdrayarahwangewketxrkhxngkhxmulekha odyichkarwdrayaaebbtang echn karwdrayaaebbyukhlid Euclidean distance Manhattan distance Chebychev distance phlkhxngkaraebngklumkhxmul odysikhxngsiehliymaesdngkhxmul 3 klum karwiekhraahkhlsetxrerimmikarklawthungkhrngaerkinpi ph s 2475 ody idrfewxr aelaokhrebxr aelamikarnamaichnganindancitwithyainpi ph s 2481 karaebngklumkhxmulcaaetktangcakkaraebngpraephthkhxmul classification odycaaebngklumkhxmulcakkhwamkhlay odyimmikarkahndpraephthkhxngkhxmuliwkxn cungklawidwakaraebngklumkhxmul epnkareriynruaebbimmiphusxn khntxnwithikaraebngklum idaek k means clustering som karaebngklumkhxmulxacichepnkhxtxnebuxngtnkhxngkarwiekhraahkhxmul ephuxchwyinkarldkhnadkhxmul aeykepnhlay klumaelakhdechphaabangklumephuxthakarwiekhraahtxip hruxaeykkarwiekhraahxxkepnsahrbaetlaklum kxnthicanaipwiekhraahdwywithikarxuntxip khntxnwithiinkaraebngklumkhxmul odythwipaebngidepn 2 praephthihy khux karaebngaebbepnladbkhn hierarchical aela karaebngaebbtdepnswn partitional karaebngaebbepnladbkhnnn camithakaraebngklumcakklumyxythithukaebngiwkxnhnannsahlaykhrng swnkaraebngaebbtdepnswnnn karaebngcathaephiyngkhrngediyw karaebngaebbepnladbkhn cami 2 lksnakhux aebblangkhunbn bottom up hrux epnkaraebngaebbrwmklumcakklumyxyihihykhuniperuxy odyerimcakklumelksudkhuxinaetlaklummikhxmulephiyngtwediyw aela aebbbnlnglang top down hrux epnkaraebngaebbklumcakklumihyihyxyiperuxy odyerimcakklumihythisud khuxklumediywmikhxmulthuktwxyuinklumxangxingDriver Harold E Kroeber Alfred L 1932 Quantitative Expression of Cultural Relationships PDF University of California Publications in American Archaeology and Ethnology 31 4 211 256 PDF cakaehlngedimemux 9 kumphaphnth 2020 subkhnemux 15 phvscikayn 2022 odythang UC Berkeley Library Zubin Joseph 1938 A technique for measuring like mindedness The Journal of Abnormal and Social Psychology phasaxngkvs 33 4 508 516 doi 10 1037 h0055441 ISSN 0096 851X aehlngkhxmulxunwikimiediykhxmmxnsmisuxekiywkb Cluster analysis