การจับกลุ่มข้อมูล (อังกฤษ: data clustering) หรือ การวิเคราะห์คลัสเตอร์ (cluster analysis) เป็นวิธีการจัดกลุ่มข้อมูลที่มีลักษณะเหมือนกันไว้ในกลุ่มเดียวกัน (เรียกว่า คลัสเตอร์) เป็นส่วนหลักของการการทำเหมืองข้อมูล การรู้จำแบบ, ชีวสารสนเทศศาสตร์ การบีบอัดข้อมูล คอมพิวเตอร์กราฟิกส์ การเรียนรู้ของเครื่อง และใช้ในการวิเคราะห์ข้อมูลทางสถิติ
การวิเคราะห์คลัสเตอร์ในตัวเองไม่ใช่อัลกอริทึมแต่เป็นการทำงานร่วมกันของอัลกอริทึมที่หลากหลายเพื่อแก้ปัญหาในการทำงาน ขั้นตอนวิธีที่ใช้ในการจับกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยจะจับชุดข้อมูล (มักจะเป็นเวกเตอร์) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน การคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่าง ๆ เช่น การวัดระยะแบบยูคลิด (Euclidean distance) (Manhattan distance) (Chebychev distance)
การวิเคราะห์คลัสเตอร์เริ่มมีการกล่าวถึงครั้งแรกในปี พ.ศ. 2475 โดย ไดร์ฟเวอร์ และโครเบอร์ และมีการนำมาใช้งานในด้านจิตวิทยาในปี พ.ศ. 2481
การจับกลุ่มข้อมูลจะแตกต่างจากการจำแนกประเภทข้อมูล (classification) โดยจะจับกลุ่มข้อมูลจากความคล้าย โดยไม่มีการกำหนดประเภทของข้อมูลไว้ก่อน จึงกล่าวได้ว่าการจับกลุ่มข้อมูล เป็นการเรียนรู้แบบไม่มีผู้สอน ขั้นตอนวิธีการจับกลุ่ม ได้แก่ การจับกลุ่มข้อมูลแบบค่าเฉลี่ย k, , (som)
การจับกลุ่มข้อมูลอาจใช้เป็นข้อตอนเบื้องต้นของการวิเคราะห์ข้อมูล เพื่อช่วยในการลดขนาดข้อมูล (แยกเป็นหลาย ๆ กลุ่มและคัดเฉพาะบางกลุ่มเพื่อทำการวิเคราะห์ต่อไป หรือแยกการวิเคราะห์ออกเป็นสำหรับแต่ละกลุ่ม) ก่อนที่จะนำไปวิเคราะห์ด้วยวิธีการอื่นต่อไป ขั้นตอนวิธีในการจับกลุ่มข้อมูล โดยทั่วไปแบ่งได้เป็น 2 ประเภทใหญ่ ๆ คือ การแบ่งแบบเป็นลำดับขั้น (hierarchical) และ การแบ่งแบบตัดเป็นส่วน (partitional) การแบ่งแบบเป็นลำดับขั้นนั้น จะมีทำการจับกลุ่มจากกลุ่มย่อยที่ถูกแบ่งไว้ก่อนหน้านั้นซ้ำหลายครั้ง ส่วนการจับกลุ่มแบบตัดเป็นส่วนนั้น การแบ่งจะทำเพียงครั้งเดียว การจับกลุ่มแบบเป็นลำดับขั้น จะมี 2 ลักษณะคือ แบบล่างขึ้นบน (bottom-up) หรือ เป็นการแบ่งแบบรวมกลุ่มจากกลุ่มย่อยให้ใหญ่ขึ้นไปเรื่อย ๆ โดยเริ่มจากกลุ่มเล็กสุดคือในแต่ละกลุ่มมีข้อมูลเพียงตัวเดียว และ แบบบนลงล่าง (top-down) หรือ เป็นการแบ่งแบบกลุ่มจากกลุ่มใหญ่ให้ย่อยไปเรื่อย ๆ โดยเริ่มจากกลุ่มใหญ่ที่สุด คือกลุ่มเดียวมีข้อมูลทุกตัวอยู่ในกลุ่ม
อ้างอิง
- Driver, Harold E.; Kroeber, Alfred L. (1932). "Quantitative Expression of Cultural Relationships" (PDF). University of California Publications in American Archaeology and Ethnology. 31 (4): 211–256. เก็บ (PDF)จากแหล่งเดิมเมื่อ 9 กุมภาพันธ์ 2020. สืบค้นเมื่อ 15 พฤศจิกายน 2022 – โดยทาง UC Berkeley Library.
- Zubin, Joseph (1938). "A technique for measuring like-mindedness". The Journal of Abnormal and Social Psychology (ภาษาอังกฤษ). 33 (4): 508–516. doi:10.1037/h0055441. ISSN 0096-851X.
แหล่งข้อมูลอื่น
- วิกิมีเดียคอมมอนส์มีสื่อเกี่ยวกับ Cluster analysis
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
karcbklumkhxmul xngkvs data clustering hrux karwiekhraahkhlsetxr cluster analysis epnwithikarcdklumkhxmulthimilksnaehmuxnkniwinklumediywkn eriykwa khlsetxr epnswnhlkkhxngkarkarthaehmuxngkhxmul karrucaaebb chiwsarsnethssastr karbibxdkhxmul khxmphiwetxrkrafiks kareriynrukhxngekhruxng aelaichinkarwiekhraahkhxmulthangsthiti karwiekhraahkhlsetxrintwexngimichxlkxrithumaetepnkarthanganrwmknkhxngxlkxrithumthihlakhlayephuxaekpyhainkarthangan khntxnwithithiichinkarcbklumcaxasykhwamehmuxn similarity hrux khwamiklchid proximity odycacbchudkhxmul mkcaepnewketxr xxkepnklum cluster nakhxmulthimikhunlksnaehmuxnkn hruxkhlaykncdiwinklumediywkn karkhanwncakkarwdrayarahwangewketxrkhxngkhxmulekha odyichkarwdrayaaebbtang echn karwdrayaaebbyukhlid Euclidean distance Manhattan distance Chebychev distance phlkhxngkarcbklumkhxmul odysikhxngsiehliymaesdngkhxmul 3 klum karwiekhraahkhlsetxrerimmikarklawthungkhrngaerkinpi ph s 2475 ody idrfewxr aelaokhrebxr aelamikarnamaichnganindancitwithyainpi ph s 2481 karcbklumkhxmulcaaetktangcakkarcaaenkpraephthkhxmul classification odycacbklumkhxmulcakkhwamkhlay odyimmikarkahndpraephthkhxngkhxmuliwkxn cungklawidwakarcbklumkhxmul epnkareriynruaebbimmiphusxn khntxnwithikarcbklum idaek karcbklumkhxmulaebbkhaechliy k som karcbklumkhxmulxacichepnkhxtxnebuxngtnkhxngkarwiekhraahkhxmul ephuxchwyinkarldkhnadkhxmul aeykepnhlay klumaelakhdechphaabangklumephuxthakarwiekhraahtxip hruxaeykkarwiekhraahxxkepnsahrbaetlaklum kxnthicanaipwiekhraahdwywithikarxuntxip khntxnwithiinkarcbklumkhxmul odythwipaebngidepn 2 praephthihy khux karaebngaebbepnladbkhn hierarchical aela karaebngaebbtdepnswn partitional karaebngaebbepnladbkhnnn camithakarcbklumcakklumyxythithukaebngiwkxnhnannsahlaykhrng swnkarcbklumaebbtdepnswnnn karaebngcathaephiyngkhrngediyw karcbklumaebbepnladbkhn cami 2 lksnakhux aebblangkhunbn bottom up hrux epnkaraebngaebbrwmklumcakklumyxyihihykhuniperuxy odyerimcakklumelksudkhuxinaetlaklummikhxmulephiyngtwediyw aela aebbbnlnglang top down hrux epnkaraebngaebbklumcakklumihyihyxyiperuxy odyerimcakklumihythisud khuxklumediywmikhxmulthuktwxyuinklumxangxingDriver Harold E Kroeber Alfred L 1932 Quantitative Expression of Cultural Relationships PDF University of California Publications in American Archaeology and Ethnology 31 4 211 256 ekb PDF cakaehlngedimemux 9 kumphaphnth 2020 subkhnemux 15 phvscikayn 2022 odythang UC Berkeley Library Zubin Joseph 1938 A technique for measuring like mindedness The Journal of Abnormal and Social Psychology phasaxngkvs 33 4 508 516 doi 10 1037 h0055441 ISSN 0096 851X aehlngkhxmulxunwikimiediykhxmmxnsmisuxekiywkb Cluster analysis