บทความนี้ไม่มีจาก |
การทำเหมืองข้อความ (อังกฤษ: text mining) หรืออาจจะเรียกว่า "การค้นหาความรู้ในฐานข้อมูลเอกสาร" (Knowledge Discovery in Document Databases) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อความจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อความ คือ กระบวนการที่กระทำกับข้อความ (โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อความนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง หลักคณิตศาสตร์ หลักการประมวลเอกสาร (Document Processing) หลักการประมวลผลข้อความ (Text Processing) และหลักการประมวลผลภาษาธรรมชาติ (Natural Language Processing)
ความรู้ที่ได้จากการทำเหมืองข้อความ
- การสรุปเอกสารข้อความ (Document Summarization)
- เป็นการลดความซับซ้อนและขนาดของเอกสารข้อความโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป
- การแบ่งประเภทเอกสารข้อความ (Document classification)
- จัดแบ่งประเภทของกลุ่มเอกสารข้อความออกเป็นคลาส โดยการใช้ชุดข้อมูลตัวอย่างของเอกสารข้อความที่เรียกว่า Training Set สำหรับสร้าง Classifier Model และทดสอบ Classifier Model ด้วย Test Set ขั้นตอนวิธี ได้แก่ Supervised Learning Neural Networks, C4.5 Decision Tree
- การแบ่งกลุ่มเอกสารข้อความ (Document clustering)
- จัดแบ่งเอกสารข้อความออกเป็นกลุ่ม โดยใช้การวัดความคล้ายคลึงและความแตกต่างของคุณลักษณะของเอกสารข้อความ เพื่อนำไปใช้ประโยชน์ในด้านการข่าว ข้อมูลเอกสารจะถูกแปลงให้เป็นชุดข้อมูลตัวเลขโดยวิธีการ โดยอาศัยวิธีการแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ (อังกฤษ: Vector Space Model) และการให้น้ำหนักคำ (อังกฤษ: Term Weighting)จากนั้นถึงใช้ขั้นตอนวิธีการแบ่งกลุ่มข้อมูล ได้แก่ K-Mean, Unsupervised Learning Neural Networks, Hierarchical Clustering
ขั้นตอนการทำเหมืองข้อความ
- ทำความเข้าใจปัญหา
- ทำความเข้าใจข้อมูล
- เตรียมข้อมูล (Text Corpus: Training set, Test set)
- สร้างแบบจำลอง จากขั้นตอนวิธี
- ประเมิน
- นำไปใช้งาน
ดูเพิ่ม
- คลังข้อมูล (Data warehouse)
- การทำเหมืองข้อมูล (Data mining)
- การทำเหมืองเว็บ (Web mining)
- ฐานข้อมูล (Database)
แหล่งข้อมูลอื่น
- KDnuggets - a portal for Data Mining, Knowledge Discovery, Genomic Mining, Web Mining
- Data Mining whitepapers, webcasts and case studies
- Open Directory Project - Data Mining websites
- Knowledge Discovery from Large Database Research Group (KDL) 2006-06-19 ที่ เวย์แบ็กแมชชีน, มหาวิทยาลัยเกษตรศาสตร์
- Knowledge Information & Data Management Laboratory (KIND) 2006-06-10 ที่ เวย์แบ็กแมชชีน, สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์
- Data Mining & Data Exploration Laboratory (DME) 2005-02-06 ที่ เวย์แบ็กแมชชีน, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง
- เทคนิคการจำแนกประเภทเอกสาร (Document Classification) (ไทย)
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
bthkhwamniimmikarxangxingcakaehlngthimaidkrunachwyprbprungbthkhwamni odyephimkarxangxingaehlngthimathinaechuxthux enuxkhwamthiimmiaehlngthimaxacthukkhdkhanhruxlbxxk eriynruwacanasaraemaebbnixxkidxyangiraelaemuxir karthaehmuxngkhxkhwam xngkvs text mining hruxxaccaeriykwa karkhnhakhwamruinthankhxmulexksar Knowledge Discovery in Document Databases epnethkhnikhephuxkhnharupaebb pattern khxngcakkhxkhwamcanwnmhasalodyxtonmti odyichkhntxnwithicakwichasthiti kareriynrukhxngekhruxng aela karrucaaebb hruxinxikniyamhnung karthaehmuxngkhxkhwam khux krabwnkarthikrathakbkhxkhwam odyswnihycamicanwnmak ephuxkhnharupaebb aenwthang aelakhwamsmphnththisxnxyuinchudkhxkhwamnn odyxasyhlksthiti karruca kareriynrukhxngekhruxng hlkkhnitsastr hlkkarpramwlexksar Document Processing hlkkarpramwlphlkhxkhwam Text Processing aelahlkkarpramwlphlphasathrrmchati Natural Language Processing khwamruthiidcakkarthaehmuxngkhxkhwamkarsrupexksarkhxkhwam Document Summarization epnkarldkhwamsbsxnaelakhnadkhxngexksarkhxkhwamodyimthaihkhwamhmayhruxsarasakhykhxngkhxmulexksarsuyesiyipkaraebngpraephthexksarkhxkhwam Document classification cdaebngpraephthkhxngklumexksarkhxkhwamxxkepnkhlas odykarichchudkhxmultwxyangkhxngexksarkhxkhwamthieriykwa Training Set sahrbsrang Classifier Model aelathdsxb Classifier Model dwy Test Set khntxnwithi idaek Supervised Learning Neural Networks C4 5 Decision Treekaraebngklumexksarkhxkhwam Document clustering cdaebngexksarkhxkhwamxxkepnklum odyichkarwdkhwamkhlaykhlungaelakhwamaetktangkhxngkhunlksnakhxngexksarkhxkhwam ephuxnaipichpraoychnindankarkhaw khxmulexksarcathukaeplngihepnchudkhxmultwelkhodywithikar odyxasywithikaraethnexksardwyaebbcalxngewketxrseps xngkvs Vector Space Model aelakarihnahnkkha xngkvs Term Weighting caknnthungichkhntxnwithikaraebngklumkhxmul idaek K Mean Unsupervised Learning Neural Networks Hierarchical Clusteringkhntxnkarthaehmuxngkhxkhwamthakhwamekhaicpyha thakhwamekhaickhxmul etriymkhxmul Text Corpus Training set Test set srangaebbcalxng cakkhntxnwithi praemin naipichnganduephimkhlngkhxmul Data warehouse karthaehmuxngkhxmul Data mining karthaehmuxngewb Web mining thankhxmul Database aehlngkhxmulxunKDnuggets a portal for Data Mining Knowledge Discovery Genomic Mining Web Mining Data Mining whitepapers webcasts and case studies Open Directory Project Data Mining websites Knowledge Discovery from Large Database Research Group KDL 2006 06 19 thi ewyaebkaemchchin mhawithyalyekstrsastr Knowledge Information amp Data Management Laboratory KIND 2006 06 10 thi ewyaebkaemchchin sthabnethkhonolyinanachatisirinthr mhawithyalythrrmsastr Data Mining amp Data Exploration Laboratory DME 2005 02 06 thi ewyaebkaemchchin sthabnethkhonolyiphracxmeklaecakhunthharladkrabng ethkhnikhkarcaaenkpraephthexksar Document Classification ithy