บทความนี้ไม่มีจาก |
การรู้จำคำพูด ใช้หลักของการออกเสียงเข้ามาเกี่ยวข้อง โดยการรู้จำของระบบคอมพิวเตอร์นั้นจะต้องใช้ศาสตร์ทางด้านปัญญาประดิษฐ์โดยวิธีการเรียนรู้ของระบบคอมพิวเตอร์จะจำเอารูปแบบเสียง ๆ นั้น มาสร้างเป็นฟังก์ชันที่จะใช้ในการคำนวณของระบบคอมพิวเตอร์เมื่อได้รับเสียงเข้ามาก็จะเอาเสียงไปเทียบกับฟังก์ชันที่ได้สร้างขึ้น
เทคโนโลยีรู้จำเสียงพูด (Automatic Speech Recognition: ASR)
เป็นสาขาย่อยของ วิชาภาษาศาสตร์คอมพิวเตอร์ที่พัฒนาวิธีการและเทคโนโลยีที่ช่วยให้การรับรู้และการแปลภาษาพูดเป็นข้อความโดยคอมพิวเตอร์ ซอฟต์แวร์รู้จำเสียงพูดขั้นพื้นฐานมีคำศัพท์ที่จำกัด องคำและวลีและอาจระบุสิ่งที่พูดอย่างชัดเจน ซึ่งประเภทของระบบรู้จำเสียงพูดสามารถแบ่งได้ เป็น 3ประเภท ดังนี้
1.เทคโนโลยีรู้จำเสียงพูดแบบคำโดด (Isolated speech) คือระบบที่รู้จำคำสั้นๆเพียงไม่กี่คำสั่ง เพื่อให้ระบบบสามารถตอบโต้ได้อย่างรวดเร็ว
2.เทคโนโลยีรู้จำเสียงพูดแบบต่อเนื่อง (Continuous speech) คือระบบรู้จำคำจากเสียงอย่างต่อเนื่อง แล้วทำการพิจารณาตัดเสียงพูด
3.เทคโนโลยีรู้จำที่จำเสียงเพียงบ้างส่วน (Spontaneous speech) คือระบบที่จดจำเสียงที่ตรวจหาคำสำคัญเพียงคำเดียวในประโยคเพื่อหาใจความสำคัญ
Speech Recognition คือระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ และเข้าใจคำศัพท์ทุกคำอย่างถูกต้องเกือบ 100% โดยเป็นอิสระจากขนาดของกลุ่มคำศัพท์ ความดังของเสียงและลักษณะการออกเสียงของผู้พูด โดยระบบจะรับฟังเสียงพูดและตัดสินใจว่าเสียงที่ได้ยินนั้นเป็นคำๆใด เทคโนโลยีที่เป็นส่วนสำคัญในการทำ ASR เรียกว่า Hidden Markov Model (HMM) เทคโนโลยีชนิดนี้สามารถที่จะเข้าใจคำพูด จากการจำแนกความแตกต่างและการประมาณการถึงความเป็นไปได้ของส่วนประกอบของหน่วยที่เป็นพื้นฐานของเสียงที่อยู่ติดๆกัน โดยอาศัยหลักการที่ว่าเสียงแต่ละเสียงจะมีขอบเขตของสัญญาณและลักษณะเฉพาะที่มีความแตกต่างกัน
โดยระบบรู้จำเสียงพูด มีส่วนประกอบหลัก 5 ส่วนคือ
1) ส่วนรับเสียง (Acoustic Front-end) เป็นส่วนที่ทำหน้าที่เกี่ยวกับการประมวลผลสัญญาณ (signal processing) และสกัดคุณลักษณะ (feature extraction)
2) โมเดลเสียง (Acoustic Model) เป็นส่วนที่จัดเก็บความรู้สำหรับระบบรู้จำเสียงพูด
3) โมเดลภาษา (Language Model) เป็นส่วนที่รวบรวมเงื่อนไขของลำดับคำในภาษา
4) ตัวตรวจจับ (Decoder) เป็นส่วนที่ค้นหาความคล้ายของลำดับคำจากเสียงที่ได้รับ
5) คลังศัพท์ (Lexicon) เป็นส่วนที่จัดเก็บคำศัพท์ทั้งหมด
บทบาทของเทคโนโลยีการรู้จำเสียงพูดที่สำคัญในปัจจุบัน คือ เป็นตัวเชื่อมประสานกับผู้ใช้งาน (User Interface) ซึ่งอำนวยความสะดวกในการติดต่อระหว่างมนุษย์กับคอมพิวเตอร์ ขณะที่มือไม่ว่าง ต้องการความคล่องตัว สายตาไม่ว่าง ไม่ต้องการใช้คีย์บอร์ด ทัศนวิสัยไม่ดี มีข้อจำกัดด้านร่างกาย ฯลฯ
ทั้งนี้ความท้าทายและทิศทางการพัฒนาเทคโนโลยีดังกล่าว มีดังต่อไปนี้
1) ความทนทาน (Robustness) เพื่อให้ได้ความถูกต้องของการรู้จำที่ไม่ลดลง เมื่อข้อมูลที่ส่งมาเกิดความผิดเพี้ยนหรือหายไปเนื่องจากสิ่งรบกวนต่างๆ
2) การเรียนรู้และปรับปรุงตัวเองโดยอัตโนมัติ (Automatic Training and Adaptation) เพื่อให้ระบบสามารถเรียนรู้และปรับปรุงตัวเองให้เข้ากับการทำงานในลักษณะต่างๆ ได้อย่างรวดเร็ว ประหยัด และเรียบง่าย
3) การรู้จำเสียงพูดที่เป็นธรรมชาติ (Spontaneous Speech) เพื่อให้ระบบสามารถรู้จำสำเนียงการพูด (Prosody) จังหวะการพูด อารมณ์ และพฤติกรรมการพูดรูปแบบแบบต่างๆ
4) การสนทนา (Dialogue Models) เพื่อให้ระบบสามารถเข้าใจบทสนทนาของผู้ใช้
5) การสร้างภาษาโต้ตอบ (Natural Language Response Generation) เพื่อให้ระบบ สามารถสร้างภาษาโต้ตอบกับผู้ใช้ โดยภาษาที่สร้างขึ้นต้องสอดคล้องและเหมาะสมกับเรื่องที่กำลังสนทนา
6) การสังเคราะห์และสร้างเสียงพูด (Speech Synthesis and Generation) เพื่อให้ระบบสามารถสังเคราะห์เสียงพูดและสนทนาโต้ตอบกับผู้ใช้
7) ร ะบบหลายภาษา (Multilingual Systems) เพื่อการเข้าถึงข้อมูลข้ามภาษาและการแปลภาษาแบบทันกาลจากเสียงพูด
8) ระบบแบบผสมผสาน (Multimodal Systems) เป็นการนำข้อมูลด้านอื่นที่นอกเหนือจากข้อมูลทางภาษาและเสียงพูด เช่น สีหน้า ฝีปาก ท่าทาง และลายมือ เข้ามาใช้เพื่อเพิ่มความถูกต้องของการรู้จำและความเข้าใจในภาษา
ตัวอย่าง รถเข็นคนพิการควบคุมด้วยระบบรู้จำเสียงพูด
ระบบรู้จำเสียงพูด (Speech Recognition) ใช้ในการควบคุมรถเข็นคนพิการให้เคลื่อนที่ไปในทิศทางต่างๆ โดยกำหนดด้วยคำสั่ง 9 คำสั่ง ประกอบด้วยคำว่า เดินหน้า ถอยหลัง เลี้ยวซ้าย เลี้ยวขวา กึ่งซ้าย กึ่งขวา เร็วขึ้น ช้าลง และหยุด ซึ่งจะเป็นคำสั่งที่ใช้เป็นสัญญาณอินพุตเข้าสู่ระบบ และระบบก็จะประมวลผลตัดสินใจและส่งค่าเอาท์พุต ออกไปควบคุมมอเตอร์เพื่อเคลื่อนรถเข็นคนพิการในทิศทางที่สั่ง
องค์ประกอบหลักๆ ของระบบรู้จำเสียงพูดแบ่งได้เป็น 3 ขั้นตอนดังนี้
1.การเตรียมสัญญาณขั้นต้น (Preprocessing)
เป็นขั้นตอนที่จะทำให้สัญญาณเสียงที่จะนำไปใช้ หรือรับเข้ามานั้น มีความสมบูรณ์มากที่สุด โดยจะทำการกำจัดสัญญาณรบกวน (Noise) และตัดส่วนที่ไม่ใช่สัญญาณเสียง (Unvoice) ออกซึ่งจะเหลือแต่เพียง ช่วงที่เป็นข้อมูลเสียง
2. การหาลักษณะสำคัญของเสียง (Feature Extraction)
เป็นขั้นตอนที่ใช้สำหรับหาองค์ประกอบสำคัญต่างๆ ของเสียงแต่ละเสียงที่รับเข้ามา ให้รู้ว่าคำแต่ละคำนั้นมีลักษณะเด่นอย่างไร
3. การรู้จำเสียงพูด (Speech Recognition)
เป็นขั้นตอนที่ให้ระบบทำการเรียนรู้โดยการนำสัญญาณเสียงเข้าสู่ระบบโครงข่ายประสาทเทียม (Neural Network System) เพื่อระบบจะทำการตัดสินใจ และให้ผลลัพธ์ตามสัญญาณเสียงที่แตกต่างกันได้ถูกต้อง
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
bthkhwamniimmikarxangxingcakaehlngthimaidkrunachwyprbprungbthkhwamni odyephimkarxangxingaehlngthimathinaechuxthux enuxkhwamthiimmiaehlngthimaxacthukkhdkhanhruxlbxxk eriynruwacanasaraemaebbnixxkidxyangiraelaemuxir karrucakhaphud ichhlkkhxngkarxxkesiyngekhamaekiywkhxng odykarrucakhxngrabbkhxmphiwetxrnncatxngichsastrthangdanpyyapradisthodywithikareriynrukhxngrabbkhxmphiwetxrcacaexarupaebbesiyng nn masrangepnfngkchnthicaichinkarkhanwnkhxngrabbkhxmphiwetxremuxidrbesiyngekhamakcaexaesiyngipethiybkbfngkchnthiidsrangkhun bthkhwamethkhonolyi hrux singpradisthniyngepnokhrng khunsamarthchwywikiphiediyidodykarephimetimkhxmuldk ethkhonolyirucaesiyngphud Automatic Speech Recognition ASR epnsakhayxykhxng wichaphasasastrkhxmphiwetxrthiphthnawithikaraelaethkhonolyithichwyihkarrbruaelakaraeplphasaphudepnkhxkhwamodykhxmphiwetxr sxftaewrrucaesiyngphudkhnphunthanmikhasphththicakd xngkhaaelawliaelaxacrabusingthiphudxyangchdecn sungpraephthkhxngrabbrucaesiyngphudsamarthaebngid epn 3praephth dngni 1 ethkhonolyirucaesiyngphudaebbkhaodd Isolated speech khuxrabbthirucakhasnephiyngimkikhasng ephuxihrabbbsamarthtxbotidxyangrwderw 2 ethkhonolyirucaesiyngphudaebbtxenuxng Continuous speech khuxrabbrucakhacakesiyngxyangtxenuxng aelwthakarphicarnatdesiyngphud 3 ethkhonolyirucathicaesiyngephiyngbangswn Spontaneous speech khuxrabbthicdcaesiyngthitrwchakhasakhyephiyngkhaediywinpraoykhephuxhaickhwamsakhy Speech Recognition khuxrabbopraekrmkhxmphiwetxrthisamarthaeplngesiyngphud Audio File epnkhxkhwamtwxksr Text odysamarthaeckaecngkhaphudtang thimnusysamarthphudisimokhrofn othrsphthhruxxupkrnxun aelaekhaickhasphththukkhaxyangthuktxngekuxb 100 odyepnxisracakkhnadkhxngklumkhasphth khwamdngkhxngesiyngaelalksnakarxxkesiyngkhxngphuphud odyrabbcarbfngesiyngphudaelatdsinicwaesiyngthiidyinnnepnkhaid ethkhonolyithiepnswnsakhyinkartha ASR eriykwa Hidden Markov Model HMM ethkhonolyichnidnisamarththicaekhaickhaphud cakkarcaaenkkhwamaetktangaelakarpramankarthungkhwamepnipidkhxngswnprakxbkhxnghnwythiepnphunthankhxngesiyngthixyutidkn odyxasyhlkkarthiwaesiyngaetlaesiyngcamikhxbekhtkhxngsyyanaelalksnaechphaathimikhwamaetktangkn odyrabbrucaesiyngphud miswnprakxbhlk 5 swnkhux 1 swnrbesiyng Acoustic Front end epnswnthithahnathiekiywkbkarpramwlphlsyyan signal processing aelaskdkhunlksna feature extraction 2 omedlesiyng Acoustic Model epnswnthicdekbkhwamrusahrbrabbrucaesiyngphud 3 omedlphasa Language Model epnswnthirwbrwmenguxnikhkhxngladbkhainphasa 4 twtrwccb Decoder epnswnthikhnhakhwamkhlaykhxngladbkhacakesiyngthiidrb 5 khlngsphth Lexicon epnswnthicdekbkhasphththnghmd bthbathkhxngethkhonolyikarrucaesiyngphudthisakhyinpccubn khux epntwechuxmprasankbphuichngan User Interface sungxanwykhwamsadwkinkartidtxrahwangmnusykbkhxmphiwetxr khnathimuximwang txngkarkhwamkhlxngtw saytaimwang imtxngkarichkhiybxrd thsnwisyimdi mikhxcakddanrangkay l thngnikhwamthathayaelathisthangkarphthnaethkhonolyidngklaw midngtxipni 1 khwamthnthan Robustness ephuxihidkhwamthuktxngkhxngkarrucathiimldlng emuxkhxmulthisngmaekidkhwamphidephiynhruxhayipenuxngcaksingrbkwntang 2 kareriynruaelaprbprungtwexngodyxtonmti Automatic Training and Adaptation ephuxihrabbsamartheriynruaelaprbprungtwexngihekhakbkarthanganinlksnatang idxyangrwderw prahyd aelaeriybngay 3 karrucaesiyngphudthiepnthrrmchati Spontaneous Speech ephuxihrabbsamarthrucasaeniyngkarphud Prosody cnghwakarphud xarmn aelaphvtikrrmkarphudrupaebbaebbtang 4 karsnthna Dialogue Models ephuxihrabbsamarthekhaicbthsnthnakhxngphuich 5 karsrangphasaottxb Natural Language Response Generation ephuxihrabb samarthsrangphasaottxbkbphuich odyphasathisrangkhuntxngsxdkhlxngaelaehmaasmkberuxngthikalngsnthna 6 karsngekhraahaelasrangesiyngphud Speech Synthesis and Generation ephuxihrabbsamarthsngekhraahesiyngphudaelasnthnaottxbkbphuich 7 r abbhlayphasa Multilingual Systems ephuxkarekhathungkhxmulkhamphasaaelakaraeplphasaaebbthnkalcakesiyngphud 8 rabbaebbphsmphsan Multimodal Systems epnkarnakhxmuldanxunthinxkehnuxcakkhxmulthangphasaaelaesiyngphud echn sihna fipak thathang aelalaymux ekhamaichephuxephimkhwamthuktxngkhxngkarrucaaelakhwamekhaicinphasa twxyang rthekhnkhnphikarkhwbkhumdwyrabbrucaesiyngphud rabbrucaesiyngphud Speech Recognition ichinkarkhwbkhumrthekhnkhnphikarihekhluxnthiipinthisthangtang odykahnddwykhasng 9 khasng prakxbdwykhawa edinhna thxyhlng eliywsay eliywkhwa kungsay kungkhwa erwkhun chalng aelahyud sungcaepnkhasngthiichepnsyyanxinphutekhasurabb aelarabbkcapramwlphltdsinicaelasngkhaexathphut xxkipkhwbkhummxetxrephuxekhluxnrthekhnkhnphikarinthisthangthisng xngkhprakxbhlk khxngrabbrucaesiyngphudaebngidepn 3 khntxndngni 1 karetriymsyyankhntn Preprocessing epnkhntxnthicathaihsyyanesiyngthicanaipich hruxrbekhamann mikhwamsmburnmakthisud odycathakarkacdsyyanrbkwn Noise aelatdswnthiimichsyyanesiyng Unvoice xxksungcaehluxaetephiyng chwngthiepnkhxmulesiyng 2 karhalksnasakhykhxngesiyng Feature Extraction epnkhntxnthiichsahrbhaxngkhprakxbsakhytang khxngesiyngaetlaesiyngthirbekhama ihruwakhaaetlakhannmilksnaednxyangir 3 karrucaesiyngphud Speech Recognition epnkhntxnthiihrabbthakareriynruodykarnasyyanesiyngekhasurabbokhrngkhayprasathethiym Neural Network System ephuxrabbcathakartdsinic aelaihphllphthtamsyyanesiyngthiaetktangknidthuktxng