Partii: Thai Speech Recognition Platform
คำบรรยายผลงานโดยย่อ
แพลตฟอร์มที่สามารถแปลงเสียงพูดเป็นข้อความ ซึ่งได้ออกแบบสำหรับรองรับการใช้งานที่มีความหลากหลาย เพื่อเป็นแพลตฟอร์มในการนำไปประยุกต์ใช้ตามความต้องการ เช่น การทำบทบรรยายแทนเสียงในการรายการข่าวสด การถอดความเสียงพูดสำหรับทำบันทึกการประชุม การถอดความเสียงการสนทนาทางโทรศัพท์ รวมถึงการควบคุมอุปกรณ์ต่าง ๆ ด้วยเสียงพูด
ที่มาของงานวิจัย
แพลตฟอร์มพาทีพัฒนาขึ้นจากความต้องการเทคโนโลยีการรู้จำเสียงพูดภาษาไทยที่มีความแม่นยำสูง ปรับแต่งได้ และสามารถรองรับความหลากหลายของสำเนียงและบริบทของภาษาไทย NECTEC จึงได้ริเริ่มงานวิจัยเพื่อพัฒนา “พาที: แพลตฟอร์มระบบรู้จำเสียงพูดภาษาไทย” ตั้งแต่ปี 2543 ขึ้นมาโดยอาศัย โมเดลปัญญาประดิษฐ์ (AI) และ เทคนิคการเรียนรู้เชิงลึก (Deep Learning) บนชุดข้อมูลเสียงภาษาไทยขนาดใหญ่ที่พัฒนาโดยทีมวิจัย เพื่อให้ระบบสามารถรู้จำเสียงพูดภาษาไทยได้อย่างมีประสิทธิภาพ

จุดเด่น/ประโยชน์ของเทคโนโลยี
- สามารถรู้จำเสียงพูดแบบไม่จำกัดผู้พูด และเนื้อหา
- ครอบคลุมคำศัพท์ทั่วไปไม่ต่ำกว่า ๑๔๐,๐๐๐ คำ
- ความถูกต้องแม่นยำประมาณร้อยละ ๘๐
- ความเร็วในการตอบสนอง ๑.๐๕ เท่าของความยาวของเสียงอินพุต หรือรอไม่เกิน ๓ วินาทีหลังส่งสัญญาณเสร็จ
- สามารถกำหนดจำนวนหน่วยประมวลผลการถอดความย่อยของแต่ละเครื่องได้
- สามารถเพิ่มความถูกต้อง ในเนื้อหา และสภาพแวดล้อมที่กำหนดโดยใช้คลังข้อมูลเพิ่มเติม
- รองรับการทำงานแบบสัญญาณเสียงต่อเนื่องผ่านโปรโตคอล gRPC และแบบ WebAPI
กลุ่มลูกค้า/ผู้ใช้งานเทคโนโลยีเป้าหมาย:
- ไทยรัฐทีวี, กรมสอบสวนคดีพิเศษ (DSI), บริษัท AI9, สำนักงานเลขาธิการสภาผู้แทนราษฎร และอยู่ระหว่างการขยายผลต่อหน่วยงานทั้งภาครัฐ และภาคธุรกิจอีกหลายแห่ง
วิจัยพัฒนาโดย
- ทีมวิจัยการเข้าใจเสียงและข้อความ (STU)
- กลุ่มวิจัยปัญญาประดิษฐ์ (AINRG)
Keyword: Partii, ระบบรู้จำเสียงพูด, Deep Learning, AI