วันจันทร์ที่ 19 มีนาคม พ.ศ. 2555

เนคเทค เปิดเว็บไซต์ 6 คลังข้อมูลเพื่อการวิจัยและพัฒนา


Pic_246370

เนคเทค สวทช. เปิดตัวเว็บไซต์คลังข้อมูลเพื่อการวิจัยและพัฒนา (R&D Corpus) เบื้องต้นมีข้อมูล 6 ประเภท ตั้งเป้าให้กลุ่มอุตสาหกรรมซอฟต์แวร์ สถาบันการศึกษา บริษัทเอกชนนำไปใช้ ก่อนดันอุตฯซอฟต์แวร์ และดิจิตอลคอนเทนต์ ทะยานสู่ 5 แสนล้านบาท...

นายพันธ์ศักดิ์ ศิริรัชตพงษ์ ผู้อำนวยการศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ หรือเนคเทค กล่าวว่า สวทช.ได้เตรียมคลังข้อมูลเพื่อใช้ในการวิจัยและพัฒนาไว้หลากหลายเรื่อง งบประมาณที่ใช้ไปในการสร้างคลังข้อมูลเพื่อการวิจัยและพัฒนานี้สูงนับสิบ ล้าน ดังนั้น เพื่อให้นักวิจัยทั่วประเทศได้ร่วมมือกันทำงานวิจัยและพัฒนาต่อยอดได้โดยไว และประหยัดงบประมาณ และเพื่อให้ได้ผลิตภัณฑ์ที่ดีในเวลาอันรวดเร็วขึ้น อันจะก่อให้เกิดประโยชน์ต่อประเทศชาติสูงสุด ทาง สวทช. โดยมอบหมายเนคเทค ให้จัดสร้างคลังข้อมูลเพื่อการวิจัยและพัฒนา (R&D Corpus) ขึ้น โดยในโครงการระยะแรก ทางเนคเทคได้นำร่องพัฒนาคลังสื่อประสมและข้อความกำกับ (Annotated & Multimedia Corpus) โดยมีตัวอย่างการใช้ประโยชน์จากคลังข้อมูลเพื่อการวิจัยและพัฒนา อาทิ ในปัจจุบันอุตสาหกรรมซอฟต์แวร์และดิจิตอลคอนเทนต์มีมูลค่าตลาดกว่าสามแสน ล้านบาท สวทช. ร่วมกับสำนักงานส่งเสริมอุตสาหกรรมซอฟต์แวร์แห่งชาติ (องค์การมหาชน) หรือซิป้า พยายามผลักดันให้อุตสาหกรรมดังกล่าวเพิ่มมูลค่าขึ้นเป็นห้าแสนล้านบาท หรือสูงเป็นอันดับสี่ของประเทศ ซอฟต์แวร์ที่เกี่ยวกับการประมวลผลภาษาไทยและดิจิตอลคอนเทนต์ไทย ล้วนแต่ต้องการคุณสมบัติการแบ่งคำภาษาไทยและการรู้จำนิพจน์ระบุนามที่มี ประสิทธิภาพ ซึ่งเกิดขึ้นได้จากการทดสอบซอฟต์แวร์กับคลังข้อความกำกับต่างๆ

ดัง นั้น หากผู้ประกอบการอุตสาหกรรมซอฟต์แวร์ทราบว่าซอฟต์แวร์แบ่งคำภาษาไทย และซอฟต์แวร์รู้จำนิพจน์ระบุนามตัวใดที่มีความสามารถใกล้เคียงกับความต้อง การ ก็จะช่วยให้ผู้ประกอบการสามารถพัฒนาผลิตภัณฑ์ของตนได้ทันทีโดยไม่ต้องมา เริ่มต้นพัฒนาซอฟต์แวร์แบ่งคำภาษาไทยและซอฟต์แวร์ รู้จำนิพจน์ระบุนามของตนเอง ซึ่งจะช่วยลดความซ้ำซ้อน และทำให้พัฒนาผลิตภัณฑ์ได้เร็วขึ้น

นางจุฬารัตน์ ตันประเสริฐ ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศ เนคเทค กล่าวว่า คลังข้อมูลเพื่อการวิจัยและพัฒนาในโครงการนำร่องคลังสื่อประสมและข้อความ กำกับ หรือที่เรียกว่า Annotated & Multimedia Corpus มีวัตถุประสงค์หลักคือการให้บริการคลังข้อมูลสื่อประสมที่มีการกำกับข้อมูล ไว้สำหรับนักวิจัยไทย เพื่อให้ได้ผลงานวิจัยของไทยบนฐานคลังข้อมูลที่เป็นประโยชน์กับประเทศเพิ่ม ขึ้น โดยประหยัดทั้งทรัพยากรเวลาและบุคลากรของประเทศเป็นอย่างมาก คลังข้อมูลนี้ให้บริการอยู่ที่ URL<http://www.nectec.or.th/corpus/> เบื้องต้นคลังข้อมูลสื่อประสมที่มีการกำกับข้อมูลไว้แล้วสำหรับงานวิจัย มีจำนวน 6 ประเภทข้อมูล ได้แก่

1. คลังข้อความไทย-อังกฤษ สำหรับงานวิจัยด้านการประมวลผลภาษาธรรมชาติ ส่วนงานการตัดคำไทยและการแยกประโยคไทย 2. คลังศัพท์ไทย-อังกฤษ สำหรับค้นหาการสะกดและการอ่านของคำศัพท์ไทย 3. คลังเสียงพูดไทย 4. คลังข้อมูลภาพตัวอักษร 5. คลังรูปร่างสามมิติคนไทย และ 6. คลังข้อมูลภาพจราจรจากกล้อง NECTEC CAM และ Traffy Social Eye

สำหรับ กลุ่มเป้าหมายที่คาดว่าจะได้รับประโยชน์จากโครงการนี้ ประกอบด้วย กลุ่มอุตสาหกรรมซอฟต์แวร์ โดยผู้ประกอบการด้านการพัฒนาซอฟต์แวร์ประมวลผลภาษาไทยและดิจิตอลคอนเทนต์ไทย ซึ่งต้องการข้อมูลกำกับขนาดใหญ่ในการพัฒนา หน่วยงานการศึกษาและบริษัทเอกชน ผู้ดำเนินการวิจัยและพัฒนาเทคโนโลยีการประมวลผลภาษาไทยขั้นสูง เช่น การสืบค้นข้อความภาษาไทย ระบบสังเคราะห์เสียงพูดภาษาไทย และระบบแปลภาษาไทยอัตโนมัติ สถาบันวิศวกรรมฟื้นฟูสมรรถภาพและเทคโนโลยีสิ่งอำนวยความสะดวก สามารถนำมาตรฐานกลางของภาษาไทยนี้ไปประยุกต์ใช้เพื่อคนพิการและผู้มีปัญหาใน การเรียนรู้ได้ ปัจจุบันก็ได้ใช้งานจริงในโครงการพัฒนาเครื่องมือเพื่อช่วยการอ่าน การเขียน กระบวนการคิดและการคิดคำนวณ สำหรับบุคคลที่มีปัญหาทางการเรียนรู้ หน่วยงานการศึกษาและบริษัทเอกชน ผู้ดำเนินการวิจัยและพัฒนาเทคโนโลยีเพื่ออุตสาหกรรมแฟชั่น สิ่งทอ หน่วยงานการศึกษาและบริษัทเอกชน ผู้ดำเนินการวิจัยและพัฒนาเทคโนโลยีด้านการจราจรของประเทศไทย

แหล่งที่มาข้อมูล www.thairath.co.th

ไม่มีความคิดเห็น:

แสดงความคิดเห็น