การแจกแจง: ถามตอบเกี่ยวกับแมชชีนเลิร์นนิง

สำหรับพวกเราหลายๆ คน แมชชีนเลิร์นนิงเป็นเรื่องที่เกี่ยวกับอนาคต แต่เมื่อไม่นานมานี้ แมชชีนเลิร์นนิงเป็นสิ่งที่เข้ามามีบทบาทสำคัญมากขึ้นเรื่อยๆ ในชีวิตของเรา ไม่ว่าจะเป็นคอมพิวเตอร์ของ Google ที่เล่นเกมที่น่าทึ่งอย่างเช่น เกมโกะ หรือ Inbox by Gmail ที่สร้างการตอบกลับอัตโนมัติได้ และแม้ว่าสิ่งเหล่านั้นจะเป็นเรื่องที่น่าตื่นเต้น พวกเราบางคนยังคงสงสัยว่าแมชชีนเลิร์นนิงคืออะไร หรือมีความสำคัญอย่างไร หรือทำไมการระบุตัวลูกสุนัขในรูปภาพถึงไม่ง่ายอย่างที่คิด เราจึงมาพูดคุยกับมายา คุปตะ นักวิทยาศาสตร์เพื่อการวิจัยด้านแมชชีนเลิร์นนิงที่ Google เพื่อฟังข้อมูลแบบเจาะลึก

เริ่มต้นที่คำถามพื้นฐาน แมชชีนเลิร์นนิงคืออะไร

แมชชีนเลิร์นนิงมีตัวอย่างให้เราเห็นมากมาย ซึ่งเป็นการระบุรูปแบบที่อธิบายตัวอย่างต่างๆ แล้วใช้รูปแบบเหล่านั้นมาคาดการณ์ตัวอย่างใหม่

ตัวอย่างเช่น การแนะนำภาพยนตร์ สมมติว่ามีคน 1,000 ล้านคน แล้วแต่ละคนบอกชื่อภาพยนตร์ที่พวกเขาชอบมา 10 เรื่อง ทำให้เราได้รับตัวอย่างจำนวนมากที่สามารถนำมาใช้เรียนรู้ว่าภาพยนตร์ที่ผู้คนเหล่านั้นชื่นชอบมีอะไรที่เหมือนกัน คอมพิวเตอร์จะให้ผลลัพธ์เป็นรูปแบบเพื่ออธิบายตัวอย่างเหล่านั้น เช่น “บุคคลที่ชอบภาพยนตร์สยองขวัญจะไม่ชอบภาพยนตร์แนวโรแมนติก แต่ผู้คนต่างก็ชอบภาพยนตร์ที่มีนักแสดงคนเดิม” ถ้าคุณบอกคอมพิวเตอร์ว่าคุณชอบ "Shining ที่แจ็ก นิโคลสันนำแสดง" คอมพิวเตอร์จะเดาได้ว่าคุณจะชอบแนวตลกโรแมนติกอย่างเช่น "Something’s Gotta Give ที่แจ็ก นิโคลสันนำแสดง" ไหม และวิดีโอแบบไหนที่จะแนะนำให้คุณบน YouTube

เข้าใจแล้ว เป็นแบบนี้นี่เอง แล้วแมชชีนเลิร์นนิงเมื่อทำงานจริงเป็นอย่างไรบ้าง

ในความเป็นจริง รูปแบบต่างๆ ที่แมชชีนเรียนรู้อาจเป็นเรื่องที่ซับซ้อนมากและอธิบายเป็นคำพูดได้ยาก ลองนึกถึง Google Photos ที่ช่วยให้คุณค้นหาภาพที่มีสุนัข แล้วคิดว่า Google ทำสิ่งเหล่านี้ได้อย่างไร ก่อนอื่นเราได้รับตัวอย่างรูปภาพที่ติดป้ายว่า “สุนัข” จำนวนมาก (ขอบคุณอินเทอร์เน็ต) และเรายังได้รับรูปภาพจำนวนมากที่ติดป้ายว่า “แมว” และรูปภาพอีกนับล้านรูปที่ติดป้ายอื่นๆ แต่เราไม่ได้แสดงไว้ที่นี่ทั้งหมด :)

จากนั้นคอมพิวเตอร์จะค้นหารูปแบบของพิกเซลและรูปแบบสีที่ช่วยเดาว่ารูปภาพนั้นเป็นสุนัขหรือแมว (หรือ…) ขั้นตอนแรก เป็นเพียงการเดาสุ่มว่ารูปแบบที่ดีที่จะช่วยระบุสุนัขได้คืออะไร แล้วมาดูที่ตัวอย่างรูปภาพสุนัข และดูว่ารูปแบบปัจจุบันสามารถระบุสุนัขได้ถูกต้องไหม หากระบุไม่ถูกต้อง เช่น เรียกแมวว่าสุนัข ก็ต้องปรับเปลี่ยนรูปแบบที่ใช้กันเล็กน้อย จากนั้นมาดูที่รูปภาพแมวและปรับรูปแบบของเครื่องอีกครั้งเพื่อทดลองรูปแบบว่าระบุได้ถูกต้องไหม แล้วทำซ้ำแบบนี้อีกนับล้านครั้งคือ ดูตัวอย่าง 1 ตัวอย่าง หากเครื่องไม่สามารถระบุรูปแบบที่ถูกต้องได้ ก็ต้องปรับรูปแบบเพื่อให้ทำงานกับตัวอย่างนั้นได้ดีขึ้น

สุดท้ายแล้ว รูปแบบต่างๆ จะประกอบเป็นโมเดลที่เครื่องเรียนรู้ เช่น โครงข่ายประสาทส่วนลึกที่สามารถระบุสุนัข และแมว และพนักงานดับเพลิง และอื่นๆ อีกมากมายได้ถูกต้อง (โดยส่วนใหญ่)

เรื่องที่พูดฟังดูเหมือนเป็นเรื่องอนาคต แล้วผลิตภัณฑ์อื่นๆ ของ Google ที่ใช้การเรียนรู้ของเครื่องในปัจจุบันมีอะไรบ้าง

มีสิ่งใหม่ๆ มากมายที่ Google ทำงานร่วมกับการเรียนรู้ของเครื่อง เช่น Google แปลภาษาที่สามารถถ่ายภาพสัญลักษณ์บนถนนหรือเมนูในภาษาหนึ่ง แล้วระบุคำและภาษาที่อยู่ในรูปภาพ จากนั้นแปลเป็นภาษาของคุณได้ในแบบเรียลไทม์อย่างน่าอัศจรรย์

คุณสามารถพูดอะไรก็ได้เพื่อแปลภาษา โดยการรู้จำคำพูดที่เครื่องเรียนรู้จะเข้ามามีส่วนในตอนนี้ การรู้จำคำพูดยังใช้ในผลิตภัณฑ์อื่นๆ อีกมากมาย เช่น การระบุคำค้นหาด้วยเสียงของคุณสำหรับแอป Google และทำให้ค้นหาวิดีโอ YouTube ได้ง่ายยิ่งขึ้น

สำหรับสัญลักษณ์ เมนู และอื่นๆ อีกมากมาย ก็เพียงแค่เล็งกล้องถ่ายรูป แล้วรับการแปลทันที โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต *Word Lens พร้อมใช้งานเป็นภาษาอังกฤษและภาษาอื่นๆ อีกกว่า 24 ภาษา
พูดกับคนที่พูดภาษาอื่น
เขียนอักขระและคำที่แป้นพิมพ์ไม่รองรับด้วยลายมือของคุณได้ง่ายๆ
เพียงพิมพ์คำที่คุณต้องการแปลภาษา

แมชชีนเลิร์นนิงเหมือนปัญญาประดิษฐ์ไหม

จะว่าไปแล้วคำเหล่านี้อาจมีความหมายแตกต่างกันสำหรับแต่ละคน แต่จริงๆ แล้วปัญญาประดิษฐ์ (AI) คือการบัญญัติศัพท์แบบกว้างๆ สำหรับโปรแกรมคอมพิวเตอร์ที่แก้ปัญหาแบบต่างๆ ที่มนุษย์ทำได้ง่าย เช่น การเล่าเรื่องที่เกิดขึ้นในภาพ ความยอดเยี่ยมอย่างหนึ่งที่มนุษย์ทำได้ง่ายเช่นกันก็คือการเรียนรู้จากตัวอย่าง และนั่นเป็นสิ่งที่โปรแกรมแมชชีนเลิร์นนิงพยายามที่จะทำให้ได้ นั่นคือ การสอนให้คอมพิวเตอร์เรียนรู้จากตัวอย่าง

สิ่งที่ยอดเยี่ยมก็คือเมื่อเราพบวิธีสร้างโปรแกรมคอมพิวเตอร์เหล่านี้ เราปรับขนาดให้โปรแกรมจัดการข้อมูลจำนวนมากๆ ได้เร็วขึ้น จากนั้นเราแก้ปัญหายากๆ ได้ อย่างเช่น การเล่นเกมโกะ การบอกเส้นทางจราจรให้กับหลายคนไปพร้อมกัน การใช้พลังงานอย่างมีประสิทธิภาพสูงทั่วประเทศ และแน่นอนที่สุด ซึ่งเป็นสิ่งที่ฉันชอบที่สุด คือการค้นหาผลลัพธ์ที่ดีที่สุดจาก Search บน Google ให้กับคุณ

นี่คือเหตุผลที่ Google ให้ความสำคัญอย่างมากกับแมชชีนเลิร์นนิงในปัจจุบันใช่ไหม

แมชชีนเลิร์นนิงไม่ใช่เรื่องใหม่ และย้อนไปได้จนถึงศตวรรษที่ 18 แต่คุณพูดถูกว่าเพิ่งจะเป็นประเด็นร้อนแรงจริงๆ เมื่อไม่นานมานี้ด้วยเหตุผล 3 ข้อ

ข้อแรก เราต้องมีตัวอย่างจำนวนมากเพื่อให้คอมพิวเตอร์เรียนรู้วิธีคาดการณ์ที่ดี แม้ว่าจะเป็นเรื่องที่คุณหรือเราคิดว่าง่าย (เช่น การค้นหารูปสุนัขในรูปภาพ) ด้วยกิจกรรมทั้งหมดบนอินเทอร์เน็ต ตอนนี้เรามีแหล่งข้อมูลตัวอย่างมากมายที่คอมพิวเตอร์สามารถเรียนรู้ได้ ตัวอย่างเช่น ตอนนี้มีรูปภาพสุนัขหลายล้านรูปที่ติดป้ายว่า “สุนัข” บนเว็บไซต์ทั่วโลกในทุกภาษา

แต่การมีตัวอย่างมากมายยังไม่เพียงพอ คุณจะแสดงรูปภาพสุนัขจำนวนมากบนเว็บแคมแล้วคาดหวังให้คอมพิวเตอร์เรียนรู้จากรูปภาพเพียงเท่านั้นไม่ได้ และเมื่อไม่นานมานี้เทคโนโลยีด้านนี้ (และ Google) ได้สร้างการค้นพบที่ยิ่งใหญ่อันน่าตื่นเต้นเกี่ยวกับประสิทธิภาพของโปรแกรมแมชชีนเลิร์นนิงว่าสามารถทำอะไรได้บ้าง

อย่างไรก็ตาม โปรแกรมของเรายังไม่สมบูรณ์แบบ และคอมพิวเตอร์ก็ยังไม่ฉลาดนัก เราจึงต้องใช้ตัวอย่างจำนวนมากและปรับเปลี่ยนด้านดิจิทัลหลายครั้งเพื่อทำให้ถูกต้อง ทั้งหมดนี้ต้องใช้เครื่องคอมพิวเตอร์จำนวนมาก และกระบวนการที่ดำเนินไปพร้อมกันอย่างงดงาม แต่ความก้าวหน้าของฮาร์ดแวร์และซอฟต์แวร์ใหม่ทำให้สิ่งเหล่านี้เป็นไปได้

สิ่งหนึ่งที่คอมพิวเตอร์ในปัจจุบันทำไม่ได้ แต่จะสามารถทำได้ในเร็วๆ นี้ด้วยแมชชีนเลิร์นนิงคืออะไร

ในอดีต เมื่อคุณอ่านหมายเลขบัตรเครดิตทางโทรศัพท์ การรู้จำคำพูดไม่สามารถวิเคราะห์ตัวเลขที่แตกต่างกันได้ถึง 10 หน่วย การรู้จำคำพูดเป็นเทคโนโลยีขั้นสูงที่น่าทึ่งมากในช่วง 5 ปีที่ผ่านมาด้วยการใช้แมชชีนเลิร์นนิงที่ทันสมัย และตอนนี้คุณสามารถใช้การรู้จำคำพูดเพื่อทำการค้นหาใน Google ได้ ซึ่งก็ทำได้ดีและรวดเร็วกว่าที่เคย

ฉันคิดว่าแมชชีนเลิร์นนิงช่วยให้เราทุกคนมีชีวิตที่ดีกว่าเดิม ฉันไม่ทราบว่าคุณคิดอย่างไร แต่ฉันเกลียดการลองเสื้อผ้า ฉันเจอยี่ห้อกางเกงยีนส์ที่ใส่ได้พอดี และซื้อ 5 ตัว แต่แมชชีนเลิร์นนิงสามารถเปลี่ยนตัวอย่างยี่ห้อที่สวมได้พอดีให้เป็นคำแนะนำว่ามียี่ห้อไหนอีกที่เราควรจะสวมได้พอดี ปัญหาเล็กๆ แบบนี้อยู่นอกเหนือขอบเขตของ Google แต่ฉันหวังว่าคงมีใครสักคนกำลังต่อยอดเรื่องนี้

แมชชีนเลิร์นนิงจะเป็นอย่างไรในอีก 10 ปีข้างหน้า

สิ่งหนึ่งที่ทั้งวงการดำเนินการอยู่คือการหาวิธีเรียนรู้ได้เร็วขึ้นจากตัวอย่างจำนวนน้อยลง กลยุทธ์อย่างหนึ่ง (ที่ Google กำลังทำงานหนักเป็นพิเศษ) คือทำให้เครื่องของเรามีไหวพริบซึ่งในแวดวงของเราเรียกว่า “การจัดการรูปแบบที่ซับซ้อน”

ไหวพริบของเครื่องจะเป็นอย่างไร ความหมายทั่วไปอย่างหนึ่งคือ หากมีการเปลี่ยนแปลงของตัวอย่างเพียงเล็กน้อย เครื่องไม่ควรเปลี่ยนความคิดโดยสิ้นเชิง ตัวอย่างเช่น รูปภาพสุนัขที่มีหมวกคาวบอยอยู่ด้วยก็ยังนับเป็นสุนัข

เราพยายามทำให้โปรแกรมการเรียนรู้มีสามัญสำนึกในลักษณะนี้โดยทำให้เครื่องไม่อ่อนไหวไปกับการเปลี่ยนแปลงที่เล็กน้อยและไม่สำคัญ อย่างเช่น หมวกคาวบอย ฟังดูเหมือนง่าย แต่ถ้าคุณทำพลาด คุณจะทำให้เครื่องไม่ฉลาดพอเมื่อมีการเปลี่ยนแปลงสำคัญๆ ซึ่งเรายังค้นหาการกระทำที่สมดุลอยู่

สิ่งที่ทำให้คุณตื่นเต้นที่สุดเกี่ยวกับแมชชีนเลิร์นนิงคืออะไร อะไรคือแรงจูงใจให้คุณทำงานต่อไป

ฉันเติบโตในซีแอตเทิล ที่นี่เราได้เรียนรู้มากมายเกี่ยวกับนักสำรวจยุคบุกเบิกของอเมริกันตะวันตก เช่น ลูอิสและคลาร์ก การวิจัยเรื่องแมชชีนเลิร์นนิงมีจิตวิญญาณของการสำรวจเช่นกันคือ เมื่อเราเห็นสิ่งต่างๆ ครั้งแรก จากนั้นพยายามหาหนทางมุ่งไปสู่อนาคตที่ยิ่งใหญ่

ถ้าจะเขียนสโลแกนสติกเกอร์ติดท้ายรถที่พูดถึงแมชชีนเลิร์นนิงที่ Google คุณจะเขียนว่าอะไร

ถ้าคุณยังทำไม่สำเร็จในครั้งแรก ให้ลองทำอีก 1,000 ล้านครั้ง

ดูเพิ่มเติม:

กลับไปด้านบน