Hỏi đáp về máy học cùng chuyên gia

Đối với nhiều người trong chúng ta, công nghệ máy học nghe có vẻ xa vời. Tuy nhiên, gần đây, công nghệ này xuất hiện ngày càng nhiều hơn trong cuộc sống. Đó có thể là khi một máy tính của Google chơi một ván cờ vây thật ấn tượng, hay khi ứng dụng Inbox by Gmail tạo câu trả lời tự động. Và mặc dù tất cả điều đó thật là thú vị, một số người trong chúng ta vẫn chưa hiểu rõ máy học là gì. Hoặc tại sao công nghệ này lại quan trọng như vậy. Hoặc tại sao việc xác định một con chó trong một bức ảnh lại không dễ dàng như mọi người nghĩ. Vì vậy, chúng tôi đã ngồi trò chuyện cùng Maya Gupta, một nhà khoa học nghiên cứu về máy học tại Google, để hiểu thêm về vấn đề này.

Xin hãy bắt đầu với những kiến thức cơ bản. Chính xác thì máy học là gì?

Công nghệ máy học thu thập rất nhiều ví dụ, sau đó tìm ra các mẫu hình để giải thích cho các ví dụ đó, rồi sử dụng các mẫu hình đó để đưa ra dự đoán về các ví dụ mới.

Hãy lấy các đề xuất phim làm ví dụ. Giả sử có một tỷ người, mỗi người cho chúng ta biết tên 10 bộ phim mà họ yêu thích. Đó là những ví dụ mà máy tính có thể sử dụng để tìm hiểu xem những phim mà mọi người thích có điểm gì chung. Sau đó, máy tính đưa ra các mẫu để giải thích các ví dụ đó, chẳng hạn như: có thể "những người thích phim kinh dị thường không thích phim lãng mạn, nhưng mọi người lại thích những bộ phim có cùng diễn viên". Sau đó nếu bạn nói với máy tính rằng bạn thích phim The Shining do Jack Nicholson thủ vai, máy có thể đoán một cách có cơ sở xem liệu bạn có thích bộ phim hài lãng mạn Something’s Gotta Give cũng do Jack Nicholson đóng hay không, và nên đề xuất những video nào khác cho bạn trên YouTube.

Tôi hiểu rồi. Đại khái thế. Trong thực tế, công nghệ máy học hoạt động thế nào?

Trong thực tế, các mẫu mà máy học được có thể rất phức tạp và khó có thể giải thích bằng lời. Hãy nghĩ đến Google Photos, sản phẩm cho phép bạn tìm kiếm trong kho ảnh để tìm ra những bức ảnh có hình chó. Sao Google làm được như thế? Trước tiên, chúng tôi sẽ lấy một loạt các những bức ảnh có gắn nhãn "chó" để làm ví dụ (cảm ơn internet!). Chúng tôi cũng có một loạt ảnh được gắn nhãn "mèo", và ảnh được gắn hàng triệu nhãn khác, nhưng tôi sẽ không liệt kê tất cả ở đây đâu.

Sau đó, máy tính sẽ tìm các mẫu điểm ảnh và các mẫu màu giúp đoán xem đó là mèo hay chó (hoặc…). Đầu tiên, máy tính chỉ phỏng đoán ngẫu nhiên về những mẫu có thể giúp ích cho việc xác định chó. Sau đó, máy tính nhìn vào một hình ảnh mẫu về chó, và xem liệu các mẫu mà máy tính đang có có xác định chính xác hình ảnh hay không. Nếu gọi nhầm một con mèo là chó thì máy tính sẽ thực hiện một số điều chỉnh nhỏ đối với các mẫu đang sử dụng. Sau đó, máy tính nhìn vào ảnh một con mèo, và một lần nữa điều chỉnh các mẫu để cố gắng đoán cho đúng. Và máy tính lặp đi lặp lại hành động này khoảng một tỷ lần: nhìn vào một ví dụ và nếu không đoán đúng được hình ảnh, máy tính sẽ điều chỉnh các mẫu mà mình sử dụng để đoán hình ảnh trong ví dụ đó một cách chính xác hơn.

Cuối cùng, các mẫu như thế tạo thành một mẫu máy học, như một mạng nơron sâu, có thể xác định (hầu như) chính xác chó, mèo, lính cứu hỏa và rất nhiều đối tượng khác.

Nghe có vẻ rất xa vời. Hiện nay, còn có những sản phẩm nào của Google sử dụng công nghệ máy học?

Có rất nhiều điều mới mà Google đang thực hiện nhờ vào công nghệ máy học, ví dụ như Google Dịch có thể chụp ảnh một biển báo trên đường hoặc một tờ thực đơn viết bằng một ngôn ngữ nào đó, nhận diện chữ và ngôn ngữ trong ảnh, sau đó ngay lập tức dịch nội dung trên đó sang ngôn ngữ của bạn.

Bạn cũng có thể nói bất cứ điều gì với Google Dịch, và tính năng nhận dạng giọng nói sử dụng công nghệ máy học sẽ phát huy tác dụng. Tính năng nhận dạng giọng nói còn được sử dụng trong nhiều sản phẩm khác, như nhận ra các yêu cầu bằng giọng nói cho ứng dụng Google, và giúp cho các video trên YouTube dễ tìm kiếm hơn.

Chỉ cần hướng máy ảnh vào biểu hiệu, thực đơn, v.v. là bạn sẽ có bản dịch ngay tức thì. Thậm chí, bạn không cần có kết nối Internet. *Word Lens hiện có thể dịch qua lại giữa tiếng Anh với hơn 24 ngôn ngữ khác.

Trò chuyện xuyên ngôn ngữ.

Dễ dàng viết tay các ký tự và từ mà bàn phím của bạn không hỗ trợ.

Bạn chỉ cần nhập những từ mà bạn muốn dịch.

Vậy tại sao giờ đây, Google lại tạo quan tâm đến công nghệ máy học đến như vậy?

Máy học không phải là điều hoàn toàn mới. Công nghệ này có nguồn gốc từ những thông tin thống kê từ thế kỷ 18. Nhưng bạn nói đúng, gần đây công nghệ này đã thực sự nóng lên vì ba lý do.

Trước hết, chúng ta cần một số lượng lớn các ví dụ để dạy máy tính cách đưa ra những dự đoán tốt, thậm chí về những thứ bạn hoặc tôi có thể thấy rất dễ dàng (như tìm một con chó trong ảnh). Với tất cả các hoạt động trên internet, giờ đây chúng ta đã có một nguồn ví dụ phong phú mà máy tính có thể học. Chẳng hạn, hiện có hàng triệu bức ảnh chó được dán nhãn là "chó" trên các trang web trên khắp thế giới, bằng mọi ngôn ngữ.

Nhưng có nhiều ví dụ vẫn là chưa đủ. Bạn không thể chỉ đưa một loạt ảnh chó ra trước một chiếc webcam và hi vọng máy tính có thể học bất cứ thứ gì. Máy tính cần phải có một chương trình học. Và gần đây, ngành (và Google) đã có những đột phá thú vị về mức độ phức tạp và sự mạnh mẽ của các chương trình máy học đó.

Tuy nhiên, các chương trình của chúng tôi vẫn chưa hoàn hảo và máy tính vẫn còn xảy ra lỗi, vì vậy, với nhiều ví dụ, chúng tôi phải xem rất nhiều lần để điều chỉnh cho đúng rất nhiều nút bấm kỹ thuật số. Tất cả những việc đó cần một lượng lớn sức mạnh tính toán và xử lý song song. Nhưng những tiến bộ về phần mềm và phần cứng mới cũng đã giúp giải quyết việc đó.

Điều gì mà máy tính hiện chưa làm được nhưng sẽ sớm có thể thực hiện nhờ máy học?

Trong thực tế, trước đây, chương trình nhận dạng giọng nói phải rất vất vả để có thể nhận ra 10 chữ số khác nhau khi bạn đọc số thẻ tín dụng qua điện thoại. Công nghệ nhận dạng giọng nói đã đạt được những tiến bộ đáng kinh ngạc trong 5 năm qua bằng cách sử dụng công nghệ máy học tinh vi, và bây giờ bạn có thể sử dụng công nghệ đó để đưa ra các yêu cầu tìm kiếm cho Google. Và công nghệ này còn đang được cải thiện rất nhanh.

Tôi nghĩ rằng máy học thậm chí còn có thể khiến chúng ta trông tuyệt vời hơn. Không biết bạn thế nào, chứ tôi thì rất ghét thử quần áo! Tôi tìm thấy một thương hiệu quần jean phù hợp, thế là tôi mua 5 chiếc liền. Nhưng máy học có thể biến các ví dụ về các thương hiệu phù hợp với chúng ta thành lời khuyên về những thứ phù hợp khác. Vấn đề đó nằm ngoài phạm vi của Google một chút, nhưng tôi hy vọng ai đó sẽ giải quyết vấn đề đó!

Máy học sẽ như thế nào sau 10 năm nữa?

Một điều mà toàn ngành đang nghiên cứu là làm thế nào để học nhanh hơn từ số lượng ví dụ ít hơn. Một trong các cách tiếp cận (mà Google đang dành nhiều công sức để nghiên cứu) là mang lại cho máy móc của chúng ta trí tuệ thường thức hơn, cái mà trong ngành, chúng tôi gọi là "bình thường hóa".

Trí tuệ thường thức ở một máy tính là như thế nào? Vâng, điều đó có nghĩa là nói chung, nếu một ví dụ chỉ thay đổi một chút thì máy không nên thay đổi hoàn toàn suy nghĩ của mình. Ví dụ ảnh một con chó với một chiếc mũ cao bồi thì vẫn là một con chó.

Chúng tôi áp dụng loại trí tuệ thường thức này trong chương trình học bằng cách làm cho máy học không nhạy cảm với những thay đổi nhỏ và không quan trọng, ví dụ như một chiếc mũ cao bồi. Mặc dù nói thì dễ, nhưng nếu bạn làm sai, bạn sẽ khiến máy không đủ nhạy cảm với những thay đổi quan trọng! Vì thế chúng tôi vẫn đang tìm cách cân bằng điều này.

Điều gì khiến chị thấy thú vị nhất ở công nghệ máy học? Đâu là động lực thúc đẩy chị làm việc với công nghệ này?

Tôi lớn lên ở Seattle, nơi chúng tôi được biết rất nhiều về những nhà thám hiểm đầu tiên của miền Tây nước Mỹ như Lewis và Clark. Nghiên cứu về máy học cũng mang tinh thần khám phá như vậy. Lần đầu tiên chúng ta nhìn thấy mọi thứ và cố gắng vạch ra con đường dẫn đến tương lai tuyệt vời.

Nếu có thể đề một khẩu hiệu khích lệ cho máy học ở Google thì đó sẽ là gì?

Nếu lần đầu bạn không thành công, hãy thử thêm một tỷ lần nữa.