*

Sản phẩm Giải pháp Tin tức Hỗ trợ Đối tác Giới thiệu
*
×

188 máy tính công nghiệp NISE3800E và NISE3900E triển khai trong ứng dụng chuyên dụng

Máy tính công nghiệp lắp đặt trên các phương tiện...

Bạn đang xem: Thị giác máy tính (Computer vision)

Tích hợp máy tính chuyên dụng trong hệ thống giám sát trạm quạt thông gió ở hầm lò khai thác than

Hiện nay, nhiều mỏ than hầm lò ở Việt Nam...

Máy tính công nghiệp có quạt có thực sự lọc được hết bụi với thiết kế Air
Filters?

Máy tính công nghiệp có quạt là thuật ngữ dùng...


*

*

Nền tảng và dịch vụ thông minh của NEXCOM - Smart Signage - Smart City

Trình phát bảng hiệu kỹ thuật số cung cấp các...


*

Một trong những công nghệ tiên tiến liên quan đến AI là thị giác máy tính. Nhờ những tiến bộ trong trí tuệ nhân tạo và những đổi mới trong học sâu và mạng nơ-ron, lĩnh vực này đã có thể có những bước tiến nhảy vọt trong những năm gần đây và có thể vượt qua con người trong một số nhiệm vụ liên quan đến phát hiện và ghi nhận đối tượng.

Computer Vision hay còn gọi là Thị giác máy tính là lĩnh vực khoa học máy tính tập trung vào việc tái tạo các phần phức tạp của hệ thống thị giác con người và cho phép máy tính xác định và xử lý các đối tượng trong hình ảnh và video giống như cách con người làm.

Một trong những yếu tố thúc đẩy sự phát triển của thị giác máy tính là lượng dữ liệu chúng ta tạo ra ngày nay được sử dụng để đào tạo và làm cho thị giác máy tính tốt hơn.

 

Thị giác máy tính ngày càng trở nên phổ biến trong thời đại 4.0

 

Cùng với lượng dữ liệu trực quan khổng lồ (hơn 3 tỷ hình ảnh được chia sẻ trực tuyến mỗi ngày), lĩnh vực thị giác máy tính phát triển với phần cứng và thuật toán mới, tỷ lệ chính xác để nhận dạng đối tượng cũng tăng theo. Trong vòng chưa đầy một thập kỷ, các hệ thống ngày nay đã đạt đến độ chính xác 99% từ 50% và chính xác hơn con người khi phản ứng nhanh với đầu vào trực quan.

Các thí nghiệm ban đầu về thị giác máy tính bắt đầu vào những năm 1950 và nó lần đầu tiên được đưa vào sử dụng thương mại để phân biệt giữa văn bản đánh máy và viết tay vào những năm 1970, ngày nay các ứng dụng cho thị giác máy tính đã phát triển theo cấp số nhân.

 

Thị giác máy tính hoạt động như thế nào?

Một trong những câu hỏi thường được đặt ra trong cả Khoa học thần kinh và Học máy là: Bộ não của chúng ta hoạt động chính xác như thế nào và làm thế nào chúng ta có thể ước tính điều đó bằng các thuật toán của riêng mình? Thực tế là có rất ít lý thuyết toàn diện về tính toán của não; vì vậy, mặc dù thực tế là Mạng thần kinh nhân tạo được cho là “bắt chước cách thức hoạt động của não”, nhưng không ai dám chắc điều đó có thực sự đúng hay không.

Nghịch lý tương tự cũng đúng với thị giác máy tính - vì chúng ta không quyết định cách não và mắt xử lý hình ảnh, nên rất khó để nói các thuật toán được sử dụng trong sản xuất gần đúng với các quá trình tinh thần bên trong của chúng ta như thế nào.

Ở một mức độ nhất định, Thị giác máy tính là thuộc về nhận dạng mẫu. Vì vậy, một cách để “huấn luyện” máy tính hiểu dữ liệu trực quan là cung cấp cho nó hàng nghìn, hàng triệu hình ảnh nếu có thể đã được “đánh dấu” và sau đó áp dụng các kỹ thuật phần mềm hoặc thuật toán khác nhau cho phép máy tính tìm kiếm trong tất cả các phần tử có liên quan đến các mẫu được đánh dấu đó. Đây là lúc các kĩ thuật AI, cụ thể là machine learning hay deep learning được áp dụng để phân loại đối tượng. Để làm được điều này, trước đó mô hình (model) AI đã được cho học ảnh mẫu, thế nào là người, thế nào là xe hơi, thế nào là con mèo… Khi gặp một ảnh mới cần dự đoán, nó sẽ lấy những gì từng được học ra để đoán. 

Ví dụ: Nếu bạn cho máy tính nhận biết một triệu hình ảnh con mèo, tất cả chúng sẽ phải tuân theo các thuật toán cho phép chúng phân tích màu sắc trong ảnh, hình dạng, khoảng cách giữa các hình... để nó xác định một hồ sơ về “mèo” có nghĩa là gì. Khi quá trình hoàn tất, máy tính (về lý thuyết) sẽ có thể sử dụng trải nghiệm của mình nếu được cung cấp các hình ảnh không được gắn nhãn khác để tìm những hình ảnh của mèo.

 

 

Dưới đây là một minh họa đơn giản về bộ đệm hình ảnh thang độ xám lưu trữ hình ảnh. Độ sáng của mỗi pixel được biểu thị bằng một số 8 bit, có phạm vi từ 0 (đen) đến 255 (trắng):

Bộ đệm hình ảnh thang độ xám lưu trữ hình ảnh

Trên thực tế, các giá trị pixel hầu như được lưu trữ phổ biến, ở cấp độ phần cứng, trong một mảng một chiều. Ví dụ: dữ liệu từ hình ảnh trên được lưu trữ theo cách tương tự như danh sách dài các ký tự không dấu này:

Bây giờ bạn hãy tưởng tượng bức tranh trên có màu. Mọi thứ bắt đầu trở nên phức tạp hơn. Máy tính thường đọc màu dưới dạng một chuỗi 3 giá trị - đỏ, lục và lam (RGB) - trên cùng một thang 0–255. Bây giờ, mỗi pixel thực sự có 3 giá trị để máy tính lưu trữ ngoài vị trí của nó. Nếu chúng ta tô màu cho bức tranh đó sẽ dẫn đến giá trị 12 x 16 x 3 hoặc 576 số.

Đó là yêu cầu rất nhiều bộ nhớ cho một hình ảnh và rất nhiều pixel để một thuật toán lặp lại. Tuy nhiên, để đào tạo một mô hình với độ chính xác có ý nghĩa, đặc biệt là khi bạn đang nói về Học sâu, bạn thường cần hàng chục nghìn hình ảnh và càng nhiều hình ảnh càng tốt.

 

Sự phát triển của thị giác máy tính

Trước khi Học sâu ra đời, các tác vụ mà thị giác máy tính có thể thực hiện rất hạn chế và đòi hỏi nhiều nỗ lực và mã hóa thủ công của các nhà phát triển và người vận hành. Ví dụ: nếu bạn muốn thực hiện nhận dạng khuôn mặt, bạn sẽ phải thực hiện các bước sau:

Tạo cơ sở dữ liệu: Bạn phải chụp từng ảnh của tất cả các đối tượng bạn muốn theo dõi ở một định dạng cụ thể.Chú thích hình ảnh: Sau đó, đối với mỗi hình ảnh riêng lẻ, bạn sẽ phải nhập một số điểm dữ liệu chính, chẳng hạn như khoảng cách giữa hai mắt, chiều rộng của sống mũi, khoảng cách giữa môi trên và mũi và hàng chục phép đo khác xác định các đặc điểm riêng biệt của mỗi người.Chụp ảnh mới: Tiếp theo, bạn sẽ phải chụp ảnh mới, kể cả ảnh hay nội dung video. Và sau đó bạn phải thực hiện lại quá trình đo lường, đánh dấu các điểm chính trên hình ảnh. Bạn cũng phải tính đến góc ảnh được chụp.

Sau tất cả công việc thủ công này, ứng dụng cuối cùng sẽ có thể so sánh các phép đo trong hình ảnh mới với các phép đo được lưu trữ trong cơ sở dữ liệu của nó và cho bạn biết liệu nó có tương ứng với bất kỳ cấu hình nào mà nó đang theo dõi hay không. Trên thực tế, hầu hết công việc được thực hiện thủ công và biên độ lỗi vẫn còn lớn.

Học máy cung cấp một cách tiếp cận khác để giải quyết các vấn đề về thị giác máy tính. Với Học máy, các nhà phát triển không còn cần phải viết mã thủ công từng quy tắc vào các ứng dụng thị giác của họ. Thay vào đó, họ lập trình “các tính năng”, các ứng dụng nhỏ hơn có thể phát hiện các mẫu cụ thể trong hình ảnh. Sau đó, họ sử dụng một thuật toán học thống kê như hồi quy tuyến tính, hồi quy logistic, hoặc máy vectơ hỗ trợ (SVM) để phát hiện các mẫu, phân loại hình ảnh và phát hiện các đối tượng trong đó.

Học sâu cung cấp một cách tiếp cận cơ bản khác để thực hiện học máy. Học sâu dựa trên mạng nơ-ron, một chức năng có mục đích chung có thể giải quyết bất kỳ vấn đề nào có thể biểu diễn thông qua các ví dụ. Khi bạn cung cấp một mạng nơ-ron có nhiều ví dụ được gắn nhãn về một loại dữ liệu cụ thể, nó sẽ có thể trích xuất các mẫu chung giữa các ví dụ đó và biến đổi nó thành một phương trình toán học giúp phân loại các phần thông tin trong tương lai.

Ví dụ: việc tạo một ứng dụng nhận dạng khuôn mặt với học sâu chỉ yêu cầu bạn phát triển hoặc chọn một thuật toán được cấu trúc sẵn và đào tạo nó với các ví dụ về khuôn mặt của những người mà nó phải phát hiện.

Học sâu là một phương pháp rất hiệu quả để thực hiện thị giác máy tính. Trong hầu hết các trường hợp, việc tạo ra một thuật toán học sâu giúp thu thập một lượng lớn dữ liệu đào tạo được gắn nhãn và điều chỉnh các tham số như loại và số lớp của mạng nơ-ron... So với các loại học máy trước đây, học sâu dễ phát triển và triển khai hơn.

Hiện nay, thị giác máy tính được ứng dụng triển khai trong phát hiện ung thư, ô tô tự lái và nhận dạng khuôn mặt đều sử dụng học sâu. Học sâu và mạng nơ-ron sâu đã chuyển từ lĩnh vực khái niệm sang các ứng dụng thực tế nhờ tính khả dụng và những tiến bộ trong tài nguyên phần cứng và điện toán đám mây.

Light Rail Connected Driver Advisory System (C-DAS)

 

Ứng dụng của Thị giác máy tính

Nhiều ứng dụng bạn sử dụng hàng ngày sử dụng công nghệ thị giác máy tính. Google sử dụng nó để giúp bạn tìm kiếm đồ vật và hình ảnh trong thư viện Hình ảnh của bạn.

Các công ty khác sử dụng thị giác máy tính để giúp nâng cao hình ảnh. Một ví dụ là Adobe Lightroom CC, sử dụng thuật toán máy học để nâng cao chi tiết của hình ảnh được thu phóng. Tính năng phóng to truyền thống sử dụng kỹ thuật nội suy để tô màu các khu vực được phóng to, nhưng Lightroom sử dụng thị giác máy tính để phát hiện các đối tượng trong hình ảnh và làm sắc nét các đối tượng của chúng khi phóng to.

Một lĩnh vực đã có sự tiến bộ vượt bậc nhờ những tiến bộ trong thị giác máy tính là nhận dạng khuôn mặt. Apple sử dụng thuật toán nhận dạng khuôn mặt để mở khóa i
Phone. Facebook sử dụng tính năng nhận dạng khuôn mặt để phát hiện người dùng trong các bức ảnh bạn đăng trực tuyến.

Amazon
Go - cửa hàng vật lý không nhân viên của Amazon, dùng thị máy tính để biết người dùng đi vào mua gì, hết bao nhiêu tiền, và bạn có thể lựa những món mình cần rồi đi thẳng về nhà mà không cần dừng lại ở quầy thu ngân. Camera và các cảm biến khác trong toàn bộ cửa hàng giám sát những sản phẩm bạn lấy và tự động tính phí khi bạn rời đi.

Người mua hàng bước vào, quét ứng dụng Amazon trên một cửa quay và mua sản phẩm mà không phải chờ đợi trong hàng thanh toán

Thị giác máy tính (Computer Vision) là một trong những lĩnh vực hot nhất của khoa học máy tính và nghiên cứu trí tuệ nhân tạo. Dù chúng vẫn chưa thể cạnh tranh với sức mạnh thị giác của mắt người, đã có rất nhiều ứng dụng hữu ích được tạo ra khai thác tiềm năng của chúng.

Khi bạn nhìn vào hình ảnh sau đây, bạn sẽ thấy người, vật thể và các tòa nhà. Nó mang đến những ký ức về những trải nghiệm trong quá khứ, những tình huống tương tự bạn gặp phải. Đám đông đang đối mặt cùng hướng và giơ điện thoại lên, điều này cho bạn biết rằng đây là một loại sự kiện. Người đứng gần máy ảnh đang mặc áo thun gợi ý về sự kiện có thể xảy ra. Khi bạn nhìn vào các chi tiết nhỏ khác, bạn có thể suy ra nhiều thông tin hơn từ hình ảnh.

*
Ảnh của Joshua J. Cotten

Nhưng đối với máy tính, hình ảnh này giống như tất cả các hình ảnh khác, đó là một mảng các pixel, các giá trị số đại diện cho các sắc độ của màu đỏ, xanh lá cây và xanh dương. Một trong những thách thức mà các nhà khoa học máy tính phải vật lộn từ những năm 1950s là tạo ra những cỗ máy có thể hiểu được hình ảnh và video như con người. Lĩnh vực thị giác máy tính từ đó đã trở thành một trong những lĩnh vực nghiên cứu hot nhất về khoa học máy tính và trí tuệ nhân tạo.


*

Nhiều thập kỷ sau, chúng ta đã đạt được tiến bộ lớn trong việc tạo ra các phần mềm có thể hiểu và mô tả nội dung của dữ liệu một cách trực quan. Nhưng chúng ta cũng đã nhận ra rằng cần phải đi xa đến mức nào trước khi có thể hiểu và tái tạo một trong những chức năng cơ bản của bộ não con người.

Sơ lược về lịch sử thị giác máy tính

Năm 1966, Seymour Papert và Marvin Minsky, hai nhà tiên phong về trí tuệ nhân tạo, đã khởi động một dự án mang tên “Summer Vision Project“, một nỗ lực kéo dài hai tháng và kéo theo 10 người để tạo ra một hệ thống máy tính có thể nhận dạng các vật thể trong ảnh.

Để hoàn thành nhiệm vụ, một chương trình máy tính phải có khả năng xác định pixel nào thuộc về đối tượng nào. Đây là một vấn đề mà hệ thống thị giác của con người, được cung cấp bởi kiến ​​thức rộng lớn của chúng ta về thế giới thực và hàng tỷ năm tiến hóa, có thể giải quyết một cách dễ dàng. Nhưng đối với máy tính, thế giới chỉ bao gồm các con số, đó là một nhiệm vụ đầy thách thức.

Vào thời điểm của dự án này, phân nhánh thống trị chủ lực của trí tuệ nhân tạo là symbollic AI, còn được gọi là AI dựa trên quy tắc (rule-based AI): Các lập trình viên tự chỉ định các quy tắc để phát hiện các đối tượng trong hình ảnh. Nhưng vấn đề là các vật thể trong ảnh có thể xuất hiện từ các góc khác nhau và trong nhiều điều kiện ánh sáng khác nhau. Đối tượng có thể xuất hiện trên một loạt các nền khác nhau hoặc bị các đối tượng khác che khuất một phần. Mỗi kịch bản này tạo ra các giá trị pixel khác nhau và thực tế không thể tạo quy tắc thủ công cho từng cái một trong số chúng.

Hẳn nhiên, Summer Vision Project đã không đi xa và mang lại kết quả khá hạn chế. Vài năm sau đó, vào năm 1979, nhà khoa học Nhật Bản Kunihiko Fukushima đã đề xuất neocognitron , một hệ thống thị giác máy tính dựa trên nghiên cứu khoa học thần kinh được thực hiện trên vỏ não về thị giác của con người. Mặc dù neocognitron của Fukushima không thể thực hiện bất kỳ nhiệm vụ trực quan phức tạp nào, nhưng nó đã đặt nền tảng cho một trong những phát triển quan trọng nhất trong lịch sử thị giác máy tính.

Cuộc cách mạng học sâu – Deep Learning

Vào những năm 1980s, nhà khoa học máy tính người Pháp Yan Le
Cun đã giới thiệu mạng thần kinh tích chập (convolutional neural network, CNN), một hệ thống AI lấy cảm hứng từ neocognitron của Fukushima. Một CNN bao gồm nhiều lớp tế bào thần kinh nhân tạo, các thành phần toán học mô phỏng gần giống hoạt động của các phiên bản sinh học của chúng.

*

Khi một CNN xử lý một hình ảnh, mỗi lớp của nó sẽ trích xuất các đặc trưng cụ thể từ các pixel. Lớp đầu tiên phát hiện những thứ rất cơ bản, chẳng hạn như các cạnh dọc và ngang. Khi bạn di chuyển sâu hơn vào mạng thần kinh, các lớp sẽ phát hiện các đặc trưng phức tạp hơn, bao gồm các góc và hình dạng. Các lớp cuối cùng của CNN phát hiện những thứ cụ thể như khuôn mặt, cánh cửa và xe hơi. Lớp đầu ra của CNN cung cấp một bảng các giá trị số biểu thị xác suất mà một đối tượng cụ thể được phát hiện trong ảnh.

Mạng thần kinh tích chập của Le
Cun rất tuyệt vời và cho thấy rất nhiều hứa hẹn, nhưng chúng bị cản trở bởi một vấn đề nghiêm trọng: Điều chỉnh và sử dụng chúng đòi hỏi một lượng lớn dữ liệu và tài nguyên tính toán không có sẵn tại thời điểm đó. CNN cuối cùng đã tìm thấy việc sử dụng thương mại trong một số lĩnh vực hạn chế như ngân hàng và dịch vụ bưu chính, nơi chúng được sử dụng để xử lý các chữ số và chữ viết tay trên phong bì và các tờ séc. Nhưng trong lĩnh vực nhận diện đối tượng, họ đã thất bại và nhường chỗ cho các kỹ thuật học máy khác, như ‘support vector machines’ và ‘random forests’.

Vào năm 2012, các nhà nghiên cứu AI từ Toronto đã phát triển Alex
Net, một mạng thần kinh tích chập chiếm ưu thế trong cuộc thi nhận dạng hình ảnh Image
Net nổi tiếng. Chiến thắng của Alex
Net cho thấy với sự gia tăng sẵn có của dữ liệu và tài nguyên điện toán, có lẽ đã đến lúc phải trở lại với CNN. Sự kiện này đã làm hồi sinh sự quan tâm đến các CNN và tạo ra một cuộc cách mạng trong Deep Learning, phân nhánh của Machine Learning liên quan đến việc sử dụng các mạng thần kinh nhân tạo nhiều lớp.

Nhờ những tiến bộ trong mạng thần kinh tích chập và học sâu, từ đó, lĩnh vực thị giác máy tính đã phát triển nhờ những bước nhảy vọt.

Ứng dụng của Thị giác Máy tính

Nhiều ứng dụng bạn sử dụng hàng ngày sử dụng công nghệ thị giác máy tính. Google sử dụng nó để giúp bạn tìm kiếm các đối tượng và cảnh vật như là, “con chó” hoặc “hoàng hôn” trong một thư viện hình ảnh của bạn. Các công ty khác sử dụng thị giác máy tính để giúp nâng cao hình ảnh. Một ví dụ là Adobe Lightroom CC, sử dụng thuật toán Machine Learning để tăng cường chi tiết của hình ảnh được phóng to. Cơ chế phóng to (zoom in) truyền thống sử dụng các kỹ thuật nội suy để tô màu các khu vực được phóng to, nhưng Lightroom sử dụng thị giác máy tính để phát hiện các đối tượng trong hình ảnh và làm sắc nét các đặc trưng của chúng sau khi được phóng to.

Một lĩnh vực đã đạt được tiến bộ rõ rệt nhờ những tiến bộ trong thị giác máy tính là nhận diện khuôn mặt. Apple sử dụng thuật toán nhận dạng khuôn mặt để mở khóa i
Phone. Facebook sử dụng nhận dạng khuôn mặt để phát hiện người dùng trong ảnh bạn đăng lên mạng (mặc dù không phải ai cũng thích điều này). Tại Trung Quốc, nhiều nhà bán lẻ hiện cung cấp công nghệ thanh toán qua nhận diện khuôn mặt, giúp khách hàng không cần phải tiếp cận với túi tiền của họ.

Những tiến bộ trong nhận dạng khuôn mặt cũng gây ra lo lắng cho những người ủng hộ quyền riêng tư, đặc biệt là khi các cơ quan chính phủ ở các quốc gia khác nhau đang sử dụng nó để giám sát công dân của họ.

Chuyển sang các lĩnh vực chuyên biệt hơn, thị giác máy tính nhanh chóng trở thành một công cụ không thể thiếu trong y học. Các thuật toán học sâu đang cho thấy độ chính xác ấn tượng trong việc phân tích hình ảnh y tế. Các bệnh viện và trường đại học đang sử dụng thị giác máy tính để dự đoán các loại ung thư khác nhau bằng cách kiểm tra tia X và quét MRI.

Xe tự lái cũng phụ thuộc rất nhiều vào thị giác máy tính để hiểu được môi trường xung quanh. Các thuật toán học sâu phân tích các nguồn cấp dữ liệu video từ các camera được cài đặt trên xe và phát hiện người, xe hơi, mặt đường và các vật thể khác để giúp chiếc xe di chuyển trong môi trường của nó.

Những hạn chế của Thị giác Máy tính

Các hệ thống thị giác máy tính hiện tại thực hiện tốt việc phân loại hình ảnh và bản địa hóa các đối tượng trong ảnh, khi chúng được đào tạo đầy đủ với các ví dụ. Nhưng ở phần cốt lõi của chúng, các thuật toán học sâu cung cấp sức mạnh cho các ứng dụng thị giác máy tính chính là việc đối chiếu các mẫu pixel. Chúng không hiểu những gì đang diễn ra trong các hình ảnh.

Việc hiểu mối quan hệ giữa người và đối tượng trong dữ liệu trực quan đòi hỏi phải có các cảm nhận và các kiến ​​thức cơ bản chung. Đó là lý do tại sao các thuật toán thị giác máy tính được sử dụng bởi các mạng xã hội có thể phát hiện các nội dung khỏa thân, nhưng thường phải khó khăn để phân biệt sự khác biệt giữa ảnh khoả thân an toàn (ví dụ cho con bú hoặc nghệ thuật Phục hưng) và nội dung bị cấm như nội dung khiêu dâm. Tương tự như vậy, thật khó để các thuật toán này nói lên sự khác biệt giữa tuyên truyền cực đoan và một phim tài liệu về các nhóm cực đoan!

Con người có thể khai thác kiến ​​thức rộng lớn về thế giới của mình để lấp đầy những lỗ hổng khi họ đối mặt với một tình huống mà họ chưa từng thấy trước đây. Không giống như con người, các thuật toán thị giác máy tính cần phải được hướng dẫn kỹ lưỡng về các loại đối tượng mà chúng phải phát hiện. Ngay khi môi trường của chúng chứa những thứ đi chệch khỏi các ví dụ đã được đào tạo, chúng bắt đầu hành động theo những cách phi lý, chẳng hạn như không phát hiện ra các phương tiện khẩn cấp dừng đỗ ở những vị trí khác thường.

Hiện tại, giải pháp duy nhất để giải quyết những vấn đề này là đào tạo các thuật toán AI trên với ngày càng nhiều các ví dụ, với hy vọng lượng dữ liệu bổ sung sẽ bao quát mọi tình huống mà AI sẽ gặp phải. Nhưng những kinh nghiệm cho thấy, nếu không có sự nhận thức theo tình huống, sẽ luôn có những góc khuất trong những tình huống hiếm hoi làm rối loạn thuật toán AI.

Xem thêm: Bán sỉ rong biển cháy tỏi giá sỉ, giá bán buôn, rong biển cháy tỏi hũ 200gram

Nhiều chuyên gia tin rằng chúng ta sẽ chỉ đạt được thị giác máy tính thực sự khi chúng ta tạo ra trí thông minh chung nhân tạo (artificial general intelligence), AI có thể giải quyết các vấn đề theo cách tương tự như con người. Như nhà khoa học máy tính và nhà nghiên cứu AI Melanie Mitchell đã nói trong cuốn sách Trí thông minh nhân tạo: Hướng dẫn về tư duy con người: “Dường như trí thông minh thị giác không dễ tách rời khỏi phần còn lại của trí thông minh, đặc biệt là kiến ​​thức chung, sự trừu tượng và kỹ năng ngôn ngữ. Thêm vào đó, có thể các kiến ​​thức cần thiết cho trí thông minh thị giác của con người không thể học được từ hàng triệu bức ảnh được tải xuống từ web, nhưng phải được trải nghiệm theo một cách nào đó trong thế giới thực”.