Bộ não - Trung tâm xử lý của nhận thức

Mạng lưới các tế bào thần kinh

Trong cơ thể con người, não bộ chính là trung tâm của hệ thần kinh và cũng là nơi xử lý quá trình nhận thức. Các tín hiệu kích thích truyền từ các giác quan đến não để xử lý và não bộ gửi các tín hiệu phản hồi để điều khiển các cơ quan. Não được hình thành từ các tế bào thần kinh hay còn gọi là các tế bào nơ-ron (neuron cell). Một tế bào nơ-ron bao gồm một thân tế bào chứa nhân là trung tâm điều khiển của tế bào. Từ thân tế bào mọc ra các sợi nhánh(dendrite) và một sợi trục dài(axon).

Neuron cell

Tế bào thần kinh (neuron cell)

Sợi nhánh nhận các tín hiệu được truyền từ các nơ-ron khác và truyền về thân tế bào. Thân tế bào sẽ nhận các tín hiệu kích thích và phát sinh ra một xung truyền ra sợi trục để truyền đến các tế bào tiếp theo. Cứ như thế, các tế bào thần kinh liên kết dày đặc với nhau hình thành một mạng lưới thần kinh cho phép tín hiệu kích thích đi từ các giác quan truyền vào sâu trong não và hình thành nhận thức của chúng ta. Nơi nối tiếp giữa tế bào thần kinh này và tế bào thần kinh khác được gọi là synapse. Synapse đóng vai trò như một cổng tiếp nhận tín hiệu thần kinh truyền từ tế bào này sang tế bào khác. Các tín hiệu thần kinh (dưới dạng hợp chất hóa học hay tín hiệu điện) đi ra từ sợi trục và sẽ được tiếp nhận bởi các cơ quan thụ cảm hay các cổng điện hóa ở tế bào tiếp theo. Tuy nhiên, cấu trúc của các cơ quan thụ cảm của tế bào nhận các nơ-ron thần kinh có thể cho phép tín hiệu truyền vào hoặc ức chế tín hiệu. Nói cách khác nó giống với quá trình chọn lọc hay sự điều chỉnh tín hiệu. Sự khác biệt trong việc thụ cảm các tín hiệu thần kinh dẫn đến sự khác biệt trong chức năng của các tế bào nơ-ron, cho phép chúng xử lý các tín hiệu khác nhau từ thế giới bên ngoài.

Sự chuyên biệt hóa của não bộ

Do sự khác biệt trong khả năng bị kích thích bởi các tín hiệu thần kinh, các nơ-ron khác nhau có thể xử lý các tín hiệu khác nhau. Ví dụ trong các nơ-ron truyền tín hiệu từ thị giác đi vào trong não, có các tế bào sẽ bị kích hoạt khi ta nhìn thấy đường chéo hay có tế bào sẽ kích hoạt khi ta nhìn thấy hình tròn, .... Điều này cũng tương tự cho các giác quan khác, chúng tạo cho chúng ta cảm nhận những cảm giác khác nhau và từ đó não bộ sẽ có những phản hồi khác nhau. Các nơ-ron thần kinh khác nhau tập hợp lại thành một vùng chuyên biệt trong bộ não. Các nơ-ron trong vùng chuyên biệt này cùng nhau xử lý một loại tín hiệu phức tạp hơn so với một nơ-ron đơn lẻ có thể đảm trách. Ví dụ như tập hợp các nơ-ron nằm ở vùng sau đầu hình thành thùy chẩm có trách nhiệm xứ lý tín hiệu thị giác truyền từ mắt vào. Não bộ về cơ bản được chia làm các vùng như sau:

Sự phân vùng của não bộ

Trong từng vùng của bộ não lại cũng có sự chuyên biệt hóa. Theo một nghiên cứu của giáo sự Nancy Kanwisher, bộ não không chỉ chia thành từng vùng xử lý tín hiệu chung như thị giác, thính giác mà còn chuyên biệt đến mức có những vùng chỉ chuyên phản ứng khi nhìn thấy khuôn mặt, hay khi thấy một loại màu sắc hay khi nghe một âm thanh có tần số cao, .... Bộ não của chúng ta vừa là một chỉnh thể thống nhất phục vụ cho một mục đích chung là xử lý tín hiệu nhưng đồng thời cũng là tổ hợp của nhiều thành phần khác nhau, chuyên biệt cho các tính năng khác nhau. Điều kỳ diệu hơn nữa là não bộ có thể giao tiếp giữa các vùng với nhau như giữa thị giác và ngôn ngữ, khi ta thấy một bức tranh ta có thể mô tả nó hay khi ta thấy một ai đó ta có thể gọi tên họ (nếu ta đã từng biết qua). Nhờ vào sự chuyên biệt hóa này, não bộ có thể dễ dàng xử lý các loại thông tin đa dạng khác nhau, khai thác tối đa sự đặc thù của tín hiệu đó và kết nối chúng lại với nhau thành những khái niệm có nghĩa và hình thành nên nhận thức, hiểu biết của chúng ta. Giống như sự kết nối giữa hình ảnh con bò và âm thanh "bò" sẽ cho ta biết rằng con vật đó gắn liền với từ "bò" và lần sau gặp chúng ta có thể gọi tên nó.

Thị giác - nguồn dữ liệu quan trọng

Sức mạnh của thị giác

Có câu: "Trăm nghe không bằng một thấy". Câu nói này cho thấy được sự quan trọng của tín hiệu thị giác đối với nhận thức của con người. Giả sử rằng bạn chưa từng thấy con voi bao giờ và bạn vừa mới nghe bạn mình đang nói về con voi. Bạn tò mò muốn biết nó như thế nào và hỏi bạn của bạn mô tả về nó. Bạn của bạn nói rằng nó có 4 chân, mũi dài, tai to, thân mình to lớn, ... nhưng thật khó để tưởng tượng ra được con voi trông như thế nào chỉ với vài câu mô tả và có khi cần đến cả đoạn văn dài để có thể tả chi tiết đến màu sắc và hình dáng của con voi. Tuy nhiên tất cả sẽ đơn giản hơn nếu bạn được đưa cho một tấm hình của con voi và "oh! thì ra con voi là như thế này".

Cái nào là kiki và cái nào là bouba

Thị giác không chỉ đơn thuần xử lý hình dạng bên ngoài của vật thể mà nó còn có thể cung cấp nhiều thông tin hơn thế nữa. Cũng giống như việc bạn nhìn vào một dĩa đồ ăn, chưa cần nếm hay ngưởi mùi bạn cũng đã có thể có đánh giá về nó, "trông" nó có ngon hay không. Hay như hiệu ứng kiki-bouba thường được dùng trong làm phim hoạt hình, ta thường có ác cảm với các vật nhọn và thiện cảm với hình tròn. Nói cách khác, phần lớn nhận định của chúng ta là dựa trên thị giác. Việc chúng ta phụ thuộc nhiều vào thị giác là hoàn toàn bình thường vì thị giác cung cấp cho chúng ta thông tin nhanh hơn các giác quan khác. Trong cuộc chiến sinh tồn thì việc tìm kiếm thức ăn và trốn tránh kẻ thù là cực kỳ quan trọng. Các giác quan như xúc giác và vị giác đòi hỏi sự tiếp xúc cũng như khứu giác cần khoảng cách gần, hoàn toàn không tốt cho việc trốn tránh kẻ thù. Thử tưởng tượng ta phải mò mẫm một hồi để nhận ra đó là một con sư tử đang đói đứng ngay cạnh ta. Thính giác cũng có thể hoạt động ở khoảng cách xa nhưng không có nhiều thông tin như thị giác và đặc biệt kém hữu ích khi tìm kiếm thức ăn, chẳng ai lại đi nghe xem dĩa thức ăn đang ở đâu, họ "nhìn" xung quanh và tìm kiếm. Thị giác đóng vai trò quan trọng cho nên hầu hết các khái niệm và nhận thức của ta có được là nhờ vào thị giác, chúng ta hiểu được con voi là nhờ đã từng nhìn thấy con voi, chúng ta học hỏi thông qua quan sát người khác và học bằng hình ảnh giúp chúng ta dễ học hơn. Thử tưởng tượng thế giới này ai sinh ra cũng đã khiếm khuyết về thị giác thì liệu con người có thể đạt đến nền văn minh như ngày nay hay sẽ trở nên giống với loài dơi chỉ kiếm ăn về đêm. Thị giác đóng góp phần nhiều cho ngữ nghĩa và khái niệm trong đầu chúng ta và từ đó cho chúng ta nhận thức cao về thế giới. Nếu máy tính muốn được như con người thì nhất định phải đạt được khả năng nhìn và hiểu như con người.

Phân biệt và gom nhóm các vật thể

Trong ngành thị giác máy tính, có một bài toán được nhiều người quan tâm là bài toán phát hiện vật thể (detection and segmentation). Bài toán đặt ra câu hỏi làm thế nào để từ một bức ảnh cho trước có thể chỉ ra được cái cây nằm ở đâu trong bức ảnh, con chó nằm ở đâu và thậm chí có thể "xé" chính xác con chó ra khỏi bức ảnh và dán lên bức ảnh khác chẳng hạn. Bài toán này đối với con người là môt điều vô cùng dễ dàng vậy tại sao lại là một bài toán khó đối với máy tính? Hình ảnh trong máy tính được biểu thị bởi các điểm ảnh và các điểm ảnh này được thể hiện dưới dạng con số. Đối với con người thì hình ảnh vào mắt người cũng tượng tự. Mắt chúng ta hoạt động như một thấu kính thu thập các tia sáng đi từ vật thể đến ta, các tia sáng này sẽ kích thích các tế bào thần kinh ở mắt và truyền tín hiệu đi vào não. Các tia sáng có màu sắc khác nhau là do có năng lượng khác nhau, bước sóng khác nhau tương tự như những con số khác nhau biểu thị màu sắc trong máy tính và hình ảnh ta có được cũng là tập hợp các điểm sáng, giống với các pixel tạo nên hình ảnh trong máy tính. Câu hỏi đặt ra là con người làm thế nào có thể gom các điểm ảnh này thành một đối tượng cụ thể?

mắt thu thập ánh sáng từ vật thể và truyền vào não.

Con người có thể dựa vào màu sắc để phân tách các vật thể với nhau. Con người có khả năng phân biệt hơn 1 triệu màu sắc khác nhau. Tại vị trí chuyển tiếp từ màu này sang màu khác hình thành sự khác biệt và con người nhanh chóng nhận ra biên giới đó và nhận ra rằng đã có sự thay đổi từ đó tách biệt các đối tượng dựa trên màu sắc. Giống như việc ta dễ nhận ra một hình tròn đen giữa nền trắng vì sự khác biệt rõ ràng nhưng sẽ khó phát hiện ra hơn nếu màu sắc chúng giống nhau. Nhiều loài động vật đã dựa trên điều này để ngụy trang bằng cách thay đổi màu cho giống với môi trường khiến kẻ thù khó phát hiện ra được.
Đôi khi màu sắc giúp phân biệt các đối tượng (mèo) nhưng đôi khi lại không (tắc kè).
Tuy nhiên, màu sắc không phải là yếu tố duy nhất. Chẳng hạn như bức ảnh chiếc xe hay con bò sữa - những vật thể mang nhiều màu sắc - thì con người vẫn nhận ra được trong khi nếu chỉ dùng màu sắc thì bánh xe và chiếc xe phải tách rời và những đốm trên con bò sữa cũng tách rời khỏi con bò. Con người còn có khả năng gom nhóm các vùng màu khác nhau để tổng hợp nên hình ảnh của đối tượng. Vậy tại sao lại gom đốm đen chứ không phải cỏ vào hình ảnh con bò. Một trong những yếu tố quyết định điều đó chính là chuyển động. Một nghiên cứu của Pawan Sinha chỉ ra rằng chuyển động góp phần giúp con người phân biệt được các vật thể, hay nói cách khác là các vật chuyển động cùng nhau thì sẽ được gom về một vật thể. Thí nghiệm của Pawan Sinha cho những người mới được phẫu thuật mắt quan sát và gọi tên hình dạng vật thể có trong hình. Ban đầu những người tham gia không thể nhận ra hình tam giác giữa nhiều vạch thẳng, họ cứ vẫn cho rằng đó là các vạch thẳng đặt gần nhau. Cho đến khi vật thể được cho chuyển động, họ nhận ra ngay đó là hình tam giác.

hình ảnh minh họa cho thí nghiệm của Pawan Sinha.

Có thể thấy, nhờ vào khả năng phân biệt màu sắc và phát hiện chuyển động, con người có thể tách biệt các vật thể khác nhau (segmentation) đồng thời cũng có thể dò tìm đối tượng (tracking) dựa trên khả năng phát hiện hướng chuyển động của đối tượng và đưa mắt nhìn theo hướng đó. Ngoài khả năng phát hiện đối tượng (detection and segmentation), con người còn có khả năng nhận dạng đối tượng và gọi tên đối tượng đó (recognition and classification). Con người làm được điều này là nhờ khả năng đối sánh các đối tượng với nhau. Nhờ khả năng so sánh này mà con người biết được đối tượng A giống với đối tượng B hơn hay giống với đối tượng C hơn và thậm chí còn biết vật này dài hơn vật kia, vật này to hơn vật kia mà không cần đến một số đo cụ thể. Việc đối sánh như vậy giúp con người gom nhóm các đối tượng mà họ nhìn thấy, phân loại chúng và rút ra một khái niệm chung. Giống như cách hoạt động của cặp phạm trù chung-riêng trong triết học mác-lênin, con người lấy các cá thể mà họ gặp làm những cái riêng, gom nhóm, đối sánh và rút ra được khái niệm chung và gọi tên khái niệm đó. Ví dụ như khi được hỏi làm sao một người biết đó là con voi, họ thường trả lời vì nó có cái vòi, thân mình to lớn, ... Những lý do họ đưa ra thường là những đặc trưng chung của loài voi được rút ra từ những lần nhìn thấy con voi trong quá khứ và tổng hợp thành một khái niệm trừu tượng của con voi. Tuy nhiên, cách con người so sánh và gom nhóm vẫn là bí ẩn và thậm chí nó còn không nhất ở loài người. Những người khác nhau có thể có cách phân loại khác nhau. Ví dụ như cần gom nhóm 3 đối tượng gấu trúc, quả chuối và con khỉ. Nếu xét về quan hệ thức ăn thì con khỉ và quả chuối sẽ thành một nhóm nhưng nếu xét về chủng loại thì khỉ và gấu trúc sẽ thành môt nhóm là động vật. Dù vậy cộng đồng người vẫn đạt được sự thống nhất nào đó để hình thành nên cac nhóm khái niệm như ngày nay.

Trí nhớ

Chúng ta học bằng cách nhớ

Khả năng nhận dạng vật thể không chỉ dựa vào khả năng phân biệt và so sánh các vật thể với nhau mà còn dựa vào trí nhớ, so sánh với các vật thể, sự kiện được lưu vào trong não. Trí nhớ đóng vai trò cốt lõi cho việc học một khái niệm mới và góp phần đảm bảo cho sự sinh tồn. Ví dụ như chúng ta nghe thấy một tiếng gầm và một con hổ xuất hiện tấn công ta; nếu ta may mắn chạy thoát thì lần sau ngay khi nghe thấy tiếng gầm một lần nữa ta sẽ bỏ chạy ngay mà không cần chờ con hổ xuất hiện. Đó chính là ta đã học để sinh tồn. Việc ghi nhớ chính là sự lưu lại những ấn tượng của ta về sự vật, sự việc trong những lần đầu tiếp xúc và dùng nó để đoán định các sự vật, hiện tượng mới. Giống như một đứa bé bị chó cắn từ nhỏ sẽ có xu hướng sợ chó khi lớn lên. Trí nhớ của chúng ta hoạt động bằng cách liên kết các sự vật hiện tượng (video). Memory Cụ thể hơn, các tín hiệu từ sự vật hiện tượng sẽ kích hoạt một số nơ-ron nhất định. Các nơ-ron "giao tiếp" với nhau bằng cách truyền tải các xung thần kinh. Khi hai nơ-ron có sự "giao tiếp" lặp đi lặp lại nhiều lần thì liên kết giữa hai nơ-ron đó trở nên mạnh hơn và khi một nơ-ron kích hoạt thì ngay lập tức có thể kích hoạt nơ-ron còn lại. Khi đó chỉ cần 1 hiện tượng xảy ra và ta có thể ngay lập tức nhớ lại (recall) sự vật hiện tượng gắn liền với nó. Đây cũng chính là cách chúng ta học. Chúng ta học cách chạy khỏi con hổ khi nghe tiếng gầm là vì ta đã hình thành một liên kết mạnh mẽ trong hệ thần kinh từ những lần nghe tiếng gầm và con hổ trong quá khứ. Ta cũng học cách gọi tên vật thể dựa trên liên kết giữa tín hiệu âm thanh (tên vật thể) và tín hiệu hình ảnh của vật thể. Ví dụ như khi nghe từ "con voi" các tế bào thần kinh thính giác kích hoạt và đồng thời cũng kích hoạt các tế bào thần kinh thị giác liên kết mạnh mẽ với từ "con voi" và cho ta gợi nhớ về hình ảnh con voi. Hay ngược lại khi thấy con voi, sự kích hoạt trong các tế bào thị giác cũng làm cho các tế bào thần kinh xử lý ngôn ngữ cũng được kích hoạt và cho ta khả năng nói từ "con voi". Sự kết hợp giữa trí nhớ và khả năng phân biệt-gom nhóm giúp chúng ta nhận dạng và giao tiếp. Chúng ta có thể nhận ra sự khác biệt và giống nhau giữa các sự vật hiện tượng, gom nhóm chúng lại theo từng cấp độ và đặt cho chúng một tên gọi. Qua giao tiếp hàng ngày, chúng ta dạy cho nhau mối liên kết giữa tên gọi và khái niệm nó như khi ta dạy một đứa trẻ gọi ba khi nhì thấy ba nó. Trong suốt quãng đời phát triển, não bộ không ngừng tiếp thu những tín hiệu từ các giác quan một cách liên tục và kết nối chúng lại với nhau. Nhờ đó chúng ta nhận thức được mối quan hệ giữa các vật thể và tích lũy kinh nghiệm. Từ những thức tích lũy được đó, ta dễ dàng tái xây dựng lại mối quan hệ giữa các đối tượng (vd như tên gọi và vật thể, sự xuất hiện đi kèm như con hổ và tiếng gầm) và đưa ra những phản hồi phù hợp.

Sự tập trung

Nếu các bạn đã xem qua video ở trên thì sẽ thấy một chi tiết rằng sự tập trung ảnh hưởng đến tính hiệu quả của việc ghi nhớ. Chúng ta sẽ nhớ rõ hơn và lâu hơn khi chú ta tập trung vào sự vật hiện tượng. Sự tập trung giống như một sự sàng lọc thông tin, lấy những thông tin ta quan tâm và lượt bỏ những thông tin ta ít quan tâm. Một nghiên cứu của Mehdi Ordikhani-Seyedlar về sự tập trung cho thấy rằng khi chúng ta tập trung vào một sự vật hiện tượng thì thông tin từ sự vật hiện tượng kích hoạt các tín hiệu thần kinh mạnh hơn khi ta không tập trung. Như khi ta tập trung vào hình ảnh con voi thì những thông tin từ con voi sẽ dễ dàng kích hoạt các tế bào thần kinh một cách mạnh mẽ và tín hiệu có thể truyền sâu vào trong não. Nhưng khi ta không tập trung, tín hiệu sẽ trở nên yếu ớt và có thể bị mất trong quá trình lan truyền. Điều này khiến ta không thể nhớ được những chi tiết nếu chúng ta không tập trung vào đó. Ví dụ như khi ta đang hăng say theo dõi một trận đấu bóng đá thì ta có thể sẽ không để ý thấy có người đến ngồi bên cạnh. Não trong một thời điểm nhận về rất nhiều tín hiệu từ các giác quan (thị giác, thính giác, xúc giác,... và cả các tín hiệu điều khiển từ các cơ quan nội tạng) nên rất khó để xử lý đồng thời một lượng lớn tín hiệu như vậy. Sự tập trung sẽ chắc lọc tín hiệu quan trọng để não ưu tiên xử lý. Do vậy mà khi ta bị đau chân thì ta thường có xu hướng chỉ tập trung vào cơn đau và khó tập trung vào việc khác vì tín hiệu cơn đau từ chân đủ mạnh để tranh giành sự tập trung của não bộ. Nhưng nếu bằng cách nào đó ta tập trung vào một việc khác, ta có thể quên đi cơ đau.

Trí tuệ nhận tạo đã tiến gần đến mức nào

Trong nhiều năm qua, có rất nhiều phương pháp tiếp cận các bài toán khác nhau trong lĩnh vực Trí Tuệ Nhân tạo để cố gắng dạy cho máy tính có thể làm được những điều như con người làm. Trong những năm gần đây, các phương pháp về Deep Learning được áp dụng rộng rãi do khả năng học sâu từ dữ liệu trong các bài toán khác nhau. Có thể nói Deep Learning giống như một phương pháp mô phỏng lại cách con người nhận thức thế giới. Vậy chúng ta đã tiến gần đến mức nào? Từ những giai đoạn đầu tiên khi con người bắt đầu mô phỏng lại tế bào thần kinh cho bài toán phân lớp nhị phân. Một mô hình đơn giản được cho ra đời với nhiều đầu vào tương tự như các sợi nhánh và một đầu ra tương tự như sợi trục. Các giá trị đi vào mô hình và sẽ được kích hoạt thông qua một hàm kích hoạt và cho ra một giá trị đầu ra. Mô hình này ban đầu hoạt động khá tốt nhưng bắt đầu thể hiện sự kém hiệu quả trong các bài toán phức tạp hơn khi mà dữ liệu không khả tách tuyến tính. Lúc này chúng ta nhận ra rằng não bộ không chỉ là một tế bào đơn lẻ mà còn là một mạng lưới các tế bào. Vì vậy các mô hình được nối vào nhau và hình thành nên một mô hình gọi là Mạng truyền thẳng đa lớp. Chúng ta tiếp tục sao chép các thức mà hệ thần kinh thị giác hoạt động. Các nơ-ron không liên kết đầy đủ với nhau và có thể chia thành vùng cục bộ, xử lý một phần tín hiệu từ hình ảnh đi từ mắt vào. Từ đó mạng Nơ-ron Tích Chập ra đời với kiến trúc phù hợp cho xử lý dữ liệu hình ảnh và thực sự nó đã thể hiện được tính hiệu quả của nó với những kiến trúc điển hình như VGG16, VGG19, .... Tuy nhiên, kiến trúc này lại gặp vấn đề với các dữ liệu dạng chuỗi, hay nói cách khác là có tính thứ tự theo thời gian như câu văn và video. Chúng ta số trong một thế giới có khái niệm thời gian và mỗi khoảnh khắc chúng ta thu được không độc lập nhau mà phụ thuộc vào quá khứ và có thể dùng để dự đoán tương lai. Từ đó ta xây dựng nên mô hình Mạng nơ-ron Tái Phát. Sau sự phát triển của Mạng nơ-ron Tái Phát, chúng ta bắt đầu tập trung vào việc làm sao để liên kết các loại tín hiệu lại với nhau, giống như cách các tín hiệu được liên kết khi chúng ta nhớ và làm sao chuyển đổi từ tín hiệu này sang tín hiệu khác. Các mô hình cho bài bài toán về Embedding, Grounding Image-text ra đời nhằm tìm mối liên kết giữa ngôn ngữ và hình ảnh. Đồng thời các mô hình Sequence to Sequence cũng được xây dựng cho bài toán dịch máy hay phát sinh câu mô tả cho ảnh và video hay thậm chí ngược lại, phát sinh lại ảnh từ câu mô tả. Chúng ta cũng thêm vào mô hình tương tự với sự tập trung của con người - Attentional Mechanism - với khả năng giữ lại những tín hiệu quan trọng và làm yếu đi những tín hiệu không quan trọng. Kết quả của sự kết hợp mô hình Attentional Mechanism đã cho ra nhiều kết quả đáng ngạc nhiên trong bài toán phát sinh câu mô tả cho ảnh (paper). Không dừng lại ở đó, chúng ta cũng bắt đầu thêm vào bộ nhớ cho các mô hình để các mô hình có thể lưu trữ thông tin lâu dài hơn phục vụ cho bài toán Question-Answering. Những mô hình như Memory Network, Neural Turing Machine ra đời với kiến trúc mạng nơ-ron kết hợp thêm vùng nhớ lưu trữ thông tin. Có thể thấy một quá trình phát triển từ một tế bào đơn lẻ cho đến những mồ hình phức tạp hơn, cao cấp hơn phục vụ cho các bài toán khác nhau. Chúng ta đã tiến rất xa trên con đường phát triển trí tuệ nhận tạo. Máy tính đã có thể dịch từ ngôn ngữ này sang ngôn ngữ phát, nhận dạng được vật thể, phát sinh câu mô tả cho ảnh và video và thậm chí trả lời những câu hỏi từ những dữ kiện cho trước. Có thể thấy sự mô phỏng cách thức con người nhận thức đã đem lại nhiều kết quả đáng ngạc nhiên. Tuy nhiên, trí não con người vẫn còn rất nhiều bí ẩn và chúng ta chỉ mới khám phá một phần nhỏ trong đó. Chúng ta chưa hiểu hết trí não con người nên chưa thể mô phỏng một cách hoàn hảo. Những mô hình vẫn còn nhiều hạn chế và trí tuệ nhân tạo vẫn chưa thật sự tiến gần với trí thông minh của con người. Chúng ta có thể đã tiến rất xa, nhưng chặn đường phía trước vẫn còn xa hơn.