D Chúa lại lên sóng rồi à? Thật hay giả? Deepseek đã kìm nén nó quá lâu và gần đây cuối cùng anh ấy cũng bắt đầu bộc lộ nó. Tuần trước họ đã âm thầm tung ra mẫu V4, sau đó là hai đợt giảm giá lớn. . Liang Shen, bạn lại đến để cứu tất cả chúng sinh à? Kết quả là hôm nay, nó bất ngờ ập đến và đẩy tôi đến một làn sóng thử nghiệm xám xịt: DeepSeek, có khả năng đa phương thức. Nói chính xác thì đó là nhận dạng hình ảnh.
Sau khi kiểm tra thẻ thì là hàng chính hãng.

Những ai muốn thử điều gì đó mới mẻ có thể mở DeepSeek của bạn và xem ngay bây giờ.
Nếu trong giao diện có "chế độ nhận dạng hình ảnh", xin chúc mừng, bạn là người may mắn được thử nghiệm nội bộ và có thể trực tiếp mua miễn phí phiên bản V4 đa phương thức thực sự.
Nhà nghiên cứu riêng của DeepSeek Chen Xiaokang không thể không đăng một bài đăng. Chúng ta, những con cá voi cuối cùng cũng có mắt và không còn là những nhà sư mù của máy chủ quốc gia nữa!

Tại sao mọi người lại hào hứng đến vậy? Trên thực tế, DeepSeek đã bị chỉ trích từ lâu vì không có tính năng đa phương thức. Ba gã khổng lồ nước ngoài ChatGPT, Gemini và Claude từ lâu đã có khả năng đa phương thức. Những người mẫu nội địa như Doubao, Qianwen cũng làm rất tốt.
Đối với chiếc đèn sản xuất trong nước có nhiều hy vọng này, nó đã không thể nhận ra ngay cả một bức ảnh trong nhiều năm như vậy. Nó chỉ có thể dựa vào OCR, tức là để nhận dạng văn bản trong ảnh. Trải nghiệm sử dụng thực sự kém.
Bây giờ, khuyết điểm này cuối cùng đã được lấp đầy.
Không dài dòng nữa, hãy đi thẳng vào phần kiểm tra.
Trước hết, nó loại bỏ OCR truyền thống và thực sự có thể nhìn thấy toàn bộ bức tranh. Bạn có thể yên tâm về điều này.
Ví dụ: nếu chúng ta đưa cho nó một đoạn văn bản có nội dung "Đây là một dòng văn bản màu đỏ" được viết bằng màu xanh lam, nếu chúng ta chỉ sử dụng OCR truyền thống, nó chỉ có thể nhận ra rằng văn bản đó là "Đây là một dòng văn bản màu đỏ" và nó sẽ không bao giờ nhận ra rằng đó là màu xanh lam. (Thậm chí có thể không nhận ra được)

Sau khi bật chế độ trực quan, nó có thể xác định chính xác đây là một dòng chữ màu xanh và đỏ, thậm chí còn cảm nhận được sự hài hước của tôi.

Không chỉ vậy nó còn có khả năng suy luận trực quan.
Mọi người đã xem meme này chưa? Tôi tin rằng với trí thông minh của mình, tôi chắc chắn có thể hiểu được những gì viết trong hình.

Vì vậy tôi đã gửi nó đến DeepSeek và nhờ DeepSeek giúp tôi phân tích những điểm hài hước.
Sau khi suy nghĩ, nó không chỉ tìm ra mà còn tạo ra một bản dịch bản địa hóa của "Golden Dalia", "Silver Dalia" và "Copper Dalia". Nó làm tôi cười.

Sau đó, tôi gửi cho nó một bức ảnh mà một đồng nghiệp tình cờ chụp được khi đang lái xe. Nó thực sự khá mờ và chỉ có thể phân tích một số thông tin về ngoại hình và hiệu ứng ánh sáng.

Kết quả là nó đoán được chiếc xe đúng là Subaru và suy nghĩ 13 giây đã đưa ra kết luận.

Xét rằng Giáo viên D là một chuyên gia toán học, chúng tôi đã gửi cho anh ấy một meme khác liên quan đến toán học. Thành thật mà nói, Shichao gần như không hiểu điều đó. Đó là bố vợ của anh trai anh.

Lời giải thích của giáo viên D vẫn hoàn hảo.
Nó không chỉ hiểu các thao tác đơn giản mà còn nhìn thấy một số từ đồng âm trong đó: lấy phần thực nghĩa là loại bỏ số ảo "i", tức là loại bỏ "Mắt", tức là loại bỏ mắt. Hình tam giác ngược là gradient, là "Grad", gần giống với "Graduate", vì vậy tôi đội chiếc mũ cử nhân lên khuôn mặt nhỏ nhắn của mình.
Những ai quên kiến thức toán học có thể ôn lại từng chữ một.

Nhân tiện, mình cũng đã thử nghiệm một số vấn đề trong cuộc sống, chẳng hạn như cắm phích cắm 3,5mm này vào đâu.

Tôi nên cắm cổng USB vuông này ở đâu?

Mặc dù rất đơn giản nhưng nó có thể hiểu được những bức ảnh ngẫu nhiên của tôi khi tôi không lấy nét và có thể được coi là đủ năng lực cho các công việc hàng ngày.
Nhưng trên thực tế, theo số đo thực tế của Shichao, phiên bản hiện tại của Thầy D không phải là bất khả chiến bại.
Ví dụ: chúng tôi đã đưa cho nó một bức ảnh, một cảnh đêm rất đẹp của trái đất.

DeepSeek cũng nhìn thấy khá rõ và cho biết bức ảnh này đến từ Trạm vũ trụ quốc tế.

Nhưng thực ra, nếu lật bức ảnh lên và nhìn vào, bạn sẽ thấy Bức ảnh này là ảnh chụp thành phố dưới ánh hoàng hôn. Đây là một góc nhìn lộn ngược...
Sau đó, tôi ném nó cho Gemini, một chuyên gia đa phương thức được công nhận... và nó thực sự đã nhìn thấy nó. Không, bạn có mạnh mẽ đến vậy ngay cả khi bạn mất đi trí thông minh không?

Vẫn không thể khiến vua đa phương thức cố gắng hết sức được, Cá voi Haji.
bao gồm nhận dạng một số khuôn mặt và đôi khi gặp sự cố. Ví dụ: tôi ném hình ảnh một chiếc túi đậu vào nó và thứ mà nó nhận ra đối với tôi là Luo Xiang, trưởng nhóm UP của trạm B.

Ngoài ra còn có vấn đề ảo ảnh quang học cổ điển này. Hai quả bóng rõ ràng không có cùng kích thước, phải không? Kết quả là cô D nghĩ đi nghĩ lại và nói với tôi rằng hai quả bóng có cùng kích thước.

Không Sau đó, tôi cũng đã xem xét quá trình suy nghĩ của nó. Thực ra nó đã thấy quả bóng bên phải to hơn, nhưng vì đọc kỹ câu hỏi nên tôi cảm thấy đây là ảo ảnh được ban cho nên đã chọn cách tự lừa dối mình và nói rằng chúng có cùng kích thước. . Có thể học tăng cường quá mạnh.

Việc đánh giá toàn diện có thể mang đến cho bạn sự lưỡng tính giữa ma và thần. Khi nén thì nén, khi kéo là kéo xong. .
Nhưng một lần nữa, DeepSeek mới phát triển về mắt nên chúng ta vẫn phải cho nó một thời gian để thích nghi với thế giới này.
Cuối cùng, cuộc chiến giữa những gã khổng lồ AI hiện tại đã vượt qua giai đoạn làng mới làm quen từ lâu, nơi nó chỉ xem xét điểm chạy và khả năng xuất văn bản.
Mức độ mã hóa, khả năng đa phương thức, độ mượt mà của các công cụ gọi điện, v.v., về cơ bản là không thể thiếu.
Nhưng sự vắng mặt của thầy Big D trước đó về khả năng đa phương thức luôn khiến tôi cảm thấy tiếc nuối. Có vẻ như mọi người đều đang ồn ào và làm việc nhưng khả năng của Agent DeepSeeK bị giảm đi rất nhiều vì thiếu đi cánh tay và đôi mắt.
Xét cho cùng, hầu hết các mẫu và API hiện tại đều là đa phương thức hoặc ít nhất có khả năng nhập hình ảnh.

Tôi cũng hy vọng rằng DeepSeek có thể cập nhật khả năng nhận dạng hình ảnh đa phương thức lên API của mẫu V4 mới càng sớm càng tốt.
Bạn biết đấy, trước khi bị bịt mắt, tôi đã chiến đấu qua lại với rất nhiều đối thủ. . Bây giờ hãy tháo bịt mắt ra, hiệu suất của các công cụ như Claude Code, Lobster, Cowork, v.v. dự kiến sẽ được cải thiện rất nhiều.
Ngoài ra, xét theo tần suất DeepSeek thổi bong bóng để tăng sự hiện diện trong khoảng thời gian này, ước tính vẫn còn rất nhiều combo đang chờ được thực hiện.
Không nói nhiều nữa, hãy cùng xem màn trình diễn của Thầy D.