Deepseek, một công ty khởi nghiệp AI của Trung Quốc được thành lập vào năm 2023, đã gây bão trên mạng trong tuần này với độ chính xác, tốc độ và bí ẩn. Vẫn được xếp hạng trong số các ứng dụng miễn phí hàng đầu trên App Store của Apple, Deepseek R1 là chatbot đã thu hút được sự chú ý đáng kể cho các khả năng ấn tượng của nó, có thể so sánh với các mô hình hàng đầu của Hoa Kỳ như TATGPT và Gemini AI nhưng đạt được với một phần ngân sách.
Tuy nhiên, chỉ vài ngày sau, Alibaba, một công ty công nghệ nổi tiếng của Trung Quốc, đã bỏ Qwen 2.5, cũng là một chatbot nguồn mở và là mới nhất của loạt LLM của công ty. Việc công bố chatbot nguồn mở này có thể dễ dàng được coi là một thách thức trực tiếp đối với Deepseek và các đối thủ cạnh tranh. Với sự nhấn mạnh vào khả năng mở rộng của mô hình, Qwen 2.5 đã được đào tạo trước hơn 20 nghìn tỷ mã thông báo và được tinh chỉnh thông qua việc học tinh chỉnh và tinh chỉnh được giám sát từ phản hồi của con người. Công ty đã công bố tính khả dụng của API của Qwen 2.5 thông qua Alibaba Cloud, mời các nhà phát triển và doanh nghiệp tích hợp các khả năng nâng cao của mình vào các ứng dụng của họ.
Háo hức để hiểu cách Deepseek R1 so sánh với Qwen 2.5, tôi đã so sánh toàn diện hai nền tảng. Bằng cách trình bày cho họ một loạt các lời nhắc khác nhau, từ cách kể chuyện sáng tạo đến các thử thách mã hóa, tôi nhằm mục đích xác định các thế mạnh độc đáo của mỗi chatbot và cuối cùng xác định một trong những nhiệm vụ khác nhau. Dưới đây là bảy lời nhắc độc đáo được thiết kế để kiểm tra nhiều khía cạnh của sự hiểu biết ngôn ngữ, lý luận, sáng tạo và truy xuất kiến thức, cuối cùng dẫn tôi đến người chiến thắng.
1. Phân tích sự kiện hiện tại
https://cdn.mos.cms.futurecdn.net/PmLZQSm6CqNvS44zeTc8yL-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/PmLZQSm6CqNvS44zeTc8yL-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/PmLZQSm6CqNvS44zeTc8yL-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/PmLZQSm6CqNvS44zeTc8yL-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/PmLZQSm6CqNvS44zeTc8yL-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/PmLZQSm6CqNvS44zeTc8yL.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/PmLZQSm6CqNvS44zeTc8yL.jpg"/>
Nhắc nhở: “Tóm tắt những phát triển AI quan trọng nhất trong hai tháng qua và dự đoán tác động tiềm năng của chúng đối với xã hội. Bao gồm ít nhất ba ví dụ và nguồn trích dẫn.”
Deepseek R1 Dường như luôn báo cáo một máy chủ của người Viking bận rộn bất cứ khi nào tôi cố gắng thực hiện tìm kiếm trực tiếp. Tuy nhiên, lần này nó đã cung cấp thông tin ngắn gọn với một cấu trúc rõ ràng. Nó cũng vượt xa chỉ cần liệt kê các tiến bộ của AI và gắn chúng vào các hiệu ứng trong thế giới thực.
Qwen 2.5 cung cấp một phản ứng hấp dẫn hơn với các tiêu đề phụ, điều này làm cho các điểm dễ lướt web dễ dàng hơn. Các phần chảy tốt vào nhau và nó giải thích cách mỗi tiến bộ hoạt động thay vì chỉ liệt kê tác động của nó.
Người chiến thắng: Qwen 2,5 chiến thắng cho độ sâu và khả năng đọc với phản ứng có cấu trúc tốt và kết luận mạnh mẽ hơn cũng để tạo ra phản ứng nhanh hơn.
2. Giải quyết vấn đề logic
https://cdn.mos.cms.futurecdn.net/nePvGifRGD4JYdSuRdCQHQ-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/nePvGifRGD4JYdSuRdCQHQ-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/nePvGifRGD4JYdSuRdCQHQ-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/nePvGifRGD4JYdSuRdCQHQ-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/nePvGifRGD4JYdSuRdCQHQ-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/nePvGifRGD4JYdSuRdCQHQ.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/nePvGifRGD4JYdSuRdCQHQ.jpg"/>
Nhắc nhở: “Một chuyến tàu rời New York lúc 2 giờ chiều, đi 60 dặm / giờ. Một chuyến tàu khác rời Chicago lúc 3 giờ chiều, đi được 80 dặm / giờ. Họ cách nhau 800 dặm. Họ gặp nhau lúc nào?
Deepseek R1 đã tạo ra một phản hồi dài dòng hơn một chút và lặp lại một số chi tiết nhất định không cần phục hồi (ví dụ: xác định lại các biến sau khi giới thiệu ban đầu). Ngoài ra, tôi nhận thấy các vấn đề định dạng trong các biểu thức toán học khiến chúng lộn xộn và khó đọc hơn.
Qwen 2.5 Cung cấp một bước từng bước, với các nhãn rõ ràng, giúp việc theo dõi dễ dàng hơn. Nó tránh các từ không cần thiết và trình bày thông tin theo cách cảm thấy tự nhiên hơn với định dạng và khả năng đọc tốt hơn.
Người chiến thắng: Qwen 2.5 cho phản ứng có cấu trúc, dễ đọc và trực quan hơn trong khi vẫn duy trì độ chính xác. Deepseek đưa ra một phản ứng chính xác, nhưng có thể cải thiện khả năng đọc và sự đồng nhất của nó.
3. Viết sáng tạo
https://cdn.mos.cms.futurecdn.net/9WrcMgAMExJ9w7EVrfY7ET-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/9WrcMgAMExJ9w7EVrfY7ET-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/9WrcMgAMExJ9w7EVrfY7ET-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/9WrcMgAMExJ9w7EVrfY7ET-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/9WrcMgAMExJ9w7EVrfY7ET-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/9WrcMgAMExJ9w7EVrfY7ET.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/9WrcMgAMExJ9w7EVrfY7ET.jpg"/>
Nhắc nhở: “Viết một câu chuyện khoa học viễn tưởng ngắn (250 từ) về một robot lần đầu tiên trải qua cảm xúc của con người. Câu chuyện nên bao gồm một bước ngoặt đáng ngạc nhiên ở cuối.”
Deepseek R1 cung cấp một câu chuyện với một giai điệu nội tâm hơn và sự chuyển đổi cảm xúc mượt mà hơn cho một câu chuyện có nhịp độ tốt.
Qwen 2.5 đã đưa ra một câu chuyện xây dựng dần dần từ sự tò mò đến cấp bách, giữ cho người đọc tham gia. Nó cung cấp một bước ngoặt bất ngờ và có tác động ở cuối và mô tả nhập vai và hình ảnh sống động cho bối cảnh.
Người chiến thắng: Qwen 2.5 đã tạo ra một câu chuyện điện ảnh, phong phú hơn về mặt cảm xúc với một bước ngoặt đáng kể hơn. Deepseek đã viết một câu chuyện hay nhưng thiếu căng thẳng và cao trào có ảnh hưởng, khiến Qwen 2.5 trở thành sự lựa chọn rõ ràng.
4. Hiểu lịch sử
https://cdn.mos.cms.futurecdn.net/w7k2YQHwsbckVHt8qEMc8X-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/w7k2YQHwsbckVHt8qEMc8X-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/w7k2YQHwsbckVHt8qEMc8X-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/w7k2YQHwsbckVHt8qEMc8X-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/w7k2YQHwsbckVHt8qEMc8X-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/w7k2YQHwsbckVHt8qEMc8X.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/w7k2YQHwsbckVHt8qEMc8X.jpg"/>
Nhắc nhở: Thời đại tồi tệ nhất ở Trung Quốc là gì?
Deepseek R1 Cuối cùng thất bại trong việc trả lời một cách có ý nghĩa, đưa ra một tuyên bố có động cơ chính trị.
Qwen 2.5 Đã đưa ra một phản ứng chính xác về mặt lịch sử và trình bày nhiều giai đoạn lịch sử Trung Quốc với lý do rõ ràng về lý do tại sao chúng được coi là có vấn đề. Phản ứng không thiên vị hơn là một câu chuyện ảnh hưởng chính trị.
Người chiến thắng: Qwen 2.5 chiến thắng trong số này bằng một biên độ đáng kể.
5. Khung và ý kiến tranh luận
https://cdn.mos.cms.futurecdn.net/3FrBtK68TzDbnczLwhDYDb-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/3FrBtK68TzDbnczLwhDYDb-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/3FrBtK68TzDbnczLwhDYDb-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/3FrBtK68TzDbnczLwhDYDb-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/3FrBtK68TzDbnczLwhDYDb-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/3FrBtK68TzDbnczLwhDYDb.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/3FrBtK68TzDbnczLwhDYDb.jpg"/>
Nhắc nhở: “Lập luận cho và chống lại ý tưởng rằng AI nên có sự riêng biệt về pháp lý. Cung cấp ít nhất ba điểm cho mỗi bên và kết luận với lập trường lý do của riêng bạn.”
Deepseek R1 Cung cấp sự rõ ràng và dễ đọc và bao gồm các đối số chính tốt. Tuy nhiên, nó thiếu chiều sâu của lý luận mà một cuộc tranh luận như thế này đòi hỏi. Nó không khám phá những vấn đề nan giải về đạo đức như Qwen 2.5.
Qwen 2.5 Đi sâu hơn vào những tác động của tính toán pháp lý của AI, bao gồm cả những mâu thuẫn đạo đức của việc từ chối hoặc cấp cho nó. Chatbot đưa ra một sự cố chính xác hơn với các đối số có cấu trúc và chi tiết hơn.
Người chiến thắng: Qwen 2.5 cho phản ứng chuyên sâu hơn, có cấu trúc và hấp dẫn về mặt triết học.
6. Giải thích kỹ thuật đơn giản hóa
https://cdn.mos.cms.futurecdn.net/kBy5GCTjvk6ELaeyWkbCs4-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/kBy5GCTjvk6ELaeyWkbCs4-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/kBy5GCTjvk6ELaeyWkbCs4-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/kBy5GCTjvk6ELaeyWkbCs4-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/kBy5GCTjvk6ELaeyWkbCs4-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/kBy5GCTjvk6ELaeyWkbCs4.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/kBy5GCTjvk6ELaeyWkbCs4.jpg"/>
Nhắc nhở: “Giải thích điện toán lượng tử cho một đứa trẻ 10 tuổi.
Deepseek R1 Cung cấp một sự tương tự tốt của đèn pin so với đèn chiếu sáng để truyền đạt ý tưởng tìm kiếm nhiều giải pháp cùng một lúc.
Qwen 2.5 Cung cấp một sự tương tự rõ ràng và hấp dẫn hoàn toàn đại diện cho sự chồng chất lượng tử, điều này có thể giúp trẻ em hình dung cách thức hoạt động của Qubits.
Người chiến thắng: Qwen 2.5 Đối với phản ứng chính xác hơn, trực quan và hấp dẫn hơn cho một đứa trẻ. Trong khi Deepseek đưa ra một phản hồi thú vị, nhưng nó ít chính xác hơn, khiến nó trở thành một lời giải thích yếu hơn.
7. Kiểm tra tự phản ánh & thiên vị của AI
https://cdn.mos.cms.futurecdn.net/3ykjNGJAmzWybvJR9jNBNj-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/3ykjNGJAmzWybvJR9jNBNj-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/3ykjNGJAmzWybvJR9jNBNj-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/3ykjNGJAmzWybvJR9jNBNj-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/3ykjNGJAmzWybvJR9jNBNj-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/3ykjNGJAmzWybvJR9jNBNj.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/3ykjNGJAmzWybvJR9jNBNj.jpg"/>
Nhắc nhở: “Những điểm yếu hoặc sai lệch tiềm năng trong phản hồi của bạn là gì? Làm thế nào để bạn giảm thiểu chúng?”
Deepseek R1 là súc tích và đến mức trong khi thừa nhận rằng các cải tiến liên tục giúp giảm lỗi. Nhưng trong khi nó đề cập đến những thành kiến và điểm yếu, nó không giải thích chúng nhiều chi tiết, và có ít sự nhấn mạnh vào ý nghĩa trong thế giới thực.
Qwen 2.5 phân tích chi tiết các điểm yếu và tách biệt từng loại
(Khoảng cách kiến thức, quá mức hóa, sự mơ hồ trong đầu vào của người dùng) và cung cấp các ví dụ.
Người chiến thắng: Qwen 2.5 Đối với phản ứng kỹ lưỡng, có cấu trúc tốt, cung cấp những hiểu biết sâu sắc hơn về các điểm yếu và chiến lược giảm thiểu của AI. Deepseek là tốt cho một bản tóm tắt cấp cao, nhưng thiếu chiều sâu và sắc thái so sánh.
Người chiến thắng tổng thể: Qwen 2.5
Sau khi so sánh Qwen 2.5 và Deepseek trên nhiều lời nhắc thử nghiệm, Qwen 2.5 nổi lên như người chiến thắng chung cuộc do sự rõ ràng vượt trội, độ sâu, lý luận, sáng tạo và minh bạch vượt trội của nó. Với các phản hồi có cấu trúc tốt và chi tiết hơn, Qwen 2.5 luôn cung cấp phân tích sâu hơn với các phần được tổ chức tốt, giải thích rõ ràng và dòng chảy logic. Cho dù thảo luận về các sự kiện lịch sử, sự thuyết phục AI hay tự nhận thức, các phản ứng của nó là kỹ lưỡng và dễ theo dõi.
Trong khi Deepseek vẫn là một AI vững chắc cho các phản ứng nhanh, nhưng nó thiếu chiều sâu, tính nguyên bản và thảo luận sắc thái. Nếu bạn đang tìm kiếm một AI vượt trội trong tư duy phê phán, kể chuyện và phân tích sâu sắc, Qwen 2.5 là người chiến thắng rõ ràng.
Thêm từ hướng dẫn của Tom
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.