Google ra mắt Gemini 3.1 với cửa sổ ngữ cảnh 2 triệu token. Mọi tiêu đề đều coi đây là bước đột phá. Và đối với một số trường hợp sử dụng cụ thể — xử lý toàn bộ mã nguồn, phân tích sách, tìm kiếm qua hàng giờ video — thì đúng là như vậy. Nhưng cách tiếp thị đã tạo ra một giả định nguy hiểm: ngữ cảnh càng lớn = kết quả càng tốt.

Điều đó không đúng. Trong hầu hết các tác vụ thực tế, chất lượng ngữ cảnh quan trọng hơn số lượng. Một prompt 5.000 token được tinh chỉnh với đúng thông tin cần thiết sẽ mang lại kết quả tốt hơn so với việc đổ 500.000 token chứa toàn bộ thông tin có liên quan lỏng lẻo.

Tóm tắt chính

Cửa sổ ngữ cảnh giống như không gian lưu trữ: có gara rộng hơn không khiến bạn trở thành người lái xe giỏi hơn. Điều quan trọng là những gì bạn đặt vào ngữ cảnh — chứ không phải dung lượng có sẵn. Kỹ thuật ngữ cảnh (chọn ĐÚNG ngữ cảnh) là kỹ năng tạo ra kết quả tốt hơn, không phải kích thước cửa sổ ngữ cảnh.

Tại sao Ngữ cảnh Lớn hơn không Tốt hơn?

Vấn đề “mất ở giữa”. Nghiên cứu liên tục cho thấy các mô hình ngôn ngữ lớn chú ý ít hơn đến nội dung nằm giữa ngữ cảnh dài. Thông tin ở đầu và cuối được xử lý chính xác hơn so với thông tin bị chôn ở vị trí 100.000. Đây không phải lỗi — mà là đặc tính cơ bản của cơ chế attention trong transformer. Đổ 2 triệu token vào ngữ cảnh đồng nghĩa với việc một phần đáng kể của ngữ cảnh gần như vô hình đối với mô hình.

Tỷ lệ tín hiệu trên nhiễu. Khi bạn tải toàn bộ mã nguồn vào cửa sổ ngữ cảnh 2 triệu token, hầu hết đoạn mã đó không liên quan đến câu hỏi cụ thể của bạn. Mô hình phải tự tìm ra những file nào quan trọng — và nó không phải lúc nào cũng làm đúng. Việc tải lên có mục tiêu 3-5 file liên quan sẽ cho kết quả chính xác hơn so với việc đổ toàn bộ kho mã nguồn.

Chi phí token tăng theo kích thước ngữ cảnh. Xử lý 2 triệu token tốn kém hơn rất nhiều so với 5K token. Với các tác vụ thông thường — soạn email, viết tóm tắt, trả lời câu hỏi — bạn đang trả gấp 400 lần chỉ để nhận được sự cải thiện chất lượng tối thiểu (hoặc bằng không).

Cách tiếp cận ngữ cảnh Chất lượng đầu ra Chi phí Tốc độ
5K token ngữ cảnh tập trungXuất sắc — mô hình tập trung đúng vào những gì quan trọngThấpNhanh
50K token tài liệu liên quanRất tốt — ngữ cảnh nhiều hơn giúp với tác vụ phức tạpTrung bìnhTốt
500K+ token đổ toàn bộBiến đổi — tùy thuộc vào tác vụ và hiệu ứng “mất ở giữa”CaoChậm
2M token đầy tối đaChỉ hữu ích cho một số tác vụ cụ thể (tìm kiếm mã nguồn, phân tích sách)Rất caoRất chậm
---

📬 Bạn thấy bài viết này hữu ích? Chúng tôi phân tích thực tế, không bị chi phối bởi marketing AI, hàng tuần. Nhận bản tin qua email →

---

Khi nào Cửa sổ Ngữ cảnh Lớn Thực sự Quan trọng?

Cửa sổ ngữ cảnh lớn thực sự hữu ích trong đúng ba tình huống:

1. Tìm kiếm thông tin cụ thể trong tài liệu lớn. “Tìm mọi đề cập đến ‘chính sách hủy’ trong 50 hợp đồng này.” Đây là truy xuất, không phải phân tích — và ngữ cảnh lớn hơn đồng nghĩa với nhiều tài liệu hơn để tìm kiếm.

2. Đối chiếu thông tin từ nhiều nguồn. “So sánh phần phương pháp luận của 20 bài báo nghiên cứu này.” Việc này đòi hỏi giữ nhiều tài liệu cùng lúc — không thể thực hiện với cửa sổ ngữ cảnh nhỏ.

3. Phân tích toàn bộ mã nguồn. “Tìm tất cả các hàm gọi payment API và kiểm tra xử lý lỗi.” Việc này cần khả năng nhìn toàn bộ dự án. Claude Code xử lý điều này qua file CLAUDE.md thay vì dùng toàn bộ ngữ cảnh, nhưng cách tiếp cận của Gemini khi tải mọi thứ cũng hiệu quả.

Đối với mọi thứ còn lại — viết lách, soạn thảo, tóm tắt, phân tích tài liệu đơn lẻ, trả lời câu hỏi, tạo nội dung — chất lượng ngữ cảnh luôn vượt trội so với số lượng. Mọi lúc.

Kỹ năng quan trọng là kỹ thuật ngữ cảnh — chọn đúng 5.000 token từ thông tin có sẵn. Prompt Optimizer hỗ trợ việc này bằng cách tái cấu trúc prompt để đưa ngữ cảnh phù hợp nhất vào định dạng hiệu quả nhất.

---

📬 Muốn đọc thêm nội dung tương tự? Phân tích AI đi ngược xu hướng, được hỗ trợ bởi nghiên cứu. Đăng ký miễn phí →

---

Câu hỏi thường gặp

Vậy cửa sổ ngữ cảnh 2 triệu token của Gemini là vô dụng?

Hoàn toàn không. Đối với các trường hợp sử dụng cụ thể đã nêu ở trên (tìm kiếm tài liệu lớn, đối chiếu chéo, phân tích mã nguồn), nó thực sự mang tính chuyển đổi. Vấn đề là kích thước cửa sổ ngữ cảnh được quảng bá như một cải tiến chất lượng tổng quát, trong khi thực tế chỉ là một khả năng chuyên biệt. Hầu hết các tác vụ AI hàng ngày đều được hưởng lợi từ ngữ cảnh tập trung, không phải ngữ cảnh khổng lồ.

Tôi có nên chọn mô hình AI dựa trên kích thước cửa sổ ngữ cảnh?

Chỉ khi bạn thường xuyên làm việc với tài liệu hoặc mã nguồn rất lớn. Với hầu hết người dùng, sự khác biệt về chất lượng giữa các mô hình (chất lượng viết của Claude, tốc độ xử lý của GPT, khả năng đa phương thức của Gemini) quan trọng hơn nhiều so với kích thước cửa sổ ngữ cảnh.

Độ dài prompt lý tưởng là bao nhiêu?

Với hầu hết các tác vụ, 200-500 từ ngữ cảnh được cấu trúc tốt (khung ICCSSE) mang lại kết quả tối ưu. Vượt quá mức này, bạn sẽ gặp hiện tượng lợi nhuận giảm dần trừ khi bạn đang đưa vào các tài liệu tham chiếu thực sự mà AI cần phân tích.

Tuyên bố: Một số liên kết trong bài viết này là liên kết affiliate. Chúng tôi chỉ giới thiệu các công cụ đã được chúng tôi kiểm thử và sử dụng thường xuyên. Xem chính sách công bố đầy đủ của chúng tôi.