Tôi nghĩ rằng nhiều người hiểu sai về thinking và chế độ bình thường, cho rằng thinking nhất định tốt, nhưng thực tế không chắc vậy. Chế độ bình thường được đào tạo dựa trên dữ liệu ngữ liệu, trong khi thinking là có thêm RL, vì vậy chọn chế độ khác nhau cho các nhiệm vụ khác nhau mới là đúng.
Xem bản gốc