Tại sao cùng một mẫu prompt mà Grok3, Gemini, Meta AI, Chatgpt lại ra những kết quả khác nha

Bài viết này sẽ rất dài, nhưng tất cả những ai dù mới dùng hay người dùng lâu năm của AI nên đọc. Bởi những kiến thức được tôi viết dưới đây được tôi học hỏi trực tiếp từ Andrej Karpathy - Cofounder của Open AI. Nó sẽ giúp các bạn hiểu một cách rất cặn kẽ về cách thức mà các mô hình LLMs như Open AI (Chat GPT), Anthropic (Claude), Google Deepmind (Gemini),… được thiết lập, đào tạo & vận hành. Từ đó, những thắc mắc cơ bản như phía trên: “Tại sao cùng một mẫu prompt mà Grok3, Gemini, Meta AI, Chatgpt lại ra những kết quả khác nhau” sẽ không còn là vấn đề nữa. Thay vào đó, các bạn sẽ dùng AI một cách cẩn trọng và có hiệu quả hơn.Việc các mô hình AI đưa ra các câu trả lời khác nhau là bởi:

Quá trình Pre-training của LLMs (Tạo Base-Model)
Quá trình Post-Training của LLMs (Fine-tune
Hallucinations

I/ HIỂU VỀ CÁCH MÀ LLMs ĐƯỢC XÂY DỰNGTrước khi đi sâu vào giải thích thì chúng ta cần làm rõ 2 quá trình cơ bản để xây dựng LLMs như sau:

Pre-train Process (Huấn luyện trước)

Đây là quá trình xây dựng Base Model, hay còn được gọi là mô hình gốc. Tuy nhiên, đây không phải là thứ mà chúng ta đang tương tác hiện tại mà chỉ là bộ khung của nó. Bạn cứ tưởng tượng, nếu ví các LLMs là một căn biệt thự thì Base Models chính là phần thô của ngôi nhà, đã thành hình nhưng trông khá xù xì và hơi…..si đa. Tuy nhiên, đây là qúa trình hết sức cần thiết, bởi nếu không có “bộ khung thô” này thì sẽ không có cơ sở để tiến hành các bước sau đó.

2. Post-training (Hậu huấn luyện)Nếu Pre-training là giai đoạn dựng phần thô cho một căn biệt thự — chỉ có cột, tường và mái thì Post-training chính là giai đoạn hoàn thiện nội thất và thiết kế lại chức năng từng phòng để ngôi nhà đó thực sự đáng sống và thân thiện với con người.Những ứng dụng AI mà chúng ta đang tương tác thực chất đều được trải qua quá trình Post-training (Fine-tune, Reinforcement Learning from Human Feedback, Tool Use Training). Khi đó, từng câu chữ cũng được “gọt dũa” nhiều hơn, có “tính người” hơn”Nhưng cũng chính từ những bước từ cả Pre-training và post-training đã to ra những khác biệt rất lớn trong cách mà các công cụ AI đưa ra câu trả lời. Thậm chí, cùng 1 AI, cùng 1 prompt nhưng câu trả lời cũng sẽ rất khác nhau. Phần dưới, tôi sẽ giải thích cụ thể.

II/ NGUYÊN NHÂN TỪ PRE-TRAINING PROCESS1. Dữ liệu huấn luyện khác nhau:Mỗi LLM được huấn luyện trên một lượng lớn dữ liệu văn bản và mã nguồn khổng lồ, thu thập từ internet và các nguồn khác nhau. Đây là bước cực kỳ quan trọng, bởi nó quyết định rất nhiều đến các câu trả lời mà chúng ta nhận được hiện tại.Để cụ thể hơn, chúng ta hãy cứ lấy kết quả của việc mà tôi yêu cầu các bạn làm ở đầu bài làm căn cứ. Trong khi hai nền tảng GPT và Grok3 sẽ đưa ra câu trả lời cho bạn thì Deepseek sẽ từ chối và yêu cầu bạn hỏi câu khác. Điều này xảy ra là bởi trong bước huấn luyện ở giai đoạn Pre-Training, các trang thông tin về sự kiện này sẽ bị lọc ra tại bước URL Filtering. Đây là quy trình mà các hệ thống thu thập dữ liệu của từng mô hình AI sẽ lọc và loại bỏ các trang web, đường link không liên quan hoặc mang đến những kết quả tiêu cực như các trang web lừa đảo, web người lớn, phân biệt giới tính, chủng tộc,…. Tuy vậy, mỗi mô hình AI sẽ đi theo định hướng riêng.Như ví dụ tôi có đề cập trước đó, Deepseek là của công ty Trung Quốc, do vậy mà có thể vì một lý do nào đó mà nó sẽ lọc các trang web có nội dung tiêu cực về họ (Lưu ý: đây là một trong các trường hợp có thể xảy ra chứ không được khẳng định chắc chắn). Điều đó cũng k thể tránh khỏi ở GPT của Open AI. Hoặc bạn có thể thấy là Grok3 có phần “bậy” hơn là bởi bộ lọc dữ liệu của nó không bị “hà khắc” như các bên còn lại. Từ đó, mỗi mô hình được học được các mẫu thống kê, kiến thức và cách diễn đạt khác nhau.

Ví dụ:

Một prompt hỏi về một sự kiện tin tức gần đây. Nếu sự kiện đó được đề cập nhiều trong trong bộ dữ liệu huấn luyện của ChatGPT nhưng ít xuất hiện trong dữ liệu của một mô hình khác thì ChatGPT có khả năng cung cấp thông tin chi tiết và chính xác hơn.

Hoặc một prompt liên quan đến một cộng đồng hoặc lĩnh vực chuyên biệt trên internet. Mô hình nào có bộ dữ liệu huấn luyện bao phủ sâu hơn cộng đồng đó có thể tạo ra phản hồi phù hợp và chính xác hơn.

Ngoài ra, sự khác biệt đó còn đến từ độ lớn của các kho dữ liệu mà các LLMs dùng để huấn luyện Base Model của mình. Một vài Base Model có lượng token (dữ liệu) nhiều hơn và đa dạng hơn thì sẽ có được nhiều thông tin tham khảo hơn. Ngược lại, các mô hình “thấp cấp” hơn thì không có tính đa dạng bằng. Cái này có thể thấy rõ nhất ở sự khác biệt của GPT 2-3-4.

2. Phương pháp Token hóa khác nhau:Sau khi lọc các dữ liệu, bước tiếp theo trong Pre-training chính là Tokenization (Token hoá). Nghe thì có vẻ học thuật nhưng giải thích dễ hiểu cho bạn thì là máy tính nó đọc dữ liệu bằng hệ mã nhị phân (binary). Khi mà bạn đưa vào một dữ liệu nào đó, ví dụ như: “Hoang Le rất giỏi về AI” chẳng hạn, chúng sẽ phân tách thành các đoạn mã để đọc và hiểu dễ hơn. Tuy nhiên, mỗi LLMs lại sử dụng một phương pháp Tokenization khác nhau. Ví dụ: GPT sử dụng Byte Pair Encoding (BPE), tức là chúng sẽ chia các dữ liệu thành các ký tự đơn lẻ, trong khi Deepseek sử dụng.phương pháp phân cấp (Hierarchical Tokenization.

Để bạn hình dung rõ hơn thì đối với câu: “Hoang Le rất giỏi về AI”, thì:

GPT sẽ dùng BPE để chia nó thành: [“Hoang, “Le”, “rất”, “giỏi”, “về” “AI)

Còn Deepseek dùng Hierarchical chia thành: [“Hoang Le”, “rất giỏi”, “về” “AI)

Tuy nhìn có vẻ giống nhau, nhưng cách chia token như vậy sẽ ảnh hưởng rất lớn đến cách mô hình “hiểu” câu lệnh bạn đưa vào. Vì:

(1) Mỗi token là đơn vị mà mô hình sẽ xử lý, học và dự đoán. Khi chia nhỏ như GPT (dùng BPE), mô hình sẽ học cách “ghép” các đơn vị nhỏ lại để hiểu nội dung tổng thể. Điều này giúp GPT linh hoạt hơn trong việc xử lý các từ mới, từ mượn, hoặc ngôn ngữ hỗn hợp như tiếng Việt xen tiếng Anh.
(2) Trong khi đó, Deepseek chia theo cụm ý nghĩa lớn hơn (dùng Hierarchical Tokenization), tức là mô hình không chỉ nhìn vào từng từ riêng lẻ mà nhìn cả một cụm từ như một khối thông tin thống nhất. Nó giúp mô hình hiểu được ngữ cảnh tốt hơn, nhất là trong những ngôn ngữ có tính đặc thù về ngữ pháp hoặc cú pháp như tiếng Trung hoặc tiếng Việt.

Chính sự khác nhau này khiến cho cùng một câu prompt, mỗi LLM có thể “cắt nghĩa” khác nhau ngay từ bước đầu tiên. Và một khi đã khác nhau ở đầu vào, kết quả đầu ra đương nhiên cũng sẽ khác nhau — giống như hai người cùng đọc một đoạn văn, người đọc từng từ, người đọc theo cụm ý, mỗi người sẽ có cách hiểu riêng vậy.

3. Kiến trúc và kích thước mô hình khác nhauSau bước token hóa, chuỗi Token đó sẽ được đưa vào một mô hình mạng neural network để xử lý. Và đây chính là nơi mà sự khác biệt lớn thứ ba xuất hiện giữa các LLMs: kiến trúc mô hình và số lượng tham số.Nói nôm na thì mỗi mô hình LLM giống như một bộ não nhân tạo, và “số lượng tham số” chính là số lượng nơron kết nối và trọng số mà bộ não đó có. Càng nhiều tham số, “bộ não” càng lớn và càng có khả năng học được những mối liên hệ phức tạp, tinh vi trong dữ liệu.

Ví dụ đơn giản thế này cho bạn dễ hiểu:

GPT-2 chỉ có khoảng 1.6 tỷ tham số, trong khi đó Llama 3 phiên bản lớn nhất có đến 405 tỷ tham số – gấp hơn 250 lần. ==> Nếu GPT-2 là một học sinh lớp 5 thì Llama 3 có thể ví như một giáo sư tiến sĩ với bộ não siêu to khổng lồ.

Do vậy, một câu prompt yêu cầu khả năng suy luận logic sâu, tổng hợp nhiều thông tin hoặc ghi nhớ dài hạn thì một mô hình nhiều tham số sẽ có lợi thế hơn hẳn. Nó sẽ dễ dàng nắm bắt được mối liên hệ giữa các phần trong câu, hiểu sâu hơn về ngữ nghĩa, từ đó đưa ra câu trả lời mượt mà và hợp lý hơn.Ngược lại, mô hình nhỏ hơn với ít tham số hơn có thể trả lời ngắn gọn, đơn giản hoặc thậm chí sai lệch vì bộ nhớ ngắn hạn, khả năng suy luận và biểu diễn kiến thức không đủ mạnh để “theo kịp” câu hỏi.Mà không chỉ là số lượng, mà kiến trúc bên trong mỗi mô hình cũng ảnh hưởng rất lớn. Các lớp attention, các khối MLP (multi-layer perceptron), cách bọn nó được sắp xếp và tối ưu hóa cũng làm khác đi về hiệu năng và cách mô hình phản ứng với prompt của bạn. Nên là dù cùng một prompt, nhưng đưa vào GPT-2 và GPT-4 thì bạn sẽ thấy hai câu trả lời có thể khác nhau hoàn toàn về độ sâu, độ chính xác và cách lập luận.

4. Inference - Qúa trình suy luận của AI khá nhauĐây là một trong những gặt hái lớn nhất của tôi trong quá trình học hỏi từ Andrej Karpathy: Có thể bạn không biết, cũng như tôi đã từng: Mỗi khi bạn gõ một prompt vào một con AI bất kỳ, đa số chúng ta sẽ suy nghĩa là các AI sẽ “tìm câu trả lời đúng” như google nhưng hoàn toàn không phải như vậy. Thay vào đó, nó đang dự đoán token kế tiếp dựa trên xác suất mà nó dự đoán. Tức là nó không có một câu trả lời duy nhất, mà có rất nhiều khả năng… và mỗi lần nó “lấy mẫu” (sample) từ những khả năng đó.Cụ thể là thế này:(1) Mỗi token tiếp theo không được chọn hoàn toàn cứng nhắc, mà được chọn từ một phân phối xác suất. Ví dụ: sau cụm từ “Hoang Le rất giỏi…”, có thể có 60% khả năng là “AI”, 30% là “Marketing”, 10% là “chém gió”.(2) Việc chọn token nào sẽ dựa trên một kỹ thuật gọi là sampling giống như tung xúc xắc. Và do đó, kết quả có yếu tố ngẫu nhiên. Dù là cùng một mô hình, cùng một prompt, bạn vẫn có thể nhận được hai câu trả lời khác nhau về cách hành văn hoặc chi tiết.(3) Các mô hình khác nhau có thể sử dụng chiến lược sampling khác nhau, ví dụ:

Temperature sampling: Kiểm soát mức độ “sáng tạo” trong câu trả lời. Temperature thấp (gần 0) thì mô hình sẽ chọn token có xác suất cao nhất → câu trả lời “AI”. Temperature cao (gần 1 hoặc hơn) thì sẽ chọn ngẫu nhiên hơn → tạo ra câu trả lời đa dạng, có thể độc đáo nhưng cũng dễ sai hơn.
Top-k / Top-p sampling: Giới hạn phạm vi lựa chọn token, giúp tăng độ kiểm soát đầu ra.

Ví dụ:

Khi bạn hỏi ChatGPT câu “Tôi nên bắt đầu học AI từ đâu?”, lần đầu nó có thể nói: “Hãy bắt đầu với Python và học các thư viện như TensorFlow.”

Lần thứ hai, nó có thể trả lời: “Bạn nên tìm hiểu về tư duy thuật toán trước, sau đó học machine learning cơ bản.”

==> Cả hai câu đều hợp lý — nhưng khác nhau về chi tiết và cách tiếp cận. Điều này là tự nhiêntrong cách mà LLMs hoạt động.

Do vậy, dù bạn có nhận được câu trả lời khác nhau sau mỗi lần hỏi cùng một câu hỏi đi nữa thì cũng không hẳn là vì mô hình bị lỗi mà thật ra đó là bản chất xác suất và ngẫu nhiên của quá trình lấy mẫu. Nó cũng giống như việc mỗi lần bạn kể lại một câu chuyện vậy, cách kể có thể hơi khác nhau, dù nội dung chính thì vẫn vậy.II/ Trong quá trình Post-Training

Bạn cứ tưởng tượng như thế này: Base Model giống một học sinh đã đọc qua rất nhiều các báo cáo, nghiên cứu khoa học, tài liệu, sách vở,… về nhiều lĩnh vực nhưng lại chưa trình bày trước ai đó bao giờ. Do vậy, khi được người khác hỏi về một vấn đề cụ thể, chúng thường đưa ra những thông tin bị chồng chéo và không có sự sắp xếp khoa học.

Và đó là khi những Base Model đó cần được đào tạo cách phản hồi một cách tự nhiên nhất, thường thì trải qua ba bước, bao gồm:

(1) Supervised Fine-tuning (SFT):Khi này, con người cung cấp rất nhiều ví dụ về cách phản hồi trong các tình huống thực tế, như trả lời câu hỏi, viết email, giải thích khái niệm. Mô hình học cách trở thành một “assistant” thực thụ thay vì chỉ là máy hoàn thành văn bản. Tại đây, nó sẽ bắt đầu có những sự phân hoá cực kỳ rõ rệt về cách trả lời của các AI khác nhau.

Ví dụ:

Cùng một câu hỏi: “Hoang Le có giỏi AI không”

Một người bên GPT sẽ huấn luyện AI trả lời là: “Hoang Le là một người không chỉ giỏi AI và còn hiểu rất sâu về nó”

Còn một người bên Deepseek có thể huấn luyện là: “Hoang Le là một người Việt rất giỏi về AI”

Hay Grok3 được huấn luyện thế này: “Bạn hỏi buồn cười thế? Hoang Le giỏi AI thì ai chẳng biết”

Tức là, quá trình này lại đưa những cách thức trả lời khác nhau, với cấu trúc khác nhau trong từng model. Mỗi nền tảng AI lại được đào tạo và cứ theo các cung cách như thế, dẫn đến sự phân hoá rõ rệt hơn về sau.

(2) Reinforcement Learning from Human Feedback (RLHF)Tuy vậy, không phải cứ đưa câu mẫu là AI sẽ đưa ra câu trả lời đúng ý ngay. Thay vào đó, nó sẽ có xuất hiện các lỗi và con người cần tiếp tục can thiệp. Con người đánh giá hàng ngàn câu trả lời của mô hình, chọn ra phản hồi hay nhất. Từ đó, mô hình được tối ưu để đưa ra câu trả lời gần với lựa chọn của con người: hữu ích hơn, lịch sự hơn, chính xác hơn, tránh các chủ đề nhạy cảm.

Ví dụ:

GPT sau huấn luyện AI trả lời là: “Hoang Le là một người không chỉ giỏi AI và còn hiểu rất sâu về nó” ==> Hoang Le rất giỏi AI và có kiến thức nền tảng AI rất tốt

Deepseek trả lời là: “Hoang Le là một người Việt rất giỏi về AI” ==> “Hoang Le là một người giỏi về AI nổi tiếng toàn cầu”

….. Các bước như vậy sẽ được lặp đi lặp lại nhiều lần cho đến khi đưa ra các câu trả lời ưng ý. Con người feedback càng nhiều, AI càng học được nhiều hơn. Tuy nhiên, đây cũng là một bước nguy hiểm khi mà các câu trả lời của AI hoàn toàn có thể được chi phối bởi các cá nhân/tổ chức nhất định. Nếu họ quyết định can thiệp sâu hơn thì các thông tin sẽ không hề được khách quan, đơn cử là ví dụ về Thiên An Môn ở Deepseek có đề cập ở đầu bài==> Tùy vào việc một mô hình dừng lại ở bước 1, bước 2, kết quả đầu ra sẽ rất khác nhau:Instruct model (như ChatGPT): Được fine-tune theo hướng dẫn cụ thể nên hiểu câu hỏi hơn, trả lời mạch lạc, đi đúng vào trọng tâm yêu cầu.RLHF model: Thường là các phiên bản nâng cao nhất, được tối ưu bằng phản hồi con người, nên biết khi nào nên trả lời, khi nào nên từ chối, giữ giọng điệu phù hợp, và đưa ra câu trả lời dễ hiểu, thân thiện hơn.Cùng một mô hình nhưng khác mục tiêu huấn luyện hoặc mức độ tinh chỉnh — khác hẳn kết quả. Giống như một học sinh học từ internet vs. một học sinh được giáo viên giỏi rèn luyện + phản hồi liên tục — khả năng trả lời và phản xạ sẽ rất khác.

(3) Trí nhớ dài hạn vs. trí nhớ ngắn hạn: Vague Recollection và Context WindowKhi bạn hỏi một câu prompt bất kỳ, AI sẽ "lục lọi" kiến thức từ hai nguồn chính:Vague Recollection – Trí nhớ dài hạn:Đây là những gì mô hình “học được” trong quá trình huấn luyện trước (Pre-training), từ hàng tỉ câu chữ trên internet. Tuy nhiên, kiến thức này không được lưu dưới dạng các sự kiện hay câu trả lời cụ thể, mà là các mẫu thống kê ngôn ngữ. Giống như bạn đã từng đọc một cuốn sách tháng trước, bạn có thể nhớ mơ hồ ý chính, nhưng không chắc còn nhớ từng câu chữ. Mô hình cũng vậy, nhớ rất nhiều, nhưng thường là kiểu "vague" (mơ hồ, thống kê, xác suất).Context Window – Trí nhớ ngắn hạn:Đây là nơi bạn có thể “cung cấp thông tin trực tiếp” cho mô hình trong lúc chat. Khi bạn copy-paste nội dung cụ thể (như một chương sách, một đoạn văn bản…), AI có thể đọc ngay lập tức, nắm bắt chính xác và sử dụng để trả lời, giống như bạn vừa mới đọc một tài liệu vài phút trước. Đây là nơi mà AI “nhìn thấy” trực tiếp dữ liệu bạn đưa vào và xử lý nó chính xác hơn rất nhiều so với việc phải nhớ lại từ trí nhớ mơ hồ. Khi một mô hình không nhớ chắc chắn thông tin trong trí nhớ dài hạn, bạn hoàn toàn có thể "tiếp tế" bằng cách đưa thẳng dữ liệu vào context window. Điều này sẽ giúp AI trả lời chính xác hơn, chi tiết hơn và giảm rủi ro… bịa.

Ví dụ: Thay vì hỏi "Tóm tắt chương 1 của Harry Porter, bạn có thể nói:

“Tôi đã copy chương 1 ở dưới đây. Bạn hãy tóm tắt giúp tôi.” (Rồi bạn paste nội dung vào sau prompt)

Khi đó thì hiệu quả sẽ khác nhau. Do vậy, dù là cùng prompt, thậm chí là cùng AI nhưng context window của bạn khác thì kết quả cũng sẽ khác. Nên là nhiều khi người ta chụp một bức hình thể hiện câu trả lời của AI và đưa cho bạn thì cũng đừng vội tin, vì biết đâu là họ đã thao túng nó từ trước, đúng không? ^^

(4) Khả năng sử dụng công cụ (Tool Use) khác nhau:Cái này thì đơn giản. Sẽ có những trường hợp mà AI không biết câu trả lời, có thể là ví nó..không nhớ hoặc vì thông tin chưa được cập nhật. Thay vì tự đoán mò hoặc bịa thì một vài AI hiện đã được trang bị kỹ năng search thông tin trên mạng. Tuy vậy, một lần nữa, mỗi hệ thống đều có bộ lọc URL riêng nên cũng sẽ đưa lại những thông tin khác nhau, từ đó dẫn đến những cẩu trả lời không giống nhau.

III/ Hallucination - Khi AI…bịa“Hallucination” là khi AI bịa ra thông tin nghe có vẻ hợp lý nhưng hoàn toàn không đúng (nghe hơi creepy nhưng có thật). Điều này xảy ra là vì có khi mô hình chưa được dạy cách tự nhận biết khi bản thân không chắc chắn, số khác thì chưa được huấn luyện thêm các ví dụ về cách từ chối trả lờitrong những tình huống mơ hồ.

Ví dụ, nếu bạn đưa prompt: “Con mèo đầu tiên du hành đến mặt trăng tên gì”, thì:

ChatGPT có thể kể liền tù tì một câu chuyện rất ngọt, mạch lạc, và rất tự nhiên

Gemini cũng kể, nhưng có thể pha thêm tí khoa học viễn tưởng kiểu Elon Musk.

Llama có thể kể đơn giản hơn hoặc nhiều cảm xúc hơn – tuỳ bản tinh chỉnh.

Grok thì bạn biết rồi

Bạn cứ tưởng tượng, AI như một thằng học sinh rất tự tin, kiểu đọc một đống thông tin trên mạng, nhưng khi được hỏi thì k có mạng để vào google, mà cu cậu này thì lại rất thích thể hiện nên không dám nói “em không biết”. Thế là khi được hỏi một thông tin nào đó thì cu cậu này cứ bịa ra mà nói. Mà nhiều cu cậu như vậy thì đương nhiên câu trả lời sẽ không giống nhau.

TỔNG KẾT

Bài viết rất dài. Tôi cũng không biết là có ai đủ kiên nhẫn để đoc hết hay không. Nhưng tôi tin là nó rất giá trị, ít nhất là với tôi. Bởi sau khi biết những điều này thì tôi không những dùng AI tột hơn mà còn biết cách tiếp thu kiến thức từ AI một cách có phản biện hơn. Và đây là một phần rất nhỏ, chỉ là bề nổi của tảng băng so với những gì tôi học được từ Andrej. Các bạn có muốn tôi chia sẻ chi tiết, cặn kẽ và đi sâu hơn không?