𝗙𝗿𝗼𝗺 𝗜 𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗼𝗼𝗱 𝗡𝗼𝘁𝗵𝗶𝗻𝗴 𝘁𝗼 𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗮 𝗥𝗔𝗚 𝗔𝗽𝗽

📅4 hours ago⏱2 min read

Từ chỗ không hiểu gì đến việc xây dựng một ứng dụng RAG

Tôi đã dành cả ngày hôm qua để đọc 31 trang ghi chép về NLP của chính mình.

Tôi chẳng hiểu gì cả.

Tôi cứ ngỡ vấn đề nằm ở bản thân mình. Nhưng không phải. Vấn đề nằm ở phương pháp của tôi. Đọc ghi chép không đồng nghĩa với việc học. Tôi đang đọc những ghi chép dành cho chuyên gia, chứ không phải cho người mới bắt đầu.

Tôi đã thay đổi cách tiếp cận. Tôi ngừng việc đọc thụ động. Thay vào đó, tôi đặt câu hỏi. Tôi sử dụng các ví dụ đơn giản. Tôi từ chối dùng các thuật ngữ kỹ thuật cho đến khi thực sự hiểu được khái niệm đó.

Đến cuối ngày, tôi đã xây dựng được một ứng dụng RAG. Đây là cách tôi đã học được bốn trụ cột của NLP.

Bag of Words Máy tính chỉ hiểu toán học. Để xử lý văn bản, bạn phải chuyển đổi các từ thành những con số.

Hãy tưởng tượng bạn muốn phân loại email thành thư rác hoặc không phải thư rác. Bạn liệt kê mọi từ trong email của mình. Bạn đếm xem mỗi từ xuất hiện bao nhiêu lần. Việc này biến một email thành một hàng các con số.

Nhược điểm là gì? Nó bỏ qua thứ tự của từ. "Dog bites man" và "man bites dog" trông hoàn toàn giống nhau đối với phương pháp này.

TF-IDF Bag of Words coi mọi từ đều có vai trò như nhau. Nhưng từ "the" không quan trọng bằng từ "viagra."

TF-IDF sử dụng hai quy tắc:

Term Frequency (TF): Tần suất một từ xuất hiện trong một email.
Inverse Document Frequency (IDF): Tần suất nghịch đảo của tài liệu (mức độ hiếm của một từ trong tất cả các email).

Phép toán này làm giảm trọng số của các từ đệm như "the" và làm nổi bật các từ quan trọng, hiếm gặp.

Embeddings Bag of Words cho rằng "money" và "cash" không liên quan đến nhau. Embeddings đã khắc phục điều này.

Hãy nghĩ về một bản đồ khổng lồ. Mỗi từ là một dấu chấm trên bản đồ đó. Những từ có ý nghĩa tương tự nhau sẽ nằm gần nhau. "Money" và "cash" là hàng xóm của nhau. "Banana" thì ở rất xa.

Máy tính học được các vị trí này bằng cách xem xét "những người bạn" đi cùng của một từ. Nếu cả "money" và "cash" đều xuất hiện gần "bank" và "pay," máy tính sẽ đặt chúng ở gần nhau.

RAG (Retrieval-Augmented Generation) Đây là lúc tất cả kết hợp lại với nhau.

Nếu mỗi ghi chú trong tệp của bạn là một dấu chấm trên bản đồ, bạn có thể tìm câu trả lời bằng cách tìm các dấu chấm gần nhất.

Quy trình RAG:

Chuyển câu hỏi thành một dấu chấm.
Tìm các dấu chấm ghi chú gần nhất trên bản đồ.
Đưa những ghi chú đó cho một AI.
Yêu cầu AI trả lời chỉ bằng cách sử dụng những ghi chú đó.

Điều này ngăn AI đoán mò hoặc nói dối. Nó buộc AI phải sử dụng dữ liệu thực tế của bạn.

Tôi đã xây dựng ứng dụng của mình, Synapse, bằng cách sử dụng các bước này. Tôi đã đi từ con số không đến một hệ thống hoạt động được chỉ trong một ngày.

Bài học: Ngừng đọc. Hãy bắt đầu đặt câu hỏi. Nếu bạn không thể giải thích một khái niệm bằng một phép ẩn dụ đơn giản, nghĩa là bạn vẫn chưa thực sự hiểu nó. Hãy xây dựng một thứ gì đó để chứng minh rằng bạn đã hiểu.

Nguồn: https://dev.to/sabimantock/from-i-understood-nothing-to-building-a-rag-app-4033

Cộng đồng học tập (tùy chọn): https://t.me/GyaanSetuAi

𝗙𝗿𝗼𝗺 𝗜 𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗼𝗼𝗱 𝗡𝗼𝘁𝗵𝗶𝗻𝗴 𝘁𝗼 𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗮 𝗥𝗔𝗚 𝗔𝗽𝗽

Continue reading

𝗢𝗻𝗲 𝗪𝗵𝗶𝗹𝗲 𝗟𝗼𝗼𝗽, 𝗦𝗲𝘃𝗲𝗻 𝗣𝗮𝘁𝘁𝗲𝗿𝗻𝘀, 𝗘𝗻𝗱𝗹𝗲𝘀𝘀 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴

𝗜 𝗪𝗼𝗿𝗸 𝗶𝗻 𝗛𝗲𝗮𝗹𝘁𝗵𝗰𝗮𝗿𝗲 𝗧𝗲𝗰𝗵. 𝗛𝗲𝗿𝗲'𝘀 𝗪𝗵𝘆 𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗥𝗔𝗚 𝗧𝗼𝗼𝗹 𝗳𝗼𝗿 𝗖𝗹𝗶𝗻𝗶𝗰���

𝟱 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗜 𝗠𝗮𝗱𝗲 𝗔𝘀 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿

Cách tôi xây dựng các chính sách sử dụng AI mà mọi người thực sự tuân thủ

Tôi đã tự xây dựng AI Agent của riêng mình. Đây là những điều không ai nói với bạn.

𝗜 𝗪𝗼𝗿𝗸 𝗶𝗻 𝗛𝗲𝗮𝗹𝘁𝗵𝗰𝗮𝗿𝗲 𝗧𝗲𝗰𝗵. 𝗛𝗲𝗿𝗲'𝘀 𝗪𝗵𝘆 𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗥𝗔𝗚 𝗧𝗼𝗼𝗹 𝗳𝗼𝗿 𝗖𝗹𝗶𝗻𝗶𝗰��