DeepSeek có vi phạm pháp luật khi chưng cất dữ liệu từ ChatGPT?

Tham vấn bởi Luật sư Phạm Thanh Hữu
Chuyên viên pháp lý Nguyễn Thị Diễm My
01/02/2025 17:30 PM

DeepSeek là một mô hình AI vừa ra mắt nhưng lại gây xôn xao vì khả năng cạnh tranh cao và giá thành rẻ hơn các mô hình AI hàng đầu như ChatGPT, Gemini,…

DeepSeek có vi phạm pháp luật khi chưng cất dữ liệu từ ChatGPT?

DeepSeek có vi phạm pháp luật khi chưng cất dữ liệu từ ChatGPT? (Hình từ internet)

DeepSeek là gì?

DeepSeek là tên gọi của một mô hình AI, cũng là tên của một công ty khởi nghiệp được thành lập vào cuối năm 2023, có trụ sở tại Hàng Châu và cổ đông chính là Liang Wenfeng, đồng sáng lập quỹ phòng hộ High-Flyer.

DeepSeek đã cho ra đời nhiều mô hình AI tiên tiến, trong đó nổi bật nhất là DeepSeek R1 và DeepSeek R1 Zero. Điểm đặc biệt của DeepSeek là khả năng cạnh tranh cao và có giá thành rẻ hơn so với các mô hình hàng đầu như ChatGPT của OpenAI hay Gemini của Google.

DeepSeek có vi phạm pháp luật khi chưng cất dữ liệu từ ChatGPT?

Trong thế giới AI, khái niệm "Chưng Cất" (distillation) đề cập đến một kỹ thuật được thiết kế để chuyển giao kiến thức từ một mô hình lớn đã được đào tạo trước (chúng ta gọi đó là Người Giáo viên) thành một mô hình nhỏ hơn (chúng ta gọi là Người học sinh).

Người giáo viên -  Chưng cất/Truyền dạy Kiến thức - Người Học Sinh

Kỹ thuật này cho phép mô hình Người học sinh đạt được hiệu suất/kiến thức tương đương mô hình Người giáo viên sau quy trình Chưng Cất. Nếu Người học sinh này học một cách chính thức, có đóng học phí, hoặc có mua tài liệu bán ra từ Người giáo viên, thì việc học kiến thức này không có gì là vi phạm pháp luật hết.

Trong nghiên cứu và học tập chúng ta thường gọi nôm na là “Đứng trên vai người khổng lồ”, để chỉ ra rằng chúng ta dùng kiến thức đã được công bố, kiến thức đã viết ra trong tài liệu khoa học đã công bố trước đó, ứng dụng vào tài liệu nghiên cứu của chúng ta là hoàn toàn hợp pháp. Miễn sao chúng ta không phải là người đi ăn cắp các tài liệu đó, không ăn cắp các kết quả nghiên cứu chưa được công bố của người khác.

Mô hình ChatGPT của OpenAI tự nghiên cứu từ đầu với lượng dữ liệu thô khổng lồ và mất trong nhiều năm. Thật ra họ cũng lấy dữ liệu từ internet, từ thư viện, từ kiến thức nhân loại, nhưng tiêu tốn nhiều tiền, nhiều thời gian, cần nhiều Con Chip Mạnh để huấn luyện, và họ được xem là người sáng chế đầu tiên.

Tạm so sánh họ như nhà toán học người Hy Lạp Archimedes, là người đầu tiên phát hiện ra số Pi.

Chúng ta bây giờ không cần tốn thời gian nghiên cứu tính toán ra số Pi nữa, mà dùng luôn số Pi là 3,14159… để tính toán diện tích, chu vi hình tròn. Cũng có thể DeepSeek đã Chưng Cất, sử dụng kết quả dữ liệu từ AI đời đầu như ChatGPT để tiếp tục đào tạo ra DeepSeek bây giờ. Có thể nói DeepTeek là Người Học Sinh của Người Thầy Giáo ChatGPT. Vấn đề là tiếp sau đó Người Học Sinh có đóng góp thêm được kiến thức gì hay không.

Kỹ thuật Chưng Cất này giúp người dùng tận dụng chất lượng của các mô hình ngôn ngữ lớn (LLM) đi trước, đồng thời giảm chi phí suy luận mới, nhờ đó giúp cho xã hội nhanh chóng tiếp cận kiến thức hơn, với chi phí rẻ hơn.

Vì DeepSeek có thể Chưng Cất dữ liệu ChatGPT một lần ngay từ đầu, rồi sau đó họ tự đào tạo dữ liệu đó thành dữ liệu riêng cho họ, nên giờ này ChatGPT có “ngắt kết nối” không cho DeepSeek tiếp cận dữ liệu mới thì DeepSeek vẫn hoạt động bình thường.

Chưng cất cũng khác hoàn toàn với Copy/Pase, vì Chưng cất là kế thừa kiến thức ban đầu, rồi Người Học Sinh tự mình ứng dụng Kiến thức kế thừa đó để phát triển thêm lên thành con người khác, chứ không chỉ Pase ra đúng kiến thức cũ.

Trong phát minh, sáng chế, hay cải tiến kỹ thuật, đều phải dựa trên kiến thức của nhân loại trước đó, nên đều rất đáng trân trọng, giúp cho cuộc sống chúng ta ngày một tốt hơn. Tất nhiên không được trộm cắp dữ liệu, trộm cắp kiến thức, mà phải dùng kiến thức, dữ liệu đã được công khai, có nguồn hợp pháp, minh bạch.

Hy vọng nhiều người Việt Nam chúng ta biết Chưng Cất như người Trung Quốc, biết cải tiến kỹ thuật dựa trên phát minh, sáng chế của nhân loại, để tạo ra sản phẩm mới, dịch vụ mới, giúp giảm giá thành, giúp đa dạng lựa chọn cho người dùng.

Nội dung nêu trên là phần giải đáp, tư vấn của chúng tôi dành cho khách hàng của THƯ VIỆN PHÁP LUẬT. Nếu quý khách còn vướng mắc, vui lòng gửi về Email [email protected].

Gởi câu hỏi Chia sẻ bài viết lên facebook 5

Bài viết về

lĩnh vực Công nghệ thông tin

Địa chỉ: 17 Nguyễn Gia Thiều, P. Võ Thị Sáu, Q.3, TP.HCM
Điện thoại: (028) 3930 3279 (06 lines)
E-mail: inf[email protected]