DeepSeek Dituding Latih AI Pakai Data Google Gemini?

Admin

19/06/2025

3
Min Read

Laboratorium AI asal China, DeepSeek, saat ini menjadi pusat perhatian setelah merilis model penalaran terbarunya, DeepSeek R1. Model ini menunjukkan performa mengesankan dalam berbagai pengujian matematika dan pemrograman. Namun, di balik kesuksesan tersebut, muncul tuduhan bahwa DeepSeek R1 dilatih menggunakan data dari Google Gemini tanpa adanya izin yang jelas.

Kecurigaan ini pertama kali disuarakan oleh komunitas peneliti AI. Sam Paech, seorang programmer dari Melbourne, menjadi salah satu yang pertama kali menyadari bahwa gaya bahasa yang digunakan oleh DeepSeek R1-0528 “hampir identik” dengan cara Gemini 2.5 Pro memberikan respons. Melalui postingan di platform X (sebelumnya dikenal sebagai Twitter), Paech berpendapat bahwa struktur penalaran dan pilihan kata yang digunakan DeepSeek R1 memiliki kemiripan yang signifikan dengan model Gemini.

Pendapat serupa juga dikemukakan oleh pengembang di balik proyek SpeechMap, yang menilai bahwa model DeepSeek menampilkan “jejak” penalaran yang menjadi ciri khas Gemini. Meskipun belum ada bukti teknis yang konklusif, pola kesamaan ini menimbulkan pertanyaan serius mengenai praktik pelatihan data yang diterapkan oleh DeepSeek.

If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv

Bukan Kejadian Pertama

Perlu dicatat bahwa ini bukanlah tuduhan pertama yang ditujukan kepada DeepSeek. Pada bulan Desember 2024, komunitas pengembang juga sempat menemukan bahwa model DeepSeek V3 terkadang mengidentifikasi dirinya sebagai ChatGPT, mengindikasikan kemungkinan adanya pelatihan yang melibatkan log dari model milik OpenAI.

Tidak lama setelah itu, laporan dari Financial Times dan Bloomberg mengindikasikan bahwa OpenAI dan Microsoft menemukan petunjuk yang menunjukkan DeepSeek menggunakan metode distilasi—yaitu, melatih model baru dengan meniru output dari model AI besar seperti GPT atau Gemini. Bahkan, Microsoft menemukan adanya kebocoran data dari akun pengembang OpenAI yang diduga memiliki keterkaitan dengan DeepSeek.

Distilasi dan Potensi Kontaminasi AI

Meskipun teknik distilasi merupakan praktik yang umum di kalangan pengembang AI, OpenAI dengan tegas melarang penggunaan output produknya untuk mengembangkan model pesaing. Terlebih lagi, data pelatihan saat ini semakin rentan terhadap kontaminasi oleh konten AI yang berasal dari situs spam dan bot, sehingga proses penyaringan data “murni” menjadi tantangan yang signifikan.

Menurut Nathan Lambert, seorang peneliti di AI2 (Allen Institute for AI), spekulasi bahwa DeepSeek memanfaatkan Gemini sebagai sumber pelatihan bukanlah sesuatu yang mustahil.

Sampai saat ini, DeepSeek belum memberikan respons terbuka terhadap tuduhan ini. Namun, kasus ini memicu diskusi yang lebih luas mengenai etika, transparansi, dan kepemilikan data di era AI generatif yang berkembang pesat, seperti yang dilaporkan oleh Techcrunch.

Video: Korea Selatan Blokir Aplikasi DeepSeek

Video: Korea Selatan Blokir Aplikasi DeepSeek