Kompaas.com – Deepseek adalah topik diskusi di dunia teknologi. Pengembang Intelijen Buatan Tiongkok (AI) ini dapat memperhatikan AI terakhir, Deepseek R1, yang mengatakan ia mampu bersaing dengan pencemaran nama baik.
Bahkan, toko aplikasi iOS ini dirilis dan membuat banyak orang penasaran. Dengan harga yang jauh lebih murah, tetapi kinerja setara dengan Openai, Deepseek membuka bab baru kompetisi teknologi antara Cina dan Amerika Serikat.
Namun, Deepseek tidak hanya menarik perhatian karena kinerjanya tinggi. Pengembang ini juga memiliki pendekatan unik untuk mengembangkan model kecerdasan buatan, berbeda dari para pesaingnya di Amerika.
Jadi apa yang dalam, dan siapa yang berdiri dalam perkembangannya? Selain itu, komposer berikut merevisinya.
Juga baca. Ai Deepseek tiba -tiba menjadi program paling populer di toko aplikasi dan bermain toko, yang dalam dan yang mengembangkannya.
Deepseek adalah model kecerdasan buatan inovatif dari Cina (AI) dan merupakan saingan serius Apenai.
Deepseek menawarkan dua model superior: Deepseek-V3 dan Deepseek-R1, yang mengklaim bahwa model kecerdasan buatan lainnya adalah efisiensi dan kinerja terbaik di pasar.
Deepseek-V3 dirancang untuk memenuhi kebutuhan pengguna di bidang yang berbeda, mulai menjawab pertanyaan harian, seperti akun olahraga dan solusi untuk masalah logis.
Model ini disebut pesaing Openai Direct GPT-4O. Sementara itu, Deepseek-R1, model terbarunya, dirancang untuk bersaing dengan efisiensi dan openai yang lebih tinggi, terutama dalam tugas-tugas yang membutuhkan analisis data yang mendalam dan pemikiran yang kompleks.
Model ini telah dikembangkan oleh Deepseek AI, pemain sepak bola dalam fokus China, karena menggabungkan efisiensi tinggi untuk nilai para pesaingnya.
Misalnya, Deepseek R1 tidak cepat dalam pemrosesan informasi, tetapi juga menghemat sumber daya, membuatnya lebih mahal bagi banyak pengguna model di kepala mereka.
Deepseek AI diciptakan kurang dari dua tahun yang lalu dengan selebaran tinggi, kesedihan pagar Cina dengan visi ambisius untuk mengembangkan kecerdasan buatan umum (AGI).
Dalam waktu singkat, Deepseek membangun perintis amnesti global, menawarkan tidak hanya model, tetapi juga mendorong persaingan dalam industri AI Cina.
Ini meningkatkan posisinya sebagai aktor utama dalam pengembangan teknologi kecerdasan buatan modern. Winfing Liang
Keberhasilan Deepseek tidak dapat dipisahkan dari pendirinya, Liang Venfeng Personality, yang memiliki visi yang luar biasa untuk membawa Cina untuk berinovasi kecerdasan buatan global.
Dia membimbing perusahaannya untuk fokus pada pengembangan kecerdasan umum buatan (AGI), sebuah konsep kecerdasan buatan, yang dapat berpikir dan membuat keputusan seperti manusia.
Salah satu item utama untuk dijual di Deepseek adalah efisiensi model. Deepsek-R1, model terbarunya, hanya $ 6 juta untuk pelatihan.
Ini jauh lebih kecil dari investasi besar yang dilakukan oleh pesaing seperti OpenI. Deepseek, dengan biaya rendah dan kinerja tinggi, telah menjadi simbol pengembangan teknologi kecerdasan buatan.
Efisiensi ini tidak mempengaruhi pasar lokal, tetapi juga mulai menyingkirkan industri teknologi global. Banyak perusahaan besar, termasuk meta dan outdoor, mulai memperhatikan pendekatan Deepseek untuk meningkatkan efisiensi model mereka.
Ini menegaskan bahwa meskipun Deepseek adalah pemain baru, mereka telah membuat perubahan signifikan dalam kompetisi global AI.
Baca juga. Sanksi Keberhasilan, Amerika Serikat Terhadap Tiongkok, pada kenyataannya, telah dilahirkan
Halaman waktu melaporkan bahwa Deepseek memiliki dua model superior: Deepseek-V3 dan Deepseek-R1.
Kedua model ini dirancang untuk memenuhi kebutuhan yang berbeda untuk memastikan efisiensi tinggi, menantang OpenAi untuk prioritas model kecerdasan buatan GPT-4O.
Meskipun berasal dari arsitektur utama yang sama, keduanya memiliki konsentrasi dan keuntungan yang memisahkannya.
Deepsek-V3 yang dikeluarkan pada bulan Desember 2024 adalah contoh yang tergantung pada campuran (MEE), total 671 miliar guru. Namun, guru hanya mengaktifkan 37 miliar guru untuk setiap simbol, membuatnya sangat efisien.
Model ini mampu menangani Windows konteks hingga 128.000 ikon dan hingga 8.000 simbol.
Fokus utama Deepseek-V3 telah melakukan tugas-tugas umum, seperti menjawab pertanyaan harian, memahami bahasa alami dan menciptakan konten kreatif. Model ini dirancang untuk memberikan solusi cepat dan efektif bagi pengguna dengan kebutuhan yang berbeda.
Sementara itu, Deepseek-R1, yang dimulai pada Januari 2025, mengambil langkah lain. Berdasarkan basis Heepseek-V3, model ini menggunakan metode penguatan untuk meningkatkan pemikiran (pemikiran) dan memecahkan masalah yang kompleks.
32.000 ikon dengan daya output yang diperluas, Deepseek-R1 dirancang untuk analisis mendalam, seperti analisis mendalam, seperti matematika canggih, logika rantai dan pemrograman.
Model ini tidak hanya melebihi konteks kompleks untuk dipahami, tetapi juga untuk menghasilkan jawaban yang lebih rinci dan terorganisir.
Perbedaan utama antara kedua kebohongan adalah di tujuan dan fokus. Deepseek-V3 lebih cocok untuk tugas total yang sangat efektif, dan Deepseek-R1 ditujukan untuk aplikasi yang membutuhkan keterampilan berpikir tunai dan masalah mendalam.
Selain itu, ekspansi Deepseek-R1 yang lebih besar memungkinkan model ini memberikan respons yang lebih lama dan lebih komprehensif, membuatnya ideal untuk penggunaan skrip yang paling kompleks. Campuran Ahli (MEE) dan Seri View (COT)
Deepseek telah mengadopsi pendekatan inovatif terhadap teknologi untuk memastikan efisiensi dan kinerja yang tinggi dalam model kecerdasan buatan.
Campuran Pengalaman (MEE) adalah struktur yang memungkinkan model besar, seperti Deepseek-V3, total 671 miliar guru hanya mengaktifkan 37 miliar. Pendekatan ini membuat model sumber daya yang lebih efektif tanpa pengorbanan.
Model canggih mereka, Deepseek-R1, dibuat menggunakan teknologi COT Series, yang berbagi pertanyaan kompleks sampai jawaban akhir diberikan.
Memberikan laporan pada posting tidak hanya memberikan jawaban yang lebih logis dan akurat, tetapi selama berpikir itu dapat menentukan dan memperbaiki kesalahan logis atau halusinasi data.
Juga baca. Jopming, biaya konstruksi AI China Deepseek alih -alih chatgpt menggunakan NVIDIA H800
Untuk menggunakan model -model ini, Deepseek menggunakan poin GPU NVIDIA H800 NVIDIA H800 yang kurang dari H100, yang sering menggunakan perusahaan kecerdasan buatan.
Kursus ini berlangsung sekitar 2.788 juta jam GPU dengan total biaya $ 558. Efisiensi ini melebihi banyak model, seperti GPT-4O, yang dibuat untuk menggunakan ribuan chip H100 dan puluhan miliar dolar.
Amerika Serikat telah memaksa ekspor kebocoran AS untuk menggunakan chip seperti H800 dengan kinerja yang lebih sedikit. Namun, pembatasan ini sebenarnya mendorong inovasi, seperti penggunaan teknik distilasi.
Model kecerdasan buatan dengan teknik ini disiapkan untuk fokus pada tugas -tugas khusus untuk membuatnya lebih efektif dalam hal konsumsi sumber daya tanpa tugas -tugas tertentu. Membandingkan biaya dengan model kecerdasan buatan Amerika
Biaya pengembangan Deepseek menunjukkan efisiensi yang luar biasa. Deepseek-R1. Telah dilatih sekitar $ 6 juta atau sekitar 97 miliar rupee dalam waktu sekitar dua bulan. GPT-4. Telah dilatih hingga $ 63 juta atau sekitar 1 triliun rupee menggunakan infrastruktur GPU, yang lebih mahal dan lebih banyak sumber daya.
Meskipun penggunaan chip dan kinerja H800 telah berkurang dibandingkan dengan H100, Deepseek berhasil mencapai beberapa atau kinerja yang lebih baik.
Ini menunjukkan bahwa teknik efisiensi arsitektur dan teknik pelatihan dapat menjadi keunggulan kompetitif yang besar.
Deepseek membutuhkan kinerja yang unggul dibandingkan dengan model kecerdasan buatan terkenal lainnya dari sejumlah standar (3-shot F1). Deepseek-V3 91.6 poin Kelebihan 3.1 (88.7). Math-500. Deepseek-V3 90.2 poin lebih tinggi dari Claude 3.5 (78.3) dan GPT-4O (74.6). AIME 2024: Deepseek-V3 mencapai 39,2, jauh lebih tinggi dari Llama 3.1 (23,3) dan GPT-4O (9,3).
Deepseek juga mengklaim bahwa Deepseek-R1 dapat bersaing dengan banyak standar dengan O1 dan bahkan prioritasnya, termasuk konsep konteks dan masalah matematika.
Sepenuhnya, “Companças” berikut merangkum jadwal komparatif Deepseek dan model kecerdasan buatan Amerika Serikat.
Juga baca. Deepseek Pasukan Chazpte Challenger dari China
AI US (Openai, GPT-4) Teknologi Utama
Ahli -penempatan (MEE) untuk efisiensi guru aktif
-Work untuk memecahkan masalah logis
Model keras (model padat)
Fokus pada pelatihan dengan set data besar data dan model model penu
671 miliar (37 miliar aktivis di setiap kode)
Itu mencapai 175 miliar guru (semua aktif) yang digunakan chip
Nvidia H800
NVIDIA H100 GPU Chips
2048 poin
Ribuan orang puluhan ribu pembayaran pelatihan
Hingga $ 63 juta untuk periode pelatihan selama MT-4 bulan
Beberapa bulan setahun
Penchmark Drop Performance (3 -shooting F1), 91.6 Matematika -500. 90.2 AIME 2024. 39.2 Drop (3-shot F1). 83.7 (GPT-4O)
Konsentrasi perkembangan
Efisiensi dan kinerja biaya dalam tugas khusus
Amnesty International untuk tujuan umum dari berbagai tugas akses
Sumber terbuka merangkul dari Institut Teknologi Massachusetts
Sumber tertutup (sebagian besar model Amerika seperti GPT-4) penghematan energi
Penggunaan energi yang lebih efisien dengan pendekatan MEE
Konsumsi energi tinggi karena semua parameter aktif adalah pembatasan terbatas pada chip H800 yang tidak menjawab masalah sensitif
Dapatkan pembaruan dan alat berita teknologi yang dipilih setiap hari. Mari bergabung dengan Kompassekno whatsapp.
Cara mengklik tautan https://whipsapp.com/channel/0029vacvykk89ine5ysjzh1a. Anda harus terlebih dahulu menginstal aplikasi WhatsApp di ponsel. Periksa berita yang rusak dan berita yang kami pilih langsung di ponsel Anda. Pilih Akses ke Saluran Jaringan Utama Anda ke Kompaas.com WhatsApp Pastikan Anda menginstal aplikasi WhatsApp.