Kamis 08 Jun 2023 07:05 WIB

Sering Diunggulkan, ChatGPT Malah Gagal dalam Ujian Ini

ChatGPT mencapai kurang dari 30 persen tingkat jawaban yang benar.

Rep: Gumanti Awaliyah/ Red: Natalia Endah Hapsari
 Sebuah studi terbaru menemukan bahwa chatbot ChatGPT dari OpenAI telah gagal dalam ujian ahli urologi di AS../ilustrasi
Foto: Unsplash
Sebuah studi terbaru menemukan bahwa chatbot ChatGPT dari OpenAI telah gagal dalam ujian ahli urologi di AS../ilustrasi

REPUBLIKA.CO.ID, JAKARTA – Sebuah studi terbaru menemukan bahwa chatbot ChatGPT dari OpenAI telah gagal dalam ujian ahli urologi di AS. Hal ini terjadi di saat meningkatnya minat terhadap potensi peran teknologi kecerdasan buatan (AI) dalam bidang kedokteran dan perawatan kesehatan.

Studi yang dilaporkan dalam jurnal Urology Practice ini menunjukkan bahwa ChatGPT mencapai kurang dari 30 persen tingkat jawaban yang benar pada Assessment Study Program for Urology (SASP) dari American Urologist Association.

Baca Juga

"ChatGPT tidak hanya memiliki tingkat jawaban benar yang rendah terkait pertanyaan klinis dalam praktik urologi, tetapi juga membuat beberapa jenis kesalahan yang berisiko menyebarkan informasi medis yang salah," kata Christopher M Deibert, dari University of Nebraska Medical Center seperti dilansir dari Siasat, Kamis (7/6/2023).

SASP adalah ujian praktik dengan 150 pertanyaan yang membahas kurikulum inti dari pengetahuan medis di bidang urologi. Penelitian ini tidak termasuk 15 pertanyaan yang berisi informasi visual seperti gambar atau grafik.

Secara keseluruhan, ChatGPT memberikan jawaban yang benar untuk kurang dari 30 persen pertanyaan SASP. Lalu 28,2 persen pertanyaan pilihan ganda, dan 26,7 persen pertanyaan terbuka.

Chatbot memberikan jawaban yang tidak pasti untuk beberapa pertanyaan. Pada pertanyaan-pertanyaan ini, akurasi menurun ketika LLM pada ChatGPT diminta untuk membuat ulang jawabannya. Untuk sebagian besar pertanyaan terbuka, ChatGPT memberikan penjelasan untuk jawaban yang dipilih.

“Secara keseluruhan, ChatGPT sering memberikan pembenaran yang tidak jelas dengan pernyataan yang luas dan jarang mengomentari hal-hal yang spesifik. Bahkan ketika diberi feedback, ChatGPT terus menerus mengulangi penjelasan awal meskipun tidak akurat," kata Deibert.

Para peneliti menyarankan bahwa meskipun ChatGPT dapat bekerja dengan baik pada tes yang membutuhkan ingatan akan fakta, namun ChatGPT gagal dalam pertanyaan yang berkaitan dengan kedokteran klinis, yang membutuhkan pertimbangan simultan dari berbagai fakta, situasi, dan hasil yang tumpang tindih.

“Mengingat bahwa LLM dibatasi oleh pelatihan manusia, penelitian lebih lanjut diperlukan untuk memahami keterbatasan dan kemampuan mereka di berbagai disiplin ilmu sebelum tersedia untuk penggunaan umum," kata Dr Deibert.

“Saat ini, pemanfaatan ChatGPT dalam urologi memiliki kemungkinan besar untuk memfasilitasi kesalahan informasi medis bagi pengguna yang tidak terlatih,” jelas dia.

Advertisement
Berita Lainnya
Advertisement
Advertisement
Advertisement