Ringkasan Embeddings API

Embedding adalah representasi numerik dari teks, gambar, atau video yang menangkap hubungan di antara input. Model machine learning, khususnya model AI generatif, cocok untuk membuat embeddings dengan mengidentifikasi pola dalam set data besar. Aplikasi dapat menggunakan embeddings untuk memproses dan menghasilkan bahasa, mengenali makna kompleks, serta hubungan semantik khusus untuk konten Anda. Anda berinteraksi dengan embedding setiap kali menyelesaikan Google Penelusuran atau melihat rekomendasi streaming musik.

Embeddings bekerja dengan mengonversi teks, gambar, dan video menjadi array bilangan floating point, yang disebut vektor. Semua vektor ini dirancang untuk menangkap makna dari teks, gambar, dan video. Panjang array embedding disebut dimensi vektor. Misalnya, satu bagian teks mungkin direpresentasikan oleh vektor yang berisi ratusan dimensi. Kemudian, dengan menghitung jarak numerik antara representasi vektor dari dua bagian teks, aplikasi dapat menentukan kesamaan antar-objek.

Vertex AI mendukung dua jenis model embedding, yaitu teks dan multimodal.

Kasus penggunaan embedding teks

Beberapa kasus penggunaan umum untuk embedding teks adalah:

  • Penelusuran semantik: Penelusuran teks yang diberi peringkat berdasarkan kemiripan semantik.
  • Klasifikasi: Menampilkan class item yang atribut teksnya mirip dengan teks yang diberikan.
  • Pengelompokan: Mengelompokkan item yang atribut teksnya mirip dengan teks yang diberikan.
  • Deteksi Pencilan: Menampilkan item yang atribut teksnya paling tidak berkaitan dengan teks yang diberikan.
  • Antarmuka percakapan: Mengelompokkan grup kalimat yang dapat menyebabkan respons serupa, seperti dalam ruang sematan tingkat percakapan.

Contoh kasus penggunaan: Mengembangkan chatbot rekomendasi buku

Jika Anda ingin mengembangkan chatbot rekomendasi buku, hal pertama yang harus dilakukan adalah menggunakan deep neural network (DNN) untuk mengonversi setiap buku menjadi vektor penyematan, dengan satu vektor embedding mewakili satu buku. Sebagai input ke DNN, Anda dapat memasukkan judul buku saja atau konten teks saja. Atau, Anda dapat menggunakan keduanya secara bersamaan, beserta metadata lain yang menjelaskan buku tersebut, seperti genre.

Penyematan dalam contoh ini dapat terdiri dari ribuan judul buku dengan ringkasan dan genrenya, dan mungkin memiliki representasi untuk buku seperti Wuthering Heights karya Emily Brontë dan Persuasion karya Jane Austen yang mirip satu sama lain (jarak kecil antara representasi numerik). Sedangkan representasi numerik untuk buku The Great Gatsby karya F. Lebih jauh lagi, Scott Fitzgerald, karena jangka waktu, genre, dan ringkasan tidak mirip.

Input merupakan pengaruh utama terhadap orientasi ruang sematan. Misalnya, jika kita hanya memiliki input judul buku, dua buku dengan judul yang serupa, tetapi ringkasannya sangat berbeda, dapat saling berdekatan. Namun, jika kita menyertakan judul dan ringkasan, buku yang sama ini akan kurang mirip (lebih jauh) dalam ruang penyematan.

Bekerja sama dengan AI generatif, chatbot saran buku ini dapat meringkas, menyarankan, dan menampilkan buku yang mungkin Anda suka (atau tidak suka), berdasarkan kueri Anda.

Kasus penggunaan embedding multimodal

Beberapa kasus penggunaan umum untuk embedding multimodal meliputi:

  • Kasus penggunaan gambar dan teks:

    • Klasifikasi gambar: Mengambil gambar sebagai input dan memprediksi satu atau beberapa kelas (label).
    • Penelusuran gambar: Menelusuri gambar yang relevan atau mirip.
    • Rekomendasi: Membuat rekomendasi produk atau iklan berdasarkan gambar.
  • Kasus penggunaan gambar, teks, dan video:

    • Rekomendasi: Buat rekomendasi produk atau iklan berdasarkan video (penelusuran kemiripan).
    • Penelusuran konten video
    • Menggunakan penelusuran semantik: Ambil teks sebagai input, lalu tampilkan serangkaian frame berperingkat yang cocok dengan kueri.
    • Menggunakan penelusuran kemiripan:
      • Mengambil video sebagai input, dan menampilkan kumpulan video yang cocok dengan kueri.
      • Ambil gambar sebagai input, dan tampilkan kumpulan video yang cocok dengan kueri.
    • Klasifikasi video: Mengambil video sebagai input dan memprediksi satu atau beberapa class.

Contoh kasus penggunaan: Pengalaman retail online

Retailer online makin banyak memanfaatkan embedding multimodal untuk meningkatkan pengalaman pelanggan. Setiap kali Anda melihat rekomendasi produk yang dipersonalisasi saat berbelanja, dan mendapatkan hasil visual dari penelusuran teks, Anda berinteraksi dengan penyematan.

Jika Anda ingin membuat penyematan multimodal untuk kasus penggunaan retail online, mulailah dengan memproses setiap gambar produk untuk menghasilkan penyematan gambar unik, yang merupakan representasi matematis dari gaya visual, palet warna, detail kuncinya, dan lainnya. Secara bersamaan, konversi deskripsi produk, ulasan pelanggan, dan data tekstual yang relevan lainnya menjadi embedding teks yang menangkap konteks dan makna semantiknya. Dengan menggabungkan embedding gambar dan teks ini ke dalam mesin telusur dan pemberi saran terpadu, toko ini dapat menawarkan rekomendasi yang dipersonalisasi untuk item yang mirip secara visual berdasarkan histori penjelajahan dan preferensi pelanggan. Selain itu, cara ini memungkinkan pelanggan menelusuri produk menggunakan deskripsi natural language, dengan mesin yang mengambil dan menampilkan item yang secara visual paling mirip dan cocok dengan kueri penelusuran mereka. Misalnya, jika pelanggan menelusuri "gaun musim panas hitam", mesin telusur dapat menampilkan gaun yang berwarna hitam, dan juga gaun dengan potongan gaun musim panas, terbuat dari bahan yang lebih ringan, serta mungkin tanpa lengan. Kombinasi pemahaman visual dan tekstual yang kuat ini menciptakan pengalaman belanja yang disederhanakan yang meningkatkan engagement pelanggan, kepuasan, dan pada akhirnya dapat mendorong penjualan.

Langkah selanjutnya