Nini Kinachochochea Bili Yako ya Kutengeneza Picha

Watu wengi hudhani kuwa azimio (resolution) au urefu wa maelekezo (prompt) ndivyo vinavyoongeza gharama za API za picha. Wamekosea.

Tulifanya majaribio ya kutengeneza picha kupitia vigezo vinne: modeli, azimio, idadi ya picha, na ubora. Hapa ndipo tulipopata matokeo.

Mtego wa Ubora

Kigezo kikubwa zaidi cha gharama ni mpangilio wa ubora. API nyingi zinakuwezesha kuchagua ubora wa chini, wa kati, au wa juu.

Kwa modeli kama gpt-image, unalipia kwa kila token. Ubora wa juu haumaanishi piksel nyingi zaidi. Inamaanisha juhudi zaidi za uundaji (rendering).

Tulijaribu maelekezo (prompt) yaleyale kwa azimio lilelile. Ukubwa wa faili ulibaki vilevile. Hata hivyo, mpangilio wa ubora wa juu uligharimu mara 36 zaidi kuliko mpangilio wa ubora wa chini.

Unalipia kazi inayofanywa na modeli, si ukubwa wa faili.

Matokeo Muhimu

• Picha ndiyo gharama, si maelekezo (prompt). Katika text-to-image, maelekezo yako ni kiasi kidogo sana kisichozingatiwa. Ukitumia image-to-image, picha unayoingiza inakuwa gharama kubwa sana.

• Uchaguzi wa modeli ni kigezo cha mara 6. Mitindo tofauti ya malipo inabadilisha jumla ya matumizi yako. Baadhi ya modeli hutoza kwa kila token. Nyingine hutoza ada ya kudumu kwa kila picha.

• Azimio ni kigezo dhaifu. Kuongeza azimio hakuzidishi gharama kwa uwiano sawa kila wakati. Katika baadhi ya modeli, gharama inabaki vilevile bila kujali ukubwa.

• Caching haifanyi kazi. Watu wengi hujaribu kutumia prompt caching ili kuokoa pesa. Kutengeneza picha ni stateless. Huwezi kutumia hali ya maelekezo (prompt state) tena ili kupunguza bili yako.

• Batching haokoa pesa. Kutengeneza picha nne kwa mwito mmoja mara nyingi hukutoza kwa maelekezo (prompt) mara nne. Hakuna ugawaji wa gharama.

Jinsi ya Kuchagua Model

Ikiwa unahitaji rasimu za ubora wa chini au thumbnails: Tumia modeli ya kulipia kwa kila token. Hii ndiyo chaguo rahisi zaidi kwa kazi za low-fidelity.

Ikiwa unahitaji picha za ubora wa kati au wa juu: Tumia modeli ya ada ya kudumu kwa kila picha. Gharama za kila token hupanda sana kwenye ubora wa juu. Ada ya kudumu inatabirika zaidi na kwa kawaida ni rahisi zaidi kwa kazi za kitaalamu.

Ikiwa unafanya uhariri wa image-to-image: Tumia modeli za ada ya kudumu kwa kila picha kama chaguo la kawaida. Mara nyingi hujumuisha picha za rejeleo bila malipo. Modeli za kila token hutoza ziada kwa kila picha ya rejeleo unayotoa.

Acha kuchagua ubora wa juu kama chaguo la kawaida. Weka ubora unaoendana na kazi.

Chanzo: https://dev.to/synthorai/what-actually-drives-your-image-generation-bill-2bc2