İçindekiler
- Amaç, Kapsam ve Ölçüm İlkeleri
- Veri Seti Tasarımı ve Toplama Protokolü
- Örnekleme Modeli ve Veri Setleri
- Dahil Etme ve Hariç Tutma Kuralları
- Deney Tasarımı ve Test Matrisi
- Kalite Metrikleri ve Encoder Ayarları
- Donanım ve Ortam Gereksinimleri
- Otomasyon Pipeline Tasarımı
- Veri Şeması ve Ham Sonuç Depolama
- Analiz Planı ve Segmentasyon
- Nihai Rapor Şablonu
- Teslimatlar ve Zaman Çizelgesi
- Kaynak ve Bütçe Yaklaşımı
- KVKK ve Etik Uyum Çerçevesi
Bu çalışma, Tools1984 için Türkiye odaklı olarak “gerçek web görselleri” üzerinde tekrar üretilebilir (reproducible), otomasyonlu ve araştırma-grade bir “küresel” görsel sıkıştırma kıyaslaması (benchmark) üretme yöntemini tanımlar. Ölçüm çıktısı olarak boyut kazancı + kalite kaybı + encode süresi + tarayıcı uyumluluğu dörtlüsünü aynı raporda birleştiren, kaynakları ve kodu şeffaf bir protokol hedeflenir.
Çalışma, doğrudan ölçüm üretmez; yalnızca gerçek veriyi nasıl toplayacağınızı ve nasıl ölçeceğinizi adım adım tarif eder.
Türkiye odağı üç kanalın birleştirilmesiyle sağlanır:
- Açık web veri setleri: HTTP Archive (BigQuery üzerinden .tr ve Türkiye odaklı alan adı filtreleri) ve Common Crawl (CDXJ/Index API ile .tr ve Türkçe içerik filtreleri).
- Türkiye’deki üst alan adları ve kategori örneklemesi: Tranco listesi ile .tr TLD ve Türkiye’nin yoğun trafik alan sektörlerinden (haber, e‑ticaret, kamu, bankacılık, ilan, forum) katmanlı örnekleme.
- Tools1984 kullanım sinyali: Sunucu loglarından yalnızca anonimleştirilmiş/aggregate metriklerle (format türleri, ortalama boyutlar, talep edilen dönüşümler) test matrisini gerçek talebe göre ağırlıklandırma. (KVKK ilkeleri dikkate alınır.)
Ana teknik kapsam: JPEG/PNG kaynakları üzerinden JPEG (MozJPEG), WebP (cwebp/libwebp), AVIF (libavif ile aom/rav1e/SVT-AV1) ve piyasada yaygın servisler (TinyPNG/Tinify, ShortPixel) ile kıyas. Rapor, tek bir “en iyi format budur” iddiası üretmek yerine; içerik türüne, çözünürlüğe, alfa kanalına, kaynak sitenin tipine ve tarayıcı uyumluluğuna göre karar matrisi çıkaracak şekilde tasarlanır.
Amaç, Kapsam ve Ölçüm İlkeleri
Bu benchmark’ın “araştırma değeri taşıyan” tarafı; veri setinin şeffaflığı, protokolün tekrar üretilebilirliği, sonuçların segmentlenerek sunulması ve ham verinin (URL/hash/ölçüm) paylaşılabilir oluşudur. Hedeflenen şey; sıradan bir blog yazısı değil, cite edilebilir bir Research/Dataset/Benchmark varlığıdır.
Araştırma Soruları
| # | Araştırma Sorusu |
|---|---|
| 1 | Türkiye odaklı web görsellerinde format/encoder seçimi (JPEG vs WebP vs AVIF) boyut/kalite/hız dengesini nasıl değiştirir? |
| 2 | Hangi içerik türlerinde (fotoğraf, ürün görseli, UI screenshot, ikon/illüstrasyon) hangi format daha avantajlı? |
| 3 | “Servis tabanlı” optimizasyon (TinyPNG/ShortPixel) ile “açık kaynak encoder” (mozjpeg/cwebp/libavif) arasındaki farklar neler? |
| 4 | Türkiye’de yüksek trafikli sektörlerde (haber, e‑ticaret vb.) görsel dağılımı (boyut, format, çözünürlük, alfa) nasıl? |
Ölçüm İlkeleri
- Deterministik pipeline: Aynı kaynak görsel → aynı normalize edilmiş renk/metadata yaklaşımları → her encoder için belirlenmiş kalite merdiveni.
- İki düzeyli veri: Sonuçlar ham veri (tek görsel‑tek deneme) + toplu analiz (domain/sector/type segmentleri) olarak saklanır.
- Pareto yaklaşımı: “Kıyas” tek bir metrik değil; Pareto seti (boyut ↓, kalite ↑, süre ↓) olarak sunulur.
Veri Seti Tasarımı ve Toplama Protokolü
Türkiye Odaklı Veri Kaynakları
| Kaynak | Açıklama | Türkiye Filtresi | Erişim Yöntemi |
|---|---|---|---|
| HTTP Archive | Her ay güncellenen crawl verisi; sayfa ve request düzeyinde kaynak tipleri | Domain .tr + Türkiye’de bilinen büyük siteler | BigQuery üzerinden sorgu |
| Common Crawl | WARC arşivleri ve CDX index ile URL/mime/timestamp bazında filtreleme | .tr TLD + Türkçe sayfa dili tespiti | CDXJ/Index API + WARC range fetch |
| Tranco | .tr TLD filtreli “hedef domain listesi” üretmek için kararlılık sağlar | .tr TLD filtreli üst domainler | CSV indirme + filtreleme |
| Tools1984 Logları | Kullanıcı talebinin yoğunlaştığı dönüşümleri bulmak için aggregate metrik | Dil/locale ve domain referer segmentasyonu | Log aggregation (KVKK uyumlu) |
Not: HTTP Archive, URL seçimini Chrome User Experience Report temelli yapabildiğini belirtir. Tek URL’nin tüm siteyi temsil etmeyebileceği, metodolojik bir sınırlılık olarak raporlanmalıdır.
Örnekleme Modeli ve Veri Setleri
Önerilen ana hedef: 10.000 görsel (N=10.000). Pilot aşama N=2.000, yüksek istatistik gücü için N=50.000 alternatif olarak planlanabilir.
Çok Aşamalı Katmanlı Örnekleme
| Katman | Kırılım | Değerler |
|---|---|---|
| Katman 1 | Domain / Sektör | Haber, E‑ticaret, Kamu, Bankacılık, İlan, Forum/Blog, SaaS |
| Katman 2 | Görsel Türü | Fotoğraf, Ürün fotoğrafı, Banner, UI screenshot, İkon/İllüstrasyon, Saydam PNG, Küçük sprite |
| Katman 3 | Çözünürlük Aralığı | ≤256px, 257–1024px, 1025–2048px, >2048px |
Domain Havuzu Oluşturma
- Tranco listesinden .tr TLD filtreli ilk K domain (ör: 2.000).
- Türkiye’de yaygın ama .tr olmayan büyük siteler için elle ek “whitelist” (ör: .com.tr, .com uzantılı Türkiye siteleri). Bu liste raporda şeffaf biçimde yayınlanır.
- Her domain için HTTP Archive üzerinden yalnızca zaten taranan URL’ler kullanılır.
- Direkt crawl yapılacaksa:
robots.txtve ToS kontrolü + istek limiti (domain başına en fazla 2–5 HTML sayfa, en fazla 50 görsel URL). - Her sayfadan:
<img>,srcset, CSS background görselleri ayrıştırılır; her görsel URL içinHEAD/GETile MIME ve bytes doğrulanır.
Planlanan Veri Setleri
| Veri Seti Adı | Amaç | Türkiye Filtresi | Toplama Yöntemi | Artıları | Risk / Eksi |
|---|---|---|---|---|---|
| HTTPA‑TR‑Images | Türkiye odaklı gerçek sayfa yüklemelerinde görülen görseller | Domain .tr + Türkiye’de bilinen büyük siteler; sayfa dili tespiti | BigQuery → image request URL listesi → görsel indirme | Ölçülebilir ve tekrarlanabilir crawling; aylık güncellenir | HTTP Archive tek URL temsili sınırlı olabilir |
| CC‑TR‑Images | Daha geniş web kapsaması + historik varyasyon | .tr TLD + Türkçe sayfa dili tespiti (HTML dil sınıflandırması) | CDXJ/Index API ile URL/mime filtrele → WARC range fetch | Çok büyük kapsam; index bazlı çekim mümkün | URL index sunucusunu overload etmeme; columnar index önerisi |
| TR‑Category‑Crawl | Sektörleri dengeli temsil | Sektör whitelist (haber, e‑ticaret, kamu, banka) | Tools1984 crawler (rate limit + cache) | Türkiye sektör kırılımı çok temiz | ToS/robots uyumu + operasyon yükü |
| Tools1984‑Usage‑Signals | Hangi tool/format kombinasyonuna ağırlık verileceğini bulmak | Dil/locale ve domain referer segmentasyonu | Log aggregation (format/boyut histogramı, dönüşüm oranı) | Gerçek talebe göre test matrisi optimize edilir | KVKK uyumu ve anonimleştirme zorunlu |
Dahil Etme ve Hariç Tutma Kuralları
Dahil Etme Kriterleri (Minimum Şartlar)
| Kriter | Koşul |
|---|---|
| MIME Türü | image/jpeg, image/png, image/webp, image/avif (isteğe bağlı: image/svg+xml) |
| Dosya Boyutu | 2 KB – 10 MB (uç değerler ayrı “outlier” analizi) |
| Minimum Çözünürlük | 64×64 piksel (tracking pixel’ları ayıklamak için) |
Hariç Tutma Kuralları
| Kural | Gerekçe |
|---|---|
| Animasyonlu içerik (animated WebP/APNG/GIF) | Bu benchmark “still image” odaklı |
| Telif/dağıtım riskli görseller | Ham görselleri kamuya açık dağıtmamak; yalnızca URL + hash + ölçüm paylaşmak |
| Dinamik/korumalı URL’ler | İmzalı CDN URL’leri (kısa TTL), login gerektiren içerikler erişilemez |
| Aynı içeriğin tekrarları | sha256 digest ile dedup uygulanır |
Teknik not: Common Crawl tarafında CDX index, WARC file/offset/length alanları ile “range request” yöntemiyle tek bir kaydı çekmeye izin veren bir iş akışını destekler.
Deney Tasarımı ve Test Matrisi
Bu benchmark, “araç” ve “codec” ayrımını net tutmalıdır:
- Codec/encoder (açık kaynak, parametrelenebilir): MozJPEG, cwebp/libwebp, libavif (aom/rav1e/SVT-AV1)
- Servis/ürün (black-box, sınırlı parametre): TinyPNG/Tinify API, ShortPixel API
Format × Araç × Ayar Test Matrisi
| Çıktı Formatı | Araç / Encoder | Ayar Seti | Not |
|---|---|---|---|
| JPEG | MozJPEG (cjpeg) | quality ∈ {50, 60, 70, 80, 90}; progressive on; optimize on | MozJPEG kalite parametresi 0–100, varsayılan 75 |
| PNG (lossless optimize) | oxipng / zopfli | Optimize parametreleri raporda pinlenir | ImageOptim benzeri toolchain, Linux’ta tekrar üretilebilir |
| PNG/JPEG (smart lossy) | TinyPNG / Tinify API | “service default” (parametre yok) | TinyPNG smart lossy compression; REST servis |
| JPEG/PNG/WebP/AVIF | ShortPixel API | lossy / glossy / lossless modları; WebP/AVIF dönüşümü | ShortPixel API; 3 kalite modu |
| WebP | cwebp (libwebp) | -q ∈ {50, 60, 70, 80, 90}; -m ∈ {4, 6}; -preset ∈ {photo, picture, drawing, text} | cwebp dokümantasyonu ve preset seçenekleri |
| AVIF | libavif (avifenc) | –codec ∈ {aom, rav1e, svt}; –speed (codec’e göre); -q kalite parametreleri | avifenc man sayfası; AOMedia AVIF spesifikasyonu |
| AVIF (heifsave) | libvips | Q (varsayılan 50); compression=AV1 | libvips heifsave dokümanı; AVIF/AV1 desteği |
Not: Squoosh “referans UI” olarak raporda anılabilir (özellikle AVIF denemeleri için yaygın) ancak araştırma-grade ölçüm için CLI/pipeline tarafında aynı encoder’ları doğrudan kullanmak daha tekrar üretilebilir olur.
Kalite Metrikleri ve Encoder Ayarları
Encoder Ayar Standardizasyonu
Amaç: “aynı kalite hedefi” altında farklı formatların boyutunu kıyaslamak. İki yaklaşım planlanır:
| Yaklaşım | Yöntem | Açıklama |
|---|---|---|
| Kalite Merdiveni (Quality Ladder) | Her codec için 5–7 kalite seviyesi | Sabit quality parametreleri ile boyut/kalite karşılaştırması |
| Algısal Kalite Hedefleme | Butteraugli skoru sabit aralıkta | Algısal kalite sabitlenip boyut kıyası yapılır (ileri seviye) |
Kalite Merdiveni Değerleri
| Format | Kalite Seviyeleri | Ek Parametreler |
|---|---|---|
| JPEG (MozJPEG) | 50, 60, 70, 80, 90 | progressive=on, optimize=on |
| WebP (cwebp) | 50, 60, 70, 80, 90 | -m ∈ {4, 6}; -preset ∈ {photo, picture, drawing, text} |
| AVIF (avifenc) | 30, 40, 50, 60, 70 | –speed ∈ {2, 4, 6}; –codec ∈ {aom, rav1e, svt} |
Kalite Ölçüm Metrikleri
| Metrik | Tür | Açıklama | Kullanım Amacı |
|---|---|---|---|
| PSNR | Piksel bazlı | Sinyal-gürültü oranı (dB) | Hızlı karşılaştırma; referans metrik |
| SSIM | Yapısal | Yapısal benzerlik indeksi (0–1) | İnsan algısına daha yakın yapısal ölçüm |
| MS-SSIM | Çok ölçekli yapısal | Multi-Scale SSIM | Farklı çözünürlüklerde daha güvenilir |
| Butteraugli | Algısal/psikovisüel | Algısal fark mesafesi | İnsan gözü algısına en yakın metrik; kalite hedefleme için kullanılır |
Donanım ve Ortam Gereksinimleri
Araştırma-grade benchmark’ın “gizli düşmanı” ölçüm ortamıdır. Ortam şartları raporda sabitlenmelidir:
| Bileşen | Spesifikasyon | Not |
|---|---|---|
| İşletim Sistemi | Ubuntu LTS (ör: 24.04) veya Debian stable | Docker ile sabitlenir |
| CPU | Tek bir “ana koşum” makinesi + opsiyonel doğrulama makinesi | AVIF encode CPU-yoğun olabilir |
| RAM | ≥ 32 GB | 10k × çoklu varyant, paralel encode için |
| Disk | NVMe, ≥ 1 TB çalışma alanı | Ham indirilenler + ara çıktılar |
| Sürüm Pinleme | Docker image ile libwebp, libavif, mozjpeg sürümleri sabitlenir | Tekrar üretilebilirlik için zorunlu |
Otomasyon Pipeline Tasarımı
Pipeline Aşamaları
| Aşama | İşlem | Girdi | Çıktı |
|---|---|---|---|
| 1. URL Havuzu | HTTP Archive + Common Crawl + Tranco + whitelist birleştirme | BigQuery sorguları, CDX index, Tranco CSV | url_pool.csv |
| 2. İndirme ve Doğrulama | Görsel indir, MIME/boyut/çözünürlük kontrol, sha256 dedup | url_pool.csv | Temizlenmiş görsel arşivi + images.csv |
| 3. Encode Matrisi | Her görsel × her encoder varyantı için sıkıştırma | Görsel arşivi + test matrisi konfigürasyonu | Sıkıştırılmış çıktılar + encode süreleri |
| 4. Kalite Ölçümü | SSIM, MS-SSIM, Butteraugli hesaplama | Orijinal + sıkıştırılmış çiftler | Metrik skorları |
| 5. Ham Sonuçlar | CSV/Parquet yazma + özet tablolar | Tüm ölçüm verileri | runs.csv + özet raporlar |
Otomasyon Script İskeleti (Pseudocode)
CONFIG:
dataset_id = "gicb-2026-tr"
target_n_images = 10000
encoders = [mozjpeg, cwebp, avifenc(aom), avifenc(rav1e),
avifenc(svt), libvips_heifsave]
services = [tinify_api, shortpixel_api]
quality_ladder = {
jpeg: [50, 60, 70, 80, 90],
webp: [50, 60, 70, 80, 90],
avif: [30, 40, 50, 60, 70]
}
presets = {
webp: ["photo","picture","drawing","text"],
avif_speed: [2, 4, 6]
}
STEP 1: BUILD_URL_POOL()
domains_tr = Tranco.top_domains(filter_tld=".tr", limit=K)
urls_httpa = HTTPArchive.query_images(domains=domains_tr, month=LATEST)
urls_cc = CommonCrawl.cdx_query(tld=".tr", mime="image/*", limit=K2)
urls_manual = load_whitelist("turkey_high_traffic_domains.txt")
url_pool = union(urls_httpa, urls_cc, urls_manual)
url_pool = apply_exclusion_rules(url_pool)
save(url_pool, "url_pool.csv")
STEP 2: DOWNLOAD_AND_VALIDATE()
for url in url_pool:
resp = http_get(url, timeout, max_bytes)
if mime not in allowed_mimes: continue
if bytes < min_bytes or bytes > max_bytes: continue
img = decode_image(resp.bytes)
if img.width < 64 or img.height < 64: continue
sha = sha256(resp.bytes)
if sha already_seen: continue
store_original(img_bytes, sha)
write_metadata_row(sha, url, domain, mime, width, height, bytes)
STEP 3: RUN_ENCODERS()
for each original_image in originals:
for each encoder_variant in test_matrix:
out_bytes, encode_time, meta = encode(original_image, encoder_variant)
metrics = compute_metrics(original_image, out_bytes)
write_result_row(image_id, encoder_variant, out_bytes,
encode_time, metrics)
STEP 4: AGGREGATE()
build_summary_tables(
segment_by=[format_in, sector, domain, resolution_bucket, alpha_flag]
)
export_figures()
export_report_markdown() Docker/CI Entegrasyonu
- Pilot: Tek bir
docker compose up benchmarkkomutuyla 200 görsel koşabilmek. - CI (nightly): GitHub Actions / self-hosted runner üzerinde 20 görsel “smoke test”.
- CI (haftalık): 200 görsel “pilot refresh” koşumu.
- Tam koşum: 10.000 görsel × matristeki varyant sayısı → CI yerine “batch runner” (kendi sunucu/spot VM).
Not: HTTP Archive verisi BigQuery üzerinde olduğundan, sorgu maliyeti ve ücretsiz kota gibi pratikler rapor eklerinde belirtilmelidir.
Veri Şeması ve Ham Sonuç Depolama
Ham veri iki dosyaya ayrılır: images.csv (görsel metadata) ve runs.csv (her encode denemesi).
images.csv Şeması
| Kolon | Tip | Açıklama |
|---|---|---|
dataset_id | string | Veri seti tanımlayıcısı (ör: “gicb-2026-tr”) |
image_id | string (sha256) | Görselin benzersiz hash değeri |
source_url | string | Görselin indirildiği URL |
source_domain | string | Kaynak alan adı |
source_dataset | enum | httpa | cc | crawl | tools1984_optin |
fetch_timestamp_utc | datetime | İndirme zamanı (UTC) |
mime_in | string | Orijinal MIME türü |
bytes_in | integer | Orijinal dosya boyutu (byte) |
width | integer | Genişlik (piksel) |
height | integer | Yükseklik (piksel) |
has_alpha | boolean | Alfa kanalı var mı? |
content_hint | enum | photo | product | ui | icon | illustration | unknown |
license_note | string | Telif notu (ör: “not redistributed”) |
runs.csv Şeması
| Kolon | Tip | Açıklama |
|---|---|---|
run_id | uuid | Koşum benzersiz tanımlayıcısı |
image_id | string (sha256) | Kaynak görselin hash değeri |
encoder_family | enum | mozjpeg | cwebp | avifenc | tinify | shortpixel | libvips |
encoder_version | string | Encoder sürümü (tekrar üretilebilirlik için) |
codec | enum | jpeg | png | webp | avif |
settings_json | JSON string | Kalite/preset/speed parametreleri |
bytes_out | integer | Çıktı dosya boyutu (byte) |
encode_wall_ms | float | Encode süresi (milisaniye) |
peak_rss_mb | float | Pik bellek kullanımı (MB) — opsiyonel |
ssim | float | SSIM skoru (0–1) |
ms_ssim | float | MS-SSIM skoru |
psnr | float | PSNR değeri (dB) — opsiyonel |
butteraugli | float | Butteraugli algısal fark skoru |
status | enum | ok | fail | skipped |
error_message | string (nullable) | Hata mesajı (başarısızlık durumunda) |
Analiz Planı ve Segmentasyon
Analiz, “genel ortalama” tuzağına düşmeden segmentlenmelidir.
Temel Metrikler
- compression_ratio = bytes_out / bytes_in
- “Bit-per-pixel” benzeri normalize ölçüler
- Butteraugli aralığında “hedef kalite bandı” (ör: 1.0–2.0) için boyut karşılaştırması
Analiz Segmentleri
| Segment | Kırılım Değerleri | Analiz Amacı |
|---|---|---|
| Sektör | Haber, E-ticaret, Kamu, Finans | Sektörel görsel karakteristiklerinin etkisi |
| Görsel Türü | Photo, Product, UI, Icon | İçerik tipine göre format avantajı |
| Alfa Kanalı | Var / Yok | Saydamlık gerektiren görsellerde format performansı |
| Çözünürlük | ≤256px, 257–1024px, 1025–2048px, >2048px | Boyut/kalite dengesinin çözünürlüğe bağlılığı |
| Kaynak Format | JPEG, PNG | Giriş formatının çıktı performansına etkisi |
Karar Çıktıları
- Her segment için “Pareto front”: boyut ↓, Butteraugli ↓, süre ↓
- “Varsayılan öneri seti”: Tools1984 için 2–3 preset kombinasyonu (hızlı / denge / kalite)
Nihai Rapor Şablonu ve Görselleştirme
Planlanan Görselleştirmeler
| Şekil / Tablo | Tür | İçerik |
|---|---|---|
| Şekil 1 | Akış Diyagramı | Veri toplama ve benchmark pipeline’ı (tekrar üretilebilir iş akışı) |
| Şekil 2 | Scatter Plot | 10.000 Türkiye odaklı görselde encoder‑format Pareto karşılaştırması (Butteraugli vs çıktı boyutu) |
| Şekil 3 | Bar/Box Plot | Haber vs E‑ticaret vs Kamu sitelerinde WebP/AVIF kazanç dağılımı |
| Şekil 4 | CDF Grafiği | “% kaç görselde WebP/AVIF, JPEG’e göre X% küçüldü?” kümülatif dağılım |
| Şekil 5 | Violin Plot | Sektör bazlı sıkıştırma oranı dağılımları |
| Tablo X | Öneri Tablosu | Tools1984 için önerilen 3 mod (hız/denge/kalite) ve parametreleri |
Rapor Bölüm Yapısı
- Giriş ve Kapsam: Neyi ölçüyoruz, neden; Türkiye odağı nasıl sağlandı.
- Veri Seti: Kaynaklar, örnekleme, dedup, hariç tutma, veri manifesti.
- Metodoloji: Encoder ayarları, ortam, ölçüm metrikleri, tekrar üretilebilirlik.
- Sonuçlar (Genel): Format bazlı tradeoff analizleri.
- Sonuçlar (Türkiye Segmentleri): Sektör/görsel türü kırılımları.
- Tools1984 İçin Öneriler: Varsayılan presetler, UI/UX önerileri, API parametreleri.
- Kısıtlar ve Geçerlilik: Temsil sorunu, timeslice etkisi, servislerin black-box olması.
- Ekler: Komutlar, Docker hash, CSV şeması, BigQuery sorgu örnekleri.
Teslimatlar ve Zaman Çizelgesi
| Faz | Süre (Öneri) | Teslimat | Kabul Kriteri |
|---|---|---|---|
| Tasarım Kilidi | 1 hafta | Protokol v1, test matrisi v1, etik/KVKK kontrol listesi | Repo’da sürüm pin + veri kaynakları net |
| Pilot Koşum | 1 hafta | N=200–500 görsel pilot sonuçları + performans ölçümü | Pipeline tek komutla çalışıyor; metrikler üretiliyor |
| Veri Seti Dondurma | 1–2 hafta | N ≈ 10.000 “image manifest” (URL + hash + meta) | Dedup oranı raporlanmış; hariç tutma kuralları uygulanmış |
| Tam Benchmark | 1–2 hafta | Tüm matriste encode + metrik ham sonuçları | runs.csv tutarlı; hata oranı < hedef |
| Analiz ve Yayın | 1 hafta | Nihai rapor (TR + EN), grafikler, indirilebilir ham ölçüm | Rapor içi tablolar/figürler tamam; metodoloji şeffaf |
Kaynak ve Bütçe Yaklaşımı
“Compute bütçesi” uydurulacak bir sayı olmamalı; pilot ölçümle hesaplanmalıdır. Bu yüzden bütçe metodu şöyle tasarlanır:
- Pilot koşumda her encoder varyantı için ortalama süreyi ölç:
t_jpeg,t_webp,t_avif_aom,t_avif_rav1e,t_avif_svt,t_service_call - Toplam iş:
total_variants = N_images × variants_per_image - Tahmini süre:
T_total ≈ Σ(N_images × t_variant) / paralellik_katsayısı
Kaynak Gereksinimleri
| Kalem | Minimum | Önerilen | Not |
|---|---|---|---|
| Koşum Makinesi | 16 vCPU / 32 GB RAM | 32 vCPU / 64 GB RAM | AVIF encode ağır olabilir; pilotla doğrula |
| Depolama | 500 GB | 1–2 TB | Ham + ara çıktı + log |
| Paralellik | 4–8 worker | 8–16 worker | IO/CPU dengesi |
| Servis API Kotası | Pilot 200 görsel | 10k görsel | Tinify/ShortPixel kota modeli doğrulanır |
| İnsan Zamanı | 1 eng (ops) + 1 eng (analysis) | + 1 eng (data) | 4–6 hafta bandında |
Servis maliyeti (TinyPNG/ShortPixel): Ödeme modeli ve kota değişebilir; raporda “güncel fiyatı sağlayıcıdan doğrulayın” notu düşülür. Pilot aşamada 100–200 görselle maliyet örneği çıkarılıp birim maliyet hesaplanır.
KVKK ve Etik Uyum Çerçevesi
Tools1984 logları kullanılırsa, kişisel veri işleme tanımı ve yükümlülükler için Türkiye mevzuatına (KVKK) uygun bir yaklaşım zorunludur.
Pratik Minimumlar
| Kural | Açıklama |
|---|---|
| Ham görsel paylaşmama | Kullanıcı görsellerini depolamamak / yeniden dağıtmamak (mümkünse hiç almamak) |
| Sadece aggregate metrik | input_mime, bytes_in, bytes_out, tool_name, timestamp_bucket, country_segment (IP saklamadan) |
| Opt-in mekanizması | Örnek görsel gerekiyorsa: açık rıza ile “research upload” alanı |
| Anonimleştirme | Bireysel kullanıcıya ilişkilendirilebilecek hiçbir veri raporda yer almaz |
Bu bölüm, nihai raporda “Etik ve Uyum” eki olarak genişletilerek yer almalıdır.
Bu çalışma, ölçüm üretmez; yalnızca gerçek veriyi nasıl toplayacağınızı ve nasıl ölçeceğinizi adım adım tarif eder. Tüm metodoloji, veri kaynakları ve pipeline kodları şeffaf ve tekrar üretilebilir şekilde tasarlanmıştır.

💬 Yorumlar (0)
Yorum yapmak için giriş yapın
Hesabınız yok mu? Hemen ücretsiz kaydolun.
Giriş Yap
Ücretsiz Kaydol
📭 Henüz yorum yapılmamış. İlk yorumu siz yapın!