AI'nın Yanlış Yanıtlarını Nasıl Yakalarım? 7 Sinyal + Otomatik Filtreleme (2026)

TL;DR: AI'lar mükemmel değil. Her 100 yanıttan 3-7'si bir şekilde yanlış: fiyat hatası, ton kırılması, marka dışı içerik, yasal sınır aşımı veya halüsinasyon. Yanlış yanıtı göndermeden yakalamak için 7 erken uyarı sinyali, otomatik filtreleme katmanları ve hibrit insan onay paneli stratejisi.

30 saniyede ne öğreneceksin?

Soru	Cevap
AI yanıt kalitesi nasıl ölçülür?	4 metrik: doğruluk (fiyat/stok), ton uyumu, marka kurallarına uyum, yasal sınır. Her birinde %95+ hedef.
Yanlış yanıt yakalamanın temel mantığı nedir?	Üretim sonrası otomatik filtreleme → kuralları geçemeyen yanıt insan onayına gider.
7 erken uyarı sinyali nedir?	(1) sentiment kayması, (2) halüsinasyon, (3) fiyat sapması, (4) marka tonu kırılması, (5) yasak kelime, (6) çok uzun/kısa yanıt, (7) müşteri belirsizliği.
Hibrit mod % kaç olmalı?	Sektöre göre %5-30. E-ticaret %5-10, sağlık/finans %20-30.
Aylık kalibre ritmi ne?	Haftalık 10-20 örnek manuel review + aylık yanlış-pozitif/negatif oranını ölç.

1. AI yanlış yanıt gerçekten ne kadar sık olur?

10 Türk e-ticaret markasının 30 günlük FendyChat verisinden (toplam 47.000 AI yanıt):

Hata türü	Oran (raw)	Otomatik filtre yakalama	Yayına çıkan hata
Fiyat / stok hatası	%3.2	%94 yakalandı	%0.19
Marka tonu kırılması	%4.1	%78 yakalandı	%0.90
Halüsinasyon (var olmayan ürün/feature)	%1.8	%88 yakalandı	%0.22
Yasal sınır aşımı (sağlık tavsiyesi, vb.)	%0.6	%96 yakalandı	%0.02
Sentiment kayması (öfkeli müşteriye düz yanıt)	%2.4	%85 yakalandı	%0.36
Çok uzun / çok kısa yanıt	%5.7	%92 yakalandı	%0.46
Yanlış müşteri tipi tanıma	%1.5	%72 yakalandı	%0.42

Toplam ham hata oranı: %19.3 — yani her 5 yanıttan 1'i bir şekilde "iyi değil". Otomatik filtre sonrası yayına çıkan hata: %2.57 — yani her 39 yanıttan 1'i hâlâ küçük hata.

Sonuç: Otomatik filtreleme şart — AI'yı tek başına bırakmak Türk müşteri için kabul edilemez (%19.3 = NPS yıkımı).

2. 7 Erken Uyarı Sinyali

Sinyal 1: Sentiment kayması

Nedir? Müşteri öfkeli/üzgün/şaşkın yazmış, AI nötr veya neşeli yanıt veriyor.

Örnek (yanlış):

Müşteri: "Ürünüm 5 günde gelmedi, kargoya ne oldu yahu?!" AI: "Selam tatlım, sipariş takibin için sipariş numarana bakar mısın? 🌸"

Örnek (doğru):

Müşteri: "Ürünüm 5 günde gelmedi, kargoya ne oldu yahu?!" AI: "Çok üzgünüm, hayal kırıklığı yaşadığın için. Sipariş numaranı paylaşır mısın, hemen kargoyla iletişime geçeyim?"

Otomatik filtre: Yanıttan önce sentiment analizi. Müşteri sentiment < -0.3 (öfkeli/üzgün) + AI yanıt sentiment > +0.2 (neşeli) → insan onayına.

FendyChat'te: Otomatik açık, eşik müşteri ayarlanabilir.

Sinyal 2: Halüsinasyon (var olmayan ürün/feature)

Nedir? AI veri tabanında olmayan ürün/fiyat/feature uyduruyor.

Örnek (halüsinasyon):

Müşteri: "Pembe rengi var mı?" AI: "Evet pembe stoğumuzda 🌸 Fiyat 299 ₺, kargo ücretsiz!"

Gerçek: pembe yok, sadece beyaz/siyah var.

Filtre nasıl çalışır:

AI yanıt ürettiğinde, sözünü ettiği ürün adı/fiyat/feature ürün katalogundan kontrol edilir
Eşleşmiyorsa insan onayına gider
Eşleşiyorsa direkt gider

Implementation: RAG (Retrieval-Augmented Generation) + post-generation validation. FendyChat'te shop catalog sync (ikas/Trendyol API) → her yanıt gerçek envanter ile doğrulanır.

Sinyal 3: Fiyat sapması

Nedir? AI fiyatı yanlış söylüyor — eski fiyat, indirimli fiyat, ya da hayalî.

Örnek (sapma):

Müşteri: "Bu çantanın fiyatı ne?" AI: "199 ₺ 🌸"

Gerçek katalog: 249 ₺

Filtre: Her sayısal fiyat → katalog ile karşılaştır. ±%5 dışı sapma = insan onayına.

Pratik tip: Stok azalmış ürünlerde "tükenmek üzere, ihtiyacın varsa hızlı ol" gibi stok-bilinçli yanıtlar da bu filtreye dahil edilebilir.

Sinyal 4: Marka tonu kırılması

Nedir? AI marka voice'undan dışında konuşuyor. Genelde "robotik" veya "fazla samimi" sapma.

Örnek (tonu kırılan):

Marka voice: samimi, sıcak, "tatlım" "canım" kullanır AI: "Sayın müşterimiz, talebiniz alınmıştır. Tarafımıza bildiriniz."

Filtre nasıl çalışır:

Brand voice eğitim örnekleri (10-30 manuel yanıt) → embedding model
Yeni AI yanıt → embedding alınır
Brand voice ile cosine similarity < 0.65 → insan onayına

FendyChat'te: Otomatik açık. Brand voice ne kadar homojen ise filtre o kadar hassas.

Tipik şikayetler:

E-ticaret markası: "Sayın müşterimiz" → her zaman insan onayına gönderilir
Klinik: "Selam tatlım" → çok samimi, insan onayı
Ajans: "Yaa kanka" → kurumsallık eksik, insan onayı

Sinyal 5: Yasak kelime / yasal sınır

Nedir? AI yasal olarak söylememesi gereken şey söylüyor.

Sektör bazlı yasak listesi (örnekler):

Sektör	Yasak kelimeler
Sağlık (eczane, klinik)	"tedavi eder", "iyileştirir", "doktora gerek yok", spesifik ilaç önerisi
Finans (kripto, yatırım)	"kâr garantili", "%X getiri", spesifik yatırım tavsiyesi
Estetik	"kesinlikle kilo verirsin", "ameliyatsız aynı sonuç"
Gıda	"X hastalığa iyi gelir", "kanseri önler"
Genel	rakip marka adları, küfür, ayrımcı dil

Filtre: Regex + LLM-classifier hibrit. Yasak kelime tespit → otomatik blok (insan onayı bile değil, yanıt gönderilmez).

FendyChat'te: Sektör template'inde hazır + custom liste yüklenebilir.

Sinyal 6: Çok uzun / çok kısa yanıt

Nedir? İdeal Instagram DM yanıtı 60-300 kelime. Çok uzun = okumaz; çok kısa = soğuk.

Kötü örnekler:

12 kelime: "Stokta var. 199 TL. Kargo ücretsiz." → soğuk
850 kelime: 4 paragraf + 7 bullet + "ayrıca, ek olarak..." → kimse okumaz

Filtre: Yanıt uzunluğu sektör + müşteri sorusu tipine göre hedef aralık dışı → insan onayına.

Soru tipi	Hedef yanıt uzunluğu
"Fiyat ne?"	30-80 kelime
"X ürün var mı?"	40-100 kelime
"Geri iade nasıl?"	80-200 kelime
"Hizmet detayı?" (klinik, ajans)	120-280 kelime
Şikayet yanıtı	60-180 kelime

Sinyal 7: Müşteri tipi belirsizliği

Nedir? AI müşterinin kim olduğunu doğru sınıflandıramamış.

Örnek:

Müşteri: "Toplu sipariş için fiyat alabilir miyim?" AI: (perakende fiyat verir, B2B fiyat vermez)

Doğrusu:

AI: "Toplu sipariş için B2B fiyatlandırma sunuyoruz. Kaç adet düşünüyorsun? Sana özel teklif hazırlayalım."

Filtre: AI yanıt vermeden önce müşteri tipi tahmini (B2C / B2B / VIP / yeni müşteri). Tahmin confidence < %75 → "biraz daha bilgi" akışına geçer veya insan onayına gider.

3. Otomatik Filtreleme Mimarisi (Teknik)

3 katmanlı kontrol

[AI yanıt üretildi]
   ↓
Katman 1: Hard filters (regex + yasak liste)
   ├─ Geçti? → Katman 2
   └─ Geçmedi → BLOK (yanıt gönderilmez, log)
   ↓
Katman 2: Soft filters (sentiment, sapma, ton)
   ├─ Geçti? → Katman 3
   └─ Geçmedi → İNSAN ONAYI (panel)
   ↓
Katman 3: Validation (envanter, fiyat, kural)
   ├─ Geçti? → GÖNDER
   └─ Geçmedi → İNSAN ONAYI
   ↓
[Müşteriye gönderildi]
   ↓
[Müşteri tepkisi: like, yanıt, sessizlik]
   ↓
Katman 4: Post-hoc analiz (haftalık)
   └─ Yanıtın etkisini ölç, kötü olanları feedback olarak AI'ya gönder

Pratik: Bu mimari FendyChat'te native. İhtiyaca göre her katmanın eşikleri değiştirilebilir.

Katman 1: Hard filters (zero-tolerance)

Yasak kelime tarama:

FORBIDDEN_WORDS = [
    # sağlık tavsiyesi
    "tedavi eder", "iyileştirir", "doktora gerek yok",
    # yatırım tavsiyesi
    "kâr garantili", "yatırım yap",
    # rakip marka
    "manychat tavsiye ederim",
    # küfür / ayrımcılık
    # ...
]

if any(word in ai_response.lower() for word in FORBIDDEN_WORDS):
    block_response()
    log_incident()

Katman 2: Soft filters (insan onayına)

Sentiment kayması:

customer_sent = sentiment_analyzer(customer_message)  # -1 ile +1 arası
ai_sent = sentiment_analyzer(ai_response)

if customer_sent < -0.3 and ai_sent > 0.2:
    # Müşteri öfkeli, AI neşeli → INCONSISTENT
    queue_for_human_approval()

Brand voice deviation:

brand_embedding = average_embedding(BRAND_VOICE_SAMPLES)
response_embedding = embed(ai_response)

similarity = cosine_similarity(brand_embedding, response_embedding)

if similarity < 0.65:
    queue_for_human_approval()

Katman 3: Validation

Envanter doğrulama:

mentioned_products = extract_products(ai_response)
for product in mentioned_products:
    if product not in catalog:
        queue_for_human_approval()
        break
    if abs(extracted_price - catalog[product].price) / catalog[product].price > 0.05:
        queue_for_human_approval()

4. İnsan Onay Paneli (Pratik UI)

İnsan onayına giden yanıt hızlı işlem alabilmeli. FendyChat panelinde her onay 8-12 saniye:

┌────────────────────────────────────────────────┐
│  ⚠️  Yanıt insan onayı bekliyor                │
│  Sebep: Sentiment kayması (müşteri öfkeli)    │
├────────────────────────────────────────────────┤
│  Müşteri @ayse_modaa, 14:32                    │
│  "Bu ürün sahte mi yahu, paramı isterim!"     │
├────────────────────────────────────────────────┤
│  AI'nın önerisi (REDDET ▼ veya DÜZENLE ✏️):   │
│                                                │
│  "Sahte ürün satmıyoruz 🌸 Ürün takip         │
│   linkini paylaşır mısın, kontrol edelim?"    │
├────────────────────────────────────────────────┤
│  [✅ GÖNDER]  [✏️ DÜZENLE]  [❌ REDDET]         │
└────────────────────────────────────────────────┘

Eczacı/Doktor/Ajans CEO kararı:

✅ Gönder: AI yanıt iyi, direkt
✏️ Düzenle: AI yanıtın bir kısmını düzeltir (örn. "Sahte değil — kalitemizi garanti ediyoruz, iadeden %100 para iadesi veriyoruz")
❌ Reddet: Yanıt kötü, manuel yanıt yazılır

Önemli: Reddedilen yanıtlar AI'ın feedback loop'una girer → bir sonraki benzer durumda AI öğrenir.

5. Sektörel Filtre Şiddeti Önerileri

Sektör	Otomatik gönderim oranı	İnsan onayı oranı
Moda / kozmetik / aksesuar	%85-92	%8-15
Yiyecek-içecek	%80-88	%12-20
Mobilya / teknoloji	%75-85	%15-25
Sağlık (klinik, eczane)	%65-75	%25-35
Finans / kripto	%50-65	%35-50
Eğitim / kurs	%78-85	%15-22
Yerel hizmet (restoran, salon)	%88-94	%6-12

Genel kural: Yanlış yanıt maliyeti ne kadar yüksekse (yasal, marka, ciro), insan onay oranı o kadar yüksek olmalı.

6. Aylık Kalibrasyon Ritmi

Her hafta (30 dk)

Cuma 16:30: Geçen hafta gönderilen 20 random AI yanıtı oku
Her birini 4 metrikle puanla: doğruluk, ton, marka uyumu, yasal sınır (1-5)
3.5 altı olanları "kötü" işaretle → feedback loop

Her ay (2 saat)

Ay sonu cumartesi: Aylık metrik özet
- Yanlış-pozitif oranı (gereksiz insan onayı): hedef %15
- Yanlış-negatif oranı (yanlış yanıt yayında): hedef %2
- Brand voice consistency: hedef %92+
Filtre eşiklerini ayarla:
- Yanlış-pozitif fazla → eşikleri gevşet (insan az çağrılır)
- Yanlış-negatif fazla → eşikleri sıkılaştır (insan çok çağrılır)

Her çeyrek (4 saat)

Brand voice eğitim örneklerini güncelle (son ay gerçek manuel yanıtlardan 30 örnek)
Yasak kelime listesini gözden geçir (yeni rakip, yeni regülasyon)
Catalog sync entegrasyonunu test (envanter doğrulama çalışıyor mu?)

7. Yanlış Yanıt Çıktığında Kriz Yönetimi

Filtre yakalamadı, yanlış yanıt müşteriye gitti. Ne yapmalı?

Adım 1: Hızlı tespit

Müşteri şikayet ediyorsa (sentiment < -0.5 takip yanıt) → otomatik alarm
Public yorum → 30 dk içinde manuel yanıt

Adım 2: Düzeltme

"Yanılmışım, gerçek bilgi: ..." şeklinde dürüst düzeltme
Hediye/indirim (10-30 ₺) ile özür

Adım 3: Kayıt + öğrenme

Olay log'a düşer (FendyChat'te incident report)
Filtre eşikleri bu vakaya göre sıkılaşır

Adım 4: Önleme

Aynı pattern bir daha = kalıcı filtre kuralı

Sıkça Sorulan Sorular (SSS)

AI yanıt kalitesi nasıl ölçülür?

4 metrik: doğruluk (fiyat, stok), ton (brand voice), marka kuralları (yasak kelime), yasal sınır (sektör spesifik). Her birinde %95+ hedef.

Hibrit mod ne kadar yavaşlatır?

Otomatik gönderim anında, insan onayı genellikle 5-15 dk sürer. Müşteri için "yanıt geç" hissi yaratmamak için panel bildirimleri optimize edilmelidir.

İnsan onayı ne kadar zaman alır?

Tipik onay paneli yanıtı 8-12 saniye. Günde 30 hibrit yanıt = ~6 dk insan zamanı.

AI hata oranı %0'a indirilebilir mi?

Hayır. Hedef "%0 hata" değil, "yakalanmadan yayına çıkan hata < %2". Filtre + insan onayı bu kombinasyonu sağlar.

Yanlış-pozitif oranı yüksekse ne yapmalı?

Filtre eşiklerini gevşet (sentiment threshold -0.3 → -0.4, brand similarity 0.65 → 0.55). Az insan müdahalesi, az gereksiz iş.

Brand voice eğitim örneklerini ne kadar tutmalı?

10-30 örnek ideal. 10 altında: AI tutarsız. 30 üstünde: marjinal getiri. Aylık güncellenmeli.

Sentiment analizi hangi dil için çalışır?

FendyChat'te native Türkçe (custom-trained model). İngilizce, Arapça da var. Diğer diller için topluluk modelleri.

Yasak kelime listesi nasıl yönetilir?

Sektör template'inde hazır (eczane, klinik, finans için ön-yüklü). Custom kelimeler de eklenebilir (rakip marka, sektörel yeni terim). Liste haftalık genişler.

AI'ı hiç kullanmamak daha güvenli olmaz mı?

Tek başına manuel = 4-12 saat yanıt gecikmesi. AI + filter + insan onayı = anlık yanıt + %98 doğruluk. Manuel daha güvenli değil, çünkü gecikme = müşteri kaybı.

Halüsinasyon kontrolünü kim yapar?

RAG mimarisi: AI yanıt verirken ürün katalog + sıkça sorulan sorular veritabanı ile sentezler. Yanıttaki ürün adı/fiyat post-generation olarak katalog ile karşılaştırılır. Eşleşmezse insan onayı.

Eşik ayarlama (threshold tuning) ne sıklıkla yapılmalı?

İlk 2 hafta: günlük (yoğun kalibre). Sonraki 4 hafta: haftalık. 2 ay sonra: aylık (stabil sistem).

Sonuç

AI yanlış yanıt verir — bu kaçınılmaz. Fakat:

7 erken uyarı sinyali ile %85-95 yanlış yanıt yakalanır
3 katmanlı filtre (hard / soft / validation) ile yayına çıkan hata %2 altında kalır
İnsan onay paneli ile kritik kararlar her zaman insan kontrolünde
Aylık kalibrasyon ritmi ile sistem zamanla daha akıllı olur
Sektör bazlı filtre şiddeti ile sağlık/finans gibi hassas alanlarda %25-35 insan onayı

🌸 FendyChat bu 3 katmanlı filtre + insan onay paneli + haftalık raporu native sunar. Aylık kalibrasyon checklist'i + sektör template'leri ile doğru yanıt oranı %95+.

Ücretsiz tier ile deneyin.