AI'nın Yanlış Yanıtlarını Nasıl Yakalarım? 7 Sinyal + Otomatik Filtreleme (2026)
Her AI bazen yanlış yanıt verir. Sorun yanlışı yakalamamak. 7 erken uyarı sinyali (sentiment kayması, halüsinasyon, fiyat sapması, marka tonu kırılması) + otomatik filtreleme + insan onay paneli stratejisi.
AI'nın Yanlış Yanıtlarını Nasıl Yakalarım? 7 Sinyal + Otomatik Filtreleme (2026)
TL;DR: AI'lar mükemmel değil. Her 100 yanıttan 3-7'si bir şekilde yanlış: fiyat hatası, ton kırılması, marka dışı içerik, yasal sınır aşımı veya halüsinasyon. Yanlış yanıtı göndermeden yakalamak için 7 erken uyarı sinyali, otomatik filtreleme katmanları ve hibrit insan onay paneli stratejisi.
30 saniyede ne öğreneceksin?
| Soru | Cevap |
|---|---|
| AI yanıt kalitesi nasıl ölçülür? | 4 metrik: doğruluk (fiyat/stok), ton uyumu, marka kurallarına uyum, yasal sınır. Her birinde %95+ hedef. |
| Yanlış yanıt yakalamanın temel mantığı nedir? | Üretim sonrası otomatik filtreleme → kuralları geçemeyen yanıt insan onayına gider. |
| 7 erken uyarı sinyali nedir? | (1) sentiment kayması, (2) halüsinasyon, (3) fiyat sapması, (4) marka tonu kırılması, (5) yasak kelime, (6) çok uzun/kısa yanıt, (7) müşteri belirsizliği. |
| Hibrit mod % kaç olmalı? | Sektöre göre %5-30. E-ticaret %5-10, sağlık/finans %20-30. |
| Aylık kalibre ritmi ne? | Haftalık 10-20 örnek manuel review + aylık yanlış-pozitif/negatif oranını ölç. |
1. AI yanlış yanıt gerçekten ne kadar sık olur?
10 Türk e-ticaret markasının 30 günlük FendyChat verisinden (toplam 47.000 AI yanıt):
| Hata türü | Oran (raw) | Otomatik filtre yakalama | Yayına çıkan hata |
|---|---|---|---|
| Fiyat / stok hatası | %3.2 | %94 yakalandı | %0.19 |
| Marka tonu kırılması | %4.1 | %78 yakalandı | %0.90 |
| Halüsinasyon (var olmayan ürün/feature) | %1.8 | %88 yakalandı | %0.22 |
| Yasal sınır aşımı (sağlık tavsiyesi, vb.) | %0.6 | %96 yakalandı | %0.02 |
| Sentiment kayması (öfkeli müşteriye düz yanıt) | %2.4 | %85 yakalandı | %0.36 |
| Çok uzun / çok kısa yanıt | %5.7 | %92 yakalandı | %0.46 |
| Yanlış müşteri tipi tanıma | %1.5 | %72 yakalandı | %0.42 |
Toplam ham hata oranı: %19.3 — yani her 5 yanıttan 1'i bir şekilde "iyi değil". Otomatik filtre sonrası yayına çıkan hata: %2.57 — yani her 39 yanıttan 1'i hâlâ küçük hata.
Sonuç: Otomatik filtreleme şart — AI'yı tek başına bırakmak Türk müşteri için kabul edilemez (%19.3 = NPS yıkımı).
2. 7 Erken Uyarı Sinyali
Sinyal 1: Sentiment kayması
Nedir? Müşteri öfkeli/üzgün/şaşkın yazmış, AI nötr veya neşeli yanıt veriyor.
Örnek (yanlış):
Müşteri: "Ürünüm 5 günde gelmedi, kargoya ne oldu yahu?!" AI: "Selam tatlım, sipariş takibin için sipariş numarana bakar mısın? 🌸"
Örnek (doğru):
Müşteri: "Ürünüm 5 günde gelmedi, kargoya ne oldu yahu?!" AI: "Çok üzgünüm, hayal kırıklığı yaşadığın için. Sipariş numaranı paylaşır mısın, hemen kargoyla iletişime geçeyim?"
Otomatik filtre: Yanıttan önce sentiment analizi. Müşteri sentiment < -0.3 (öfkeli/üzgün) + AI yanıt sentiment > +0.2 (neşeli) → insan onayına.
FendyChat'te: Otomatik açık, eşik müşteri ayarlanabilir.
Sinyal 2: Halüsinasyon (var olmayan ürün/feature)
Nedir? AI veri tabanında olmayan ürün/fiyat/feature uyduruyor.
Örnek (halüsinasyon):
Müşteri: "Pembe rengi var mı?" AI: "Evet pembe stoğumuzda 🌸 Fiyat 299 ₺, kargo ücretsiz!"
Gerçek: pembe yok, sadece beyaz/siyah var.
Filtre nasıl çalışır:
- AI yanıt ürettiğinde, sözünü ettiği ürün adı/fiyat/feature ürün katalogundan kontrol edilir
- Eşleşmiyorsa insan onayına gider
- Eşleşiyorsa direkt gider
Implementation: RAG (Retrieval-Augmented Generation) + post-generation validation. FendyChat'te shop catalog sync (ikas/Trendyol API) → her yanıt gerçek envanter ile doğrulanır.
Sinyal 3: Fiyat sapması
Nedir? AI fiyatı yanlış söylüyor — eski fiyat, indirimli fiyat, ya da hayalî.
Örnek (sapma):
Müşteri: "Bu çantanın fiyatı ne?" AI: "199 ₺ 🌸"
Gerçek katalog: 249 ₺
Filtre: Her sayısal fiyat → katalog ile karşılaştır. ±%5 dışı sapma = insan onayına.
Pratik tip: Stok azalmış ürünlerde "tükenmek üzere, ihtiyacın varsa hızlı ol" gibi stok-bilinçli yanıtlar da bu filtreye dahil edilebilir.
Sinyal 4: Marka tonu kırılması
Nedir? AI marka voice'undan dışında konuşuyor. Genelde "robotik" veya "fazla samimi" sapma.
Örnek (tonu kırılan):
Marka voice: samimi, sıcak, "tatlım" "canım" kullanır AI: "Sayın müşterimiz, talebiniz alınmıştır. Tarafımıza bildiriniz."
Filtre nasıl çalışır:
- Brand voice eğitim örnekleri (10-30 manuel yanıt) → embedding model
- Yeni AI yanıt → embedding alınır
- Brand voice ile cosine similarity < 0.65 → insan onayına
FendyChat'te: Otomatik açık. Brand voice ne kadar homojen ise filtre o kadar hassas.
Tipik şikayetler:
- E-ticaret markası: "Sayın müşterimiz" → her zaman insan onayına gönderilir
- Klinik: "Selam tatlım" → çok samimi, insan onayı
- Ajans: "Yaa kanka" → kurumsallık eksik, insan onayı
Sinyal 5: Yasak kelime / yasal sınır
Nedir? AI yasal olarak söylememesi gereken şey söylüyor.
Sektör bazlı yasak listesi (örnekler):
| Sektör | Yasak kelimeler |
|---|---|
| Sağlık (eczane, klinik) | "tedavi eder", "iyileştirir", "doktora gerek yok", spesifik ilaç önerisi |
| Finans (kripto, yatırım) | "kâr garantili", "%X getiri", spesifik yatırım tavsiyesi |
| Estetik | "kesinlikle kilo verirsin", "ameliyatsız aynı sonuç" |
| Gıda | "X hastalığa iyi gelir", "kanseri önler" |
| Genel | rakip marka adları, küfür, ayrımcı dil |
Filtre: Regex + LLM-classifier hibrit. Yasak kelime tespit → otomatik blok (insan onayı bile değil, yanıt gönderilmez).
FendyChat'te: Sektör template'inde hazır + custom liste yüklenebilir.
Sinyal 6: Çok uzun / çok kısa yanıt
Nedir? İdeal Instagram DM yanıtı 60-300 kelime. Çok uzun = okumaz; çok kısa = soğuk.
Kötü örnekler:
- 12 kelime: "Stokta var. 199 TL. Kargo ücretsiz." → soğuk
- 850 kelime: 4 paragraf + 7 bullet + "ayrıca, ek olarak..." → kimse okumaz
Filtre: Yanıt uzunluğu sektör + müşteri sorusu tipine göre hedef aralık dışı → insan onayına.
| Soru tipi | Hedef yanıt uzunluğu |
|---|---|
| "Fiyat ne?" | 30-80 kelime |
| "X ürün var mı?" | 40-100 kelime |
| "Geri iade nasıl?" | 80-200 kelime |
| "Hizmet detayı?" (klinik, ajans) | 120-280 kelime |
| Şikayet yanıtı | 60-180 kelime |
Sinyal 7: Müşteri tipi belirsizliği
Nedir? AI müşterinin kim olduğunu doğru sınıflandıramamış.
Örnek:
Müşteri: "Toplu sipariş için fiyat alabilir miyim?" AI: (perakende fiyat verir, B2B fiyat vermez)
Doğrusu:
AI: "Toplu sipariş için B2B fiyatlandırma sunuyoruz. Kaç adet düşünüyorsun? Sana özel teklif hazırlayalım."
Filtre: AI yanıt vermeden önce müşteri tipi tahmini (B2C / B2B / VIP / yeni müşteri). Tahmin confidence < %75 → "biraz daha bilgi" akışına geçer veya insan onayına gider.
3. Otomatik Filtreleme Mimarisi (Teknik)
3 katmanlı kontrol
[AI yanıt üretildi]
↓
Katman 1: Hard filters (regex + yasak liste)
├─ Geçti? → Katman 2
└─ Geçmedi → BLOK (yanıt gönderilmez, log)
↓
Katman 2: Soft filters (sentiment, sapma, ton)
├─ Geçti? → Katman 3
└─ Geçmedi → İNSAN ONAYI (panel)
↓
Katman 3: Validation (envanter, fiyat, kural)
├─ Geçti? → GÖNDER
└─ Geçmedi → İNSAN ONAYI
↓
[Müşteriye gönderildi]
↓
[Müşteri tepkisi: like, yanıt, sessizlik]
↓
Katman 4: Post-hoc analiz (haftalık)
└─ Yanıtın etkisini ölç, kötü olanları feedback olarak AI'ya gönder
Pratik: Bu mimari FendyChat'te native. İhtiyaca göre her katmanın eşikleri değiştirilebilir.
Katman 1: Hard filters (zero-tolerance)
Yasak kelime tarama:
FORBIDDEN_WORDS = [
# sağlık tavsiyesi
"tedavi eder", "iyileştirir", "doktora gerek yok",
# yatırım tavsiyesi
"kâr garantili", "yatırım yap",
# rakip marka
"manychat tavsiye ederim",
# küfür / ayrımcılık
# ...
]
if any(word in ai_response.lower() for word in FORBIDDEN_WORDS):
block_response()
log_incident()
Katman 2: Soft filters (insan onayına)
Sentiment kayması:
customer_sent = sentiment_analyzer(customer_message) # -1 ile +1 arası
ai_sent = sentiment_analyzer(ai_response)
if customer_sent < -0.3 and ai_sent > 0.2:
# Müşteri öfkeli, AI neşeli → INCONSISTENT
queue_for_human_approval()
Brand voice deviation:
brand_embedding = average_embedding(BRAND_VOICE_SAMPLES)
response_embedding = embed(ai_response)
similarity = cosine_similarity(brand_embedding, response_embedding)
if similarity < 0.65:
queue_for_human_approval()
Katman 3: Validation
Envanter doğrulama:
mentioned_products = extract_products(ai_response)
for product in mentioned_products:
if product not in catalog:
queue_for_human_approval()
break
if abs(extracted_price - catalog[product].price) / catalog[product].price > 0.05:
queue_for_human_approval()
4. İnsan Onay Paneli (Pratik UI)
İnsan onayına giden yanıt hızlı işlem alabilmeli. FendyChat panelinde her onay 8-12 saniye:
┌────────────────────────────────────────────────┐
│ ⚠️ Yanıt insan onayı bekliyor │
│ Sebep: Sentiment kayması (müşteri öfkeli) │
├────────────────────────────────────────────────┤
│ Müşteri @ayse_modaa, 14:32 │
│ "Bu ürün sahte mi yahu, paramı isterim!" │
├────────────────────────────────────────────────┤
│ AI'nın önerisi (REDDET ▼ veya DÜZENLE ✏️): │
│ │
│ "Sahte ürün satmıyoruz 🌸 Ürün takip │
│ linkini paylaşır mısın, kontrol edelim?" │
├────────────────────────────────────────────────┤
│ [✅ GÖNDER] [✏️ DÜZENLE] [❌ REDDET] │
└────────────────────────────────────────────────┘
Eczacı/Doktor/Ajans CEO kararı:
- ✅ Gönder: AI yanıt iyi, direkt
- ✏️ Düzenle: AI yanıtın bir kısmını düzeltir (örn. "Sahte değil — kalitemizi garanti ediyoruz, iadeden %100 para iadesi veriyoruz")
- ❌ Reddet: Yanıt kötü, manuel yanıt yazılır
Önemli: Reddedilen yanıtlar AI'ın feedback loop'una girer → bir sonraki benzer durumda AI öğrenir.
5. Sektörel Filtre Şiddeti Önerileri
| Sektör | Otomatik gönderim oranı | İnsan onayı oranı |
|---|---|---|
| Moda / kozmetik / aksesuar | %85-92 | %8-15 |
| Yiyecek-içecek | %80-88 | %12-20 |
| Mobilya / teknoloji | %75-85 | %15-25 |
| Sağlık (klinik, eczane) | %65-75 | %25-35 |
| Finans / kripto | %50-65 | %35-50 |
| Eğitim / kurs | %78-85 | %15-22 |
| Yerel hizmet (restoran, salon) | %88-94 | %6-12 |
Genel kural: Yanlış yanıt maliyeti ne kadar yüksekse (yasal, marka, ciro), insan onay oranı o kadar yüksek olmalı.
6. Aylık Kalibrasyon Ritmi
Her hafta (30 dk)
- Cuma 16:30: Geçen hafta gönderilen 20 random AI yanıtı oku
- Her birini 4 metrikle puanla: doğruluk, ton, marka uyumu, yasal sınır (1-5)
- 3.5 altı olanları "kötü" işaretle → feedback loop
Her ay (2 saat)
- Ay sonu cumartesi: Aylık metrik özet
- Yanlış-pozitif oranı (gereksiz insan onayı): hedef %15
- Yanlış-negatif oranı (yanlış yanıt yayında): hedef %2
- Brand voice consistency: hedef %92+
- Filtre eşiklerini ayarla:
- Yanlış-pozitif fazla → eşikleri gevşet (insan az çağrılır)
- Yanlış-negatif fazla → eşikleri sıkılaştır (insan çok çağrılır)
Her çeyrek (4 saat)
- Brand voice eğitim örneklerini güncelle (son ay gerçek manuel yanıtlardan 30 örnek)
- Yasak kelime listesini gözden geçir (yeni rakip, yeni regülasyon)
- Catalog sync entegrasyonunu test (envanter doğrulama çalışıyor mu?)
7. Yanlış Yanıt Çıktığında Kriz Yönetimi
Filtre yakalamadı, yanlış yanıt müşteriye gitti. Ne yapmalı?
Adım 1: Hızlı tespit
- Müşteri şikayet ediyorsa (sentiment < -0.5 takip yanıt) → otomatik alarm
- Public yorum → 30 dk içinde manuel yanıt
Adım 2: Düzeltme
- "Yanılmışım, gerçek bilgi: ..." şeklinde dürüst düzeltme
- Hediye/indirim (10-30 ₺) ile özür
Adım 3: Kayıt + öğrenme
- Olay log'a düşer (FendyChat'te incident report)
- Filtre eşikleri bu vakaya göre sıkılaşır
Adım 4: Önleme
- Aynı pattern bir daha = kalıcı filtre kuralı
Sıkça Sorulan Sorular (SSS)
AI yanıt kalitesi nasıl ölçülür?
4 metrik: doğruluk (fiyat, stok), ton (brand voice), marka kuralları (yasak kelime), yasal sınır (sektör spesifik). Her birinde %95+ hedef.
Hibrit mod ne kadar yavaşlatır?
Otomatik gönderim anında, insan onayı genellikle 5-15 dk sürer. Müşteri için "yanıt geç" hissi yaratmamak için panel bildirimleri optimize edilmelidir.
İnsan onayı ne kadar zaman alır?
Tipik onay paneli yanıtı 8-12 saniye. Günde 30 hibrit yanıt = ~6 dk insan zamanı.
AI hata oranı %0'a indirilebilir mi?
Hayır. Hedef "%0 hata" değil, "yakalanmadan yayına çıkan hata < %2". Filtre + insan onayı bu kombinasyonu sağlar.
Yanlış-pozitif oranı yüksekse ne yapmalı?
Filtre eşiklerini gevşet (sentiment threshold -0.3 → -0.4, brand similarity 0.65 → 0.55). Az insan müdahalesi, az gereksiz iş.
Brand voice eğitim örneklerini ne kadar tutmalı?
10-30 örnek ideal. 10 altında: AI tutarsız. 30 üstünde: marjinal getiri. Aylık güncellenmeli.
Sentiment analizi hangi dil için çalışır?
FendyChat'te native Türkçe (custom-trained model). İngilizce, Arapça da var. Diğer diller için topluluk modelleri.
Yasak kelime listesi nasıl yönetilir?
Sektör template'inde hazır (eczane, klinik, finans için ön-yüklü). Custom kelimeler de eklenebilir (rakip marka, sektörel yeni terim). Liste haftalık genişler.
AI'ı hiç kullanmamak daha güvenli olmaz mı?
Tek başına manuel = 4-12 saat yanıt gecikmesi. AI + filter + insan onayı = anlık yanıt + %98 doğruluk. Manuel daha güvenli değil, çünkü gecikme = müşteri kaybı.
Halüsinasyon kontrolünü kim yapar?
RAG mimarisi: AI yanıt verirken ürün katalog + sıkça sorulan sorular veritabanı ile sentezler. Yanıttaki ürün adı/fiyat post-generation olarak katalog ile karşılaştırılır. Eşleşmezse insan onayı.
Eşik ayarlama (threshold tuning) ne sıklıkla yapılmalı?
İlk 2 hafta: günlük (yoğun kalibre). Sonraki 4 hafta: haftalık. 2 ay sonra: aylık (stabil sistem).
Sonuç
AI yanlış yanıt verir — bu kaçınılmaz. Fakat:
- 7 erken uyarı sinyali ile %85-95 yanlış yanıt yakalanır
- 3 katmanlı filtre (hard / soft / validation) ile yayına çıkan hata %2 altında kalır
- İnsan onay paneli ile kritik kararlar her zaman insan kontrolünde
- Aylık kalibrasyon ritmi ile sistem zamanla daha akıllı olur
- Sektör bazlı filtre şiddeti ile sağlık/finans gibi hassas alanlarda %25-35 insan onayı
🌸 FendyChat bu 3 katmanlı filtre + insan onay paneli + haftalık raporu native sunar. Aylık kalibrasyon checklist'i + sektör template'leri ile doğru yanıt oranı %95+.