Grundlagen
"Big data und was nun?"
Die Menge an Informationen, auf die ein Benutzer im World Wide Web zugreifen kann, steigt exponentiell. Dieses Wachstum führt dazu, dass es für den Benutzer immer schwieriger wird, genau diejenigen Informationen oder Produkte zu finden, die er tatsächlich sucht. Empfehlungssysteme unterstützen dabei den Benutzer. Die meisten E-Commerce Plattformen präsentieren mit Hilfe solcher Systeme potenziellen Käufern interessante Produkte auf Basis bisheriger Kaufentscheidungen. Somit müssen die Benutzer nicht mehr explizit das gesamte Angebot durchsuchen, um diese Produkte zu identifizieren. Eine Steigerung der Warenkorbinhalte um 30% ist meist das erklärte Ziel sowie eine Steigerung des Einkaufserlebnisses bzw. des Nutzerelebnisses. Auch dies soll zu mehr Umsatz führen. Die Steigerung des Nutzererlebnisses ist zudem von großem Interesse, wenn es nicht um das Füllen des Warenkorbes geht sondern um die Erhöhung der Zugriffszahlen (Klicks) oder der Bekanntheit (Image).
Während das Empfehlen von Büchern oder ähnlichen Produkten heute allgegenwärtig ist, gibt es immer wieder Entitäten, bei denen ganz spezielle Eigenschaften zu berücksichtigen sind. So ist z. B. ein eBook unendlich oft und für alle Zeit verfügbar, eine Veranstaltung aber findet statt und ist dann vorbei. In der Modebranche kräht im Frühling nach der Herbstkollektion kein Hahn mehr. Es gibt also auch Informationen und Produkte, die ein Verfallsdatum besitzen.
Welche Berechnungsmöglichkeiten gibt es?
- Kollaborative Empfehlungen
- Inhaltsbasierte Empfehlungen
- Kontextbezogene Empfehlungen
- Soziale Empfehlungen
Die Kombination der einzelnen Vorgehensweisen wird als hybride Methode bezeichnet und hilft die Schwächen der einzelnen Methoden zu überwinden.
Ein weiteres zentrales Thema ist die Qualität der zugrunde liegenden Daten. Attribute können schwer zu fassen sein, so dass eine Vergleichbarkeit, die sich nicht an harten Fakten orientiert (Beispiel Kfz VW Bus T4 California Coach TDI 2,5 Liter) sondern im wesentlichen am Geschmack von Personen ausgerichtet ist, neue Lösungsansätze fordert.
Aber selbst, wenn eine Attributierung leicht möglich wäre, legen viele Contentlieferanten nicht den Fokus darauf und somit ist ein Vergleich von Guns N' Roses mit AC/DC für einen Algorithmus kaum möglich. Auch unter diesem Aspekt sind neue Lösungsansätze erforderlich, welche die Vergleichbarkeit von Inhalten möglich machen. Im Kontext von Big Data ist es nicht wirtschaftlich für die Schaffung dieser Vergleichbarkeit menschliche Arbeitskraft heranzuziehen. Auch hier sind Methoden der KI (Text Mining, Bots, Webcrawler) die bessere Alternative. Oder man verlegt sich gleich auf die Untersuchung des Verhaltens der Crowd um Ähnlichkeiten zu bestimmen (Stichwort Schwarmintelligenz).