Apache Kafka er en open source streamingplatform, der kan bruges til at integrere distribuerede systemer i form af datastrømme, hvilket gør det muligt at udføre dataanalyse i realtid og dermed give virksomheder konkurrencefordele i form af dybere indsigt samt hurtigere responstider.
Kafka blev oprindeligt udviklet i 2011 til at spore click-stream på store websites som LinkedIn, Amazon og Ebay, men blev open source i 2012. Siden da har Kafka udviklet sig til en fuld streamingplatform for store mængder data, hvor man kan kombinere data fra gamle traditionelle (legacy) -systemer til IoT-sensorer til at udvikle datadrevne analyseløsninger. Med realtidsdata og datadrevne analyseløsninger kan virksomheder altså forudsige, hvilke produkter de skal producere, have på lager, markedsføre og måske endda trække tilbage, hvilket betyder at man kan opnå en stærk konkurrencefordel.
Kafka er en meget strømlinet platform, hvilket gør det muligt at håndtere indgående data meget hurtigt. Dette betyder, at store dataklynger kan overvåges samtidig med at der reageres på millioner af ændringer i et datasæt hvert sekund. Netop dette er baggrunden for at man kan arbejde med og reagere på data i realtid. Kafka er designet til at være en skalérbar platform, hvilket gør det muligt at opdele topics i såkaldte partitions, så flere ressourcer kan processerer beskeder på det samme topic parallelt.
Flere og flere virksomheder bygger i dag deres teknologi på Kafka – f.eks. LinkedIn, Paypal, Netflix og Airbnb.
Hos Cegal arbejder vi med udvikling/arkitektur på Kafka og drift af Kafka. Vi er partner med Confluent, som kommer fra gruppen, der oprindeligt udviklede Kafka. Confluent er i dag den største bidragyder til open source-projektet Kafka. Virksomheden har etableret en række løsninger omkring Kafka, der tilbydes i en enterprise-pakke eller som en SaaS-løsning med cloud leverandører som Oracle, Amazon, Google og Microsoft.