Baza Publikacji Pracowników Politechniki Lubelskiej

Status:
Warianty tytułu:	Ocena wydajności wdrożeń LLM w wybranych usługach kontenerowych opartych na chmurze
Autorzy:	Stęgierski Mateusz, Szpak Piotr, Przyłucki Sławomir
Dyscypliny:
	Aby zobaczyć szczegóły należy się zalogować.
Rok wydania:	2025
Wersja dokumentu:	Drukowana \| Elektroniczna
Język:	angielski
Numer czasopisma:	4
Wolumen/Tom:	15
Strony:	142 - 150
Scopus® Cytowania:	0
Bazy:	Scopus
Efekt badań statutowych	NIE
Materiał konferencyjny:	NIE
Publikacja OA:	TAK
Licencja:
Sposób udostępnienia:	Witryna wydawcy
Wersja tekstu:	Ostateczna wersja opublikowana
Czas opublikowania:	W momencie opublikowania
Data opublikowania w OA:	20 grudnia 2025
Abstrakty:	angielski \| polski
	The growing adoption of serverless container services has created challenges in selecting optimal cloud platforms for production LLM deployments, yet comparative performance evaluations remain limited. This study evaluates AWS Fargate and Azure Container Apps for LLM deployments, investigating whether architectural differences cause substantial performance variations under diverse load patterns. We conducted systematic experiments using containerized Llama 3.2:1b across multiple scenarios: baseline measurements, inference tests with varying prompt lengths, streaming API performance, and concurrent load testing with progressive scaling. Each scenario was executed on both standard and auto-scaled infrastructure with 10 runs per configuration to ensure statistical reliability. Key findings reveal distinct platform characteristics:AWS Fargate demonstrates superior baseline API response times and time-to-first-token performance, while Azure Container Apps consistently outperforms AWSin inference processing for short and medium prompts with better consistency across test runs. Streaming performance shows platform-specific trade-offs, with AWS achieving lower initial latency but Azure providing superior token generation consistency. Under concurrent loads, both platforms maintain full capacity at lower concurrency levels, but AWS exhibits exponential response time degradation at higher loads while Azure shows more linear, predictable scaling behavior. Statistical analysis confirms significant performance differences across all metrics, validating that platform architecture fundamentally impacts LLM deployment performance. These findings indicate platform selection should align with specific workload requirements: AWS Fargatefor latency-critical applications with steady loads, and Azure Container Apps for inference-intensive workloads requiring robust scaling and consistency. This study offers crucial benchmarking data for businesses deploying production-grade AI services on serverless container platforms.
	Rosnąca popularność bezserwerowychusług kontenerowych stworzyła wyzwania związane z wyborem optymalnych platform chmurowych dla wdrożeń produkcyjnych LLM, jednak porównawcze oceny wydajności pozostają ograniczone. Niniejsze badanie ocenia AWS Fargate i Azure Container Apps pod kątem wdrożeń LLM, badając, czy różnice architektoniczne powodują znaczne różnice w wydajności przy różnych wzorcach obciążenia. Przeprowadziliśmy systematyczne eksperymenty przy użyciu skonteneryzowanej Llamy 3.2:1b w wielu scenariuszach: pomiary bazowe, testy wnioskowania z różnymi długościami podpowiedzi, wydajność API strumieniowego i jednoczesne testy obciążenia z progresywnym skalowaniem. Każdy scenariusz został wykonany zarówno na standardowej, jak i automatycznie skalowanej infrastrukturze z 10 przebiegami na konfigurację, aby zapewnić wiarygodność statystyczną. Kluczowe wnioski ujawniają wyraźne cechy platformy: AWS Fargate wykazuje lepsze bazowe czasy odpowiedzi APIi wydajność time-to-first-token, podczas gdy Azure Container Apps konsekwentnie przewyższa AWSw przetwarzaniu wnioskowania dla krótkich i średnich monitów z lepszą spójnością we wszystkich przebiegach testowych. Wydajność przesyłania strumieniowego pokazuje kompromisy specyficznedla platformy, przy czym AWS osiąga niższe opóźnienie początkowe, ale Azure zapewnia lepszą spójność generowania tokenów. Przy jednoczesnym obciążeniu obie platformy utrzymują pełną wydajność przy niższych poziomach współbieżności, ale AWS wykazuje wykładnicze pogorszenie czasu odpowiedzi przy wyższych obciążeniach, podczas gdy Azure wykazuje bardziej liniowe, przewidywalne zachowanie skalowania. Analiza statystyczna potwierdza znaczące różnice w wydajności we wszystkich metrykach, potwierdzając, że architektura platformy ma zasadniczy wpływ na wydajność wdrażania LLM. Wyniki te wskazują, że wybór platformy powinien być dostosowany do konkretnych wymagań dotyczących obciążenia: AWS Fargatedla aplikacji o krytycznym opóźnieniu i stałym obciążeniu oraz Azure Container Apps dla obciążeń intensywnie wykorzystującychwnioskowanie, wymagających solidnego skalowania i spójności. Badanie to oferuje kluczowe dane porównawcze dla firm wdrażających usługi AI klasy produkcyjnejna bezserwerowych platformach kontenerowych.

Informacja o cookies

Evaluation of the performance of LLMs deployments in selected cloud-based container services

Artykuł w czasopiśmie