Dlaczego Polska potrzebuje polskich Wielkich Modeli Językowych (LLM)?

by usrob

Rozwój generatywnej sztucznej inteligencji niesiecie niesamowity potencjał rozwojowy nie tylko dla biznesu ale również dla edukacji, ochrony zdrowia czy administracji państwowej. W tym kontekście korzystanie z LLM (generalnie modeli multimedialnych: tekst, audio, zdjęcia i video) cyfrowych gigantów takich jak Google, Meta czy OpenAI niesie ze sobą szereg problemów i ryzyk:

📍Nie wiemy dokładnie na jakich zbiorach (korpusach językowych) ich LLM są budowane (pre-trained).

📍Nie znamy szczegółów strojenia tych modeli (finetuning) oraz jakie są explicite wewnętrzne polityki i regulacje do których te modele są dopasowywane (alignment).

📍Zbiory z językiem polskim stanowią mniej niż 1% danych treningowych. W tej sytuacji „wiedza” tych systemów o polskiej kulturze, historii, poprawnej polszczyźnie, itp. jest ograniczona i potencjalnie stronnicza.

📍Zakres i częstotliwość aktualizacji tych modeli dla marginalnych rynków do jakich należy Polska jest ograniczony do niezbędnego minimum.

📍Dostęp jest najczęściej poprzez API, czyli przesyłanie zapytań/dokumentów do zewnętrznego dostawcy, co w wielu wypadkach ogranicza, a nawet uniemożliwia korzystanie z LLM w przypadku przetwarzania informacji wrażliwych lub niejawnych.

📍Naruszenie prywatności i uzyskanie możliwości profilowania użytkowników poprzez rejestrowanie zapytań oraz zbierania tzw. śladów cyfrowych związanych z użytkowaniem LLM.

📍Ryzyko ograniczenia ciągłości działania poprzez awarie, na których rozwiązanie najczęściej nie mamy żadnego wpływu.

📍Ryzyko odmowy dostępu do usługi w związku z nieprzestrzeganiem regulaminów czy polityk bezpieczeństwa dostawcy, bez klarownego uzasadnienia i możliwości skutecznego odwołania się od takich decyzji.

📍I strategicznie najważniejsze: hamowanie rozwoju wiedzy i doświadczenia w Polsce jak LMM są od podstaw projektowane, budowane, a następnie utrzymywane w działaniu.

Dlatego też koniecznie są polskie rozwiązania. I w tym kontekście miło mi, że mogę wspomnieć o dwóch istotnych projektach LLM typu open source pracujących na polskich korpusach językowych:

1️⃣ PLLuM (Polish Large Language Model) – projekt realizowany przez konsorcjum polskich ośrodków badawczy (koordynatorem jest Wroclaw University of Science and Technology Projekt jest finansowany ze środków Ministerstwo Cyfryzacji i ma być ukończony do końca 2024.

2️⃣ SpeakLeash.org (Bielik/Spichlerz) – projekt realizowany przez profesjonalną społeczność sympatyków AI, przy wsparciu Academic Computer Centre CYFRONET AGH AGH (udostępnienie akceleratorów graficznych). Model Bielik już działa👏 i szczegóły tutaj: https://speakleash.org/

Oryginalny post na LinkedIN: https://www.linkedin.com/posts/jerzysurma_speakleash-aka-spichlerz-speakleashorg-activity-7226491641996410880-XeYV?utm_medium=ios_app&utm_source=screenshot_social_share&utm_campaign=share_via

You may also like