{"id":2060,"date":"2024-09-13T12:27:45","date_gmt":"2024-09-13T10:27:45","guid":{"rendered":"https:\/\/jerzysurma.com\/?p=2060"},"modified":"2024-09-13T12:31:32","modified_gmt":"2024-09-13T10:31:32","slug":"dlaczego-polska-potrzebuje-polskich-wielkich-modeli-jezykowych-llm","status":"publish","type":"post","link":"https:\/\/jerzysurma.com\/index.php\/2024\/09\/13\/dlaczego-polska-potrzebuje-polskich-wielkich-modeli-jezykowych-llm\/","title":{"rendered":"Dlaczego Polska potrzebuje polskich Wielkich Modeli J\u0119zykowych (LLM)?"},"content":{"rendered":"\t\t<div data-elementor-type=\"wp-post\" data-elementor-id=\"2060\" class=\"elementor elementor-2060\">\n\t\t\t\t\t\t<section class=\"penci-section penci-disSticky penci-structure-10 elementor-section elementor-top-section elementor-element elementor-element-7e66b75c elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"7e66b75c\" data-element_type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"penci-ercol-100 penci-ercol-order-1 penci-sticky-ct    elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-330ac921\" data-id=\"330ac921\" data-element_type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-6efd604b elementor-widget elementor-widget-text-editor\" data-id=\"6efd604b\" data-element_type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Rozw\u00f3j generatywnej sztucznej inteligencji niesiecie niesamowity potencja\u0142 rozwojowy nie tylko dla biznesu ale r\u00f3wnie\u017c dla edukacji, ochrony zdrowia czy administracji pa\u0144stwowej. W tym kontek\u015bcie korzystanie z LLM (generalnie modeli multimedialnych: tekst, audio, zdj\u0119cia i video) cyfrowych gigant\u00f3w takich jak Google, Meta czy OpenAI niesie ze sob\u0105 szereg problem\u00f3w i ryzyk:<\/p><p>\ud83d\udccdNie wiemy dok\u0142adnie na jakich zbiorach (korpusach j\u0119zykowych) ich LLM s\u0105 budowane (pre-trained).<\/p><p>\ud83d\udccdNie znamy szczeg\u00f3\u0142\u00f3w strojenia tych modeli (finetuning) oraz jakie s\u0105 explicite wewn\u0119trzne polityki i regulacje do kt\u00f3rych te modele s\u0105 dopasowywane (alignment).<\/p><p>\ud83d\udccdZbiory z j\u0119zykiem polskim stanowi\u0105 mniej ni\u017c 1% danych treningowych. W tej sytuacji \u201ewiedza\u201d tych system\u00f3w o polskiej kulturze, historii, poprawnej polszczy\u017anie, itp. jest ograniczona i potencjalnie stronnicza.<\/p><p>\ud83d\udccdZakres i cz\u0119stotliwo\u015b\u0107 aktualizacji tych modeli dla marginalnych rynk\u00f3w do jakich nale\u017cy Polska jest ograniczony do niezb\u0119dnego minimum.<\/p><p>\ud83d\udccdDost\u0119p jest najcz\u0119\u015bciej poprzez API, czyli przesy\u0142anie zapyta\u0144\/dokument\u00f3w do zewn\u0119trznego dostawcy, co w wielu wypadkach ogranicza, a nawet uniemo\u017cliwia korzystanie z LLM w przypadku przetwarzania informacji wra\u017cliwych lub niejawnych.<\/p><p>\ud83d\udccdNaruszenie prywatno\u015bci i uzyskanie mo\u017cliwo\u015bci profilowania u\u017cytkownik\u00f3w poprzez rejestrowanie zapyta\u0144 oraz zbierania tzw. \u015blad\u00f3w cyfrowych zwi\u0105zanych z u\u017cytkowaniem LLM.<\/p><p>\ud83d\udccdRyzyko ograniczenia ci\u0105g\u0142o\u015bci dzia\u0142ania poprzez awarie, na kt\u00f3rych rozwi\u0105zanie najcz\u0119\u015bciej nie mamy \u017cadnego wp\u0142ywu.<\/p><p>\ud83d\udccdRyzyko odmowy dost\u0119pu do us\u0142ugi w zwi\u0105zku z nieprzestrzeganiem regulamin\u00f3w czy polityk bezpiecze\u0144stwa dostawcy, bez klarownego uzasadnienia i mo\u017cliwo\u015bci skutecznego odwo\u0142ania si\u0119 od takich decyzji.<\/p><p>\ud83d\udccdI strategicznie najwa\u017cniejsze: hamowanie rozwoju wiedzy i do\u015bwiadczenia w Polsce jak LMM s\u0105 od podstaw projektowane, budowane, a nast\u0119pnie utrzymywane w dzia\u0142aniu.<\/p><p>Dlatego te\u017c koniecznie s\u0105 polskie rozwi\u0105zania. I w tym kontek\u015bcie mi\u0142o mi, \u017ce mog\u0119 wspomnie\u0107 o dw\u00f3ch istotnych projektach LLM typu open source pracuj\u0105cych na polskich korpusach j\u0119zykowych:<\/p><p>1\ufe0f\u20e3 PLLuM (Polish Large Language Model) \u2013 projekt realizowany przez konsorcjum polskich o\u015brodk\u00f3w badawczy (koordynatorem jest Wroclaw University of Science and Technology Projekt jest finansowany ze \u015brodk\u00f3w Ministerstwo Cyfryzacji i ma by\u0107 uko\u0144czony do ko\u0144ca 2024.<\/p><p>2\ufe0f\u20e3 SpeakLeash.org (Bielik\/Spichlerz) &#8211; projekt realizowany przez profesjonaln\u0105 spo\u0142eczno\u015b\u0107 sympatyk\u00f3w AI, przy wsparciu Academic Computer Centre CYFRONET AGH AGH (udost\u0119pnienie akcelerator\u00f3w graficznych). Model Bielik ju\u017c dzia\u0142a\ud83d\udc4f i szczeg\u00f3\u0142y tutaj: https:\/\/speakleash.org\/<\/p><p>Oryginalny post na LinkedIN: <a href=\"https:\/\/www.linkedin.com\/posts\/jerzysurma_speakleash-aka-spichlerz-speakleashorg-activity-7226491641996410880-XeYV?utm_medium=ios_app&amp;utm_source=screenshot_social_share&amp;utm_campaign=share_via\">https:\/\/www.linkedin.com\/posts\/jerzysurma_speakleash-aka-spichlerz-speakleashorg-activity-7226491641996410880-XeYV?utm_medium=ios_app&amp;utm_source=screenshot_social_share&amp;utm_campaign=share_via<\/a><\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"<p>Rozw\u00f3j generatywnej sztucznej inteligencji niesiecie niesamowity potencja\u0142 rozwojowy nie tylko dla biznesu ale r\u00f3wnie\u017c dla edukacji, ochrony zdrowia czy administracji pa\u0144stwowej. W tym&hellip;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","footnotes":""},"categories":[1],"tags":[],"class_list":["post-2060","post","type-post","status-publish","format-standard","hentry","category-bez-kategorii"],"_links":{"self":[{"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/posts\/2060","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/comments?post=2060"}],"version-history":[{"count":4,"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/posts\/2060\/revisions"}],"predecessor-version":[{"id":2064,"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/posts\/2060\/revisions\/2064"}],"wp:attachment":[{"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/media?parent=2060"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/categories?post=2060"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/jerzysurma.com\/index.php\/wp-json\/wp\/v2\/tags?post=2060"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}