post_header_image
Powrót

Pozyskiwanie w PLLuM

Jak zbieramy dane do budowy polskiego modelu językowego? Dane od wydawców: za zgodą i na podstawie umów licencyjnych.

Jak pozyskujemy dane w PLLuM-ie?

Celem projektu PLLuM jest stworzenie otwartego i darmowego polskiego modelu AI, który będzie wsparciem m.in. dla nauki, biznesu, mediów i administracji publicznej. Bardzo ważnym elementem tego przedsięwzięcia jest gromadzenie danych tekstowych, głównie polskojęzycznych, które służą do „uczenia” naszego modelu. Chcemy zbierać dane zróżnicowane i wysokiej jakości. W tym celu sięgamy do:

  • – zasobów wewnętrznych gromadzonych przez lata przez instytucje należące do konsorcjum PLLuM,
  • – zbiorów otwartych danych,
  • – danych od wydawców.

To właśnie współpraca z wydawcami jest dla nas najważniejsza – a odbywa się zawsze za ich zgodą i zgodnie z prawem.

Dlaczego współpraca z wydawcami jest dla nas tak istotna?

Dane tekstowe są podstawą modeli językowych. Aby PLLuM mógł skutecznie działać, potrzebuje dostępu do dużej liczby tekstów z różnych dziedzin – od literatury pięknej, przez artykuły naukowe, prasę codzienną i periodyki, aż po teksty poradnikowe czy urzędowe.

Współpraca z wydawcami jest niezbędna, ponieważ to właśnie oni dysponują tekstami dobrej jakości, czyli doskonałym materiałem do trenowania modelu. Im lepsze i bardziej zróżnicowane dane pozyskamy, tym bardziej zaawansowany, wszechstronny, a więc i przydatny będzie PLLuM i tym lepszą polszczyzną będzie władał.

Jak wygląda przekazywanie danych do PLLuM-a?

Krok 1.: Zgłoszenie lub zaproszenie
Wydawca zgłasza się do nas przez formularz lub odpowiada na nasze zaproszenie. To tylko początek dialogu, w którym opowiadamy o projekcie i omawiamy możliwości i warunki współpracy, a także zakres i sposób przekazania danych. Jesteśmy otwarci na wymianę maili, rozmowy telefoniczne i spotkania z Państwem, żeby wypracować odpowiednią formę współpracy.

Nigdy nie wykorzystujemy tekstów bez Państwa zgody.

Krok 2.: Negocjacje i umowa licencyjna
Jeżeli wydawca jest zainteresowany współpracą, każdorazowo proponujemy podpisanie umowy licencyjnej, która określa zasady korzystania z przekazanych danych, w tym pola eksploatacji danych. Wydawca oczywiście może zaproponować zmiany do przedstawionego wzoru, w tym pól eksploatacji, aby dostosować treść umowy do swoich potrzeb. Nasz zespół jest gotowy do dialogu, aby osiągnąć porozumienie satysfakcjonujące dla obu stron.

Jako instytucje badawcze mamy doświadczenie w gromadzeniu danych z innych projektów. Zainteresowani wydawcy, którzy w przeszłości przekazywali nam dane na potrzeby takich inicjatyw, mogą wyrazić zgodę na ich wykorzystanie w PLLuM-ie. Również w takich przypadkach cały proces odbywa się za zgodą i na podstawie umowy licencyjnej.

Krok 3.: Przekazanie danych
Po podpisaniu umowy, wydawcy przekazują nam dane tekstowe lub instrukcje do ich samodzielnego pobrania. Do dokumentacji dołączany jest indeks zasobów, w którym wyraźnie zaznaczono, co zostało przekazane. Co ważne, dane uzyskane na podstawie umowy licencyjnej są używane wyłącznie do trenowania modelu PLLuM i nie są nigdy udostępniane na zewnątrz.

Jak rozpocząć współpracę z PLLuM-em?

Jesteśmy otwarci na współpracę z szerokim gronem partnerów. Zapraszamy do przekazywania danych wydawców, instytucje edukacyjne i firmy.

Zainteresowanych zachęcamy do kontaktu z nami przez naszą stronę: https://pllum.org.pl/form

Wierzymy, że dzięki wspólnym wysiłkom uda się nam stworzyć dobrej jakości model. Zapraszamy do współpracy!