Jak pozyskujemy dane w PLLuM-ie?
Celem projektu PLLuM jest stworzenie otwartego i darmowego polskiego modelu AI, który będzie wsparciem m.in. dla nauki, biznesu, mediów i administracji publicznej. Bardzo ważnym elementem tego przedsięwzięcia jest gromadzenie danych tekstowych, głównie polskojęzycznych, które służą do „uczenia” naszego modelu. Chcemy zbierać dane zróżnicowane i wysokiej jakości. W tym celu sięgamy do:
- – zasobów wewnętrznych gromadzonych przez lata przez instytucje należące do konsorcjum PLLuM,
- – zbiorów otwartych danych,
- – danych od wydawców.
To właśnie współpraca z wydawcami jest dla nas najważniejsza – a odbywa się zawsze za ich zgodą i zgodnie z prawem.
Dlaczego współpraca z wydawcami jest dla nas tak istotna?
Dane tekstowe są podstawą modeli językowych. Aby PLLuM mógł skutecznie działać, potrzebuje dostępu do dużej liczby tekstów z różnych dziedzin – od literatury pięknej, przez artykuły naukowe, prasę codzienną i periodyki, aż po teksty poradnikowe czy urzędowe.
Współpraca z wydawcami jest niezbędna, ponieważ to właśnie oni dysponują tekstami dobrej jakości, czyli doskonałym materiałem do trenowania modelu. Im lepsze i bardziej zróżnicowane dane pozyskamy, tym bardziej zaawansowany, wszechstronny, a więc i przydatny będzie PLLuM i tym lepszą polszczyzną będzie władał.
Jak wygląda przekazywanie danych do PLLuM-a?
Krok 1.: Zgłoszenie lub zaproszenie
Wydawca zgłasza się do nas przez formularz lub odpowiada na nasze zaproszenie. To tylko początek dialogu, w którym opowiadamy o projekcie i omawiamy możliwości i warunki współpracy, a także zakres i sposób przekazania danych. Jesteśmy otwarci na wymianę maili, rozmowy telefoniczne i spotkania z Państwem, żeby wypracować odpowiednią formę współpracy.
Nigdy nie wykorzystujemy tekstów bez Państwa zgody.
Krok 2.: Negocjacje i umowa licencyjna
Jeżeli wydawca jest zainteresowany współpracą, każdorazowo proponujemy podpisanie umowy licencyjnej, która określa zasady korzystania z przekazanych danych, w tym pola eksploatacji danych. Wydawca oczywiście może zaproponować zmiany do przedstawionego wzoru, w tym pól eksploatacji, aby dostosować treść umowy do swoich potrzeb. Nasz zespół jest gotowy do dialogu, aby osiągnąć porozumienie satysfakcjonujące dla obu stron.
Jako instytucje badawcze mamy doświadczenie w gromadzeniu danych z innych projektów. Zainteresowani wydawcy, którzy w przeszłości przekazywali nam dane na potrzeby takich inicjatyw, mogą wyrazić zgodę na ich wykorzystanie w PLLuM-ie. Również w takich przypadkach cały proces odbywa się za zgodą i na podstawie umowy licencyjnej.
Krok 3.: Przekazanie danych
Po podpisaniu umowy, wydawcy przekazują nam dane tekstowe lub instrukcje do ich samodzielnego pobrania. Do dokumentacji dołączany jest indeks zasobów, w którym wyraźnie zaznaczono, co zostało przekazane. Co ważne, dane uzyskane na podstawie umowy licencyjnej są używane wyłącznie do trenowania modelu PLLuM i nie są nigdy udostępniane na zewnątrz.
Jak rozpocząć współpracę z PLLuM-em?
Jesteśmy otwarci na współpracę z szerokim gronem partnerów. Zapraszamy do przekazywania danych wydawców, instytucje edukacyjne i firmy.
Zainteresowanych zachęcamy do kontaktu z nami przez naszą stronę: https://pllum.org.pl/form
Wierzymy, że dzięki wspólnym wysiłkom uda się nam stworzyć dobrej jakości model. Zapraszamy do współpracy!