Jakość zawsze budzi pytania, gdy mowa o wynikach generowanych przez sztuczną inteligencję. Istnieje kilka czynników, które należy wziąć pod uwagę przy ocenie jakości treści tworzonych przez AI — są one zgodne z poszczególnymi etapami procesu generowania przez sztuczną inteligencję.

Etap danych treningowych

Jakość danych treningowych jest bezpośrednio powiązana z jakością, jakiej można oczekiwać od dużego modelu językowego (LLM). Większość komercyjnych modeli LLM została wytrenowana na otwartych zasobach internetowych, choć niektóre korzystają również z licencjonowanych danych. Komercyjne LLM są projektowane jako modele ogólnej inteligencji, aby mogły odpowiadać na jak najszerszy zakres pytań i realizować różnorodne zadania. Im lepsze dane wykorzystane do treningu, tym wyższa jakość działania AI — jednak większość komercyjnych modeli LLM nie ujawnia, jakie źródła danych zostały użyte podczas treningu. Wiele z nich zaznacza, że jeśli użytkownik korzysta z nielicencjonowanej wersji komercyjnego LLM lub chatbota, dane wprowadzone przez użytkownika mogą być wykorzystywane do dalszego treningu modelu, chyba że użytkownik wyrazi sprzeciw. 

W przypadku zastosowania AI w EBSCO współpracujemy wyłącznie z licencjonowanymi komercyjnymi modelami LLM, aby zapewnić ochronę danych wprowadzanych w ramach zapytań (promptów) przed wykorzystaniem ich do treningu AI. Ponieważ większość komercyjnych LLM nie ujawnia swoich źródeł danych, jakość modelu komercyjnego ocenia się na podstawie analizy wyników generowanych przez AI, porównania ich z rezultatami innych modeli oraz określenia, który z nich zapewnia wyższy poziom jakości w konkretnych zastosowaniach. Ocenę jakości odpowiedzi AI zapewnia podejście „human in the loop” (człowiek w procesie). EBSCO porównuje jakość modeli AI przed wyborem konkretnego modelu do danej funkcji AI. Modele wykorzystywane w naszych rozwiązaniach AI są udokumentowane na platformie EBSCO Connect. 

Etap modelu AI i jego działania

Kolejnym aspektem jakości jest etap modelu AI oraz jego działania. Sam model jest kontrolowany przez dostawcę LLM, jednak dostrajanie (fine-tuning), ustalanie progów, takich jak temperatura (czyli poziom pewności, jaki model musi osiągnąć, aby wykorzystać informację w odpowiedzi AI), a także sposób formułowania zapytań (promptów) mogą być kontrolowane przez organizację lub samego badacza, jeśli wykorzystuje on LLM w swoich badaniach. Choć jakość modelu nadal zależy od jakości generowanych przez AI wyników, to parametry takie jak dostrojenie, progi czy sposób zadawania promptów (by wymienić tylko kilka z możliwych ustawień LLM) można regulować i testować przed udostępnieniem modelu użytkownikom końcowym. Zazwyczaj testowanie odbywa się na przykładowym zbiorze danych, pytań i zmian parametrów, aby znaleźć najbardziej optymalne ustawienia. EBSCO posiada dedykowane zespoły inżynierów AI, którzy nieustannie przeprowadzają testy tych parametrów, by utrzymać wysokie standardy jakości naszych produktów.

EBSCO od zawsze jest zaangażowane w dostarczanie danych wysokiej jakości i godnych zaufania — w przypadku jakości sztucznej inteligencji nie jest inaczej.

Etap ugruntowania

Kolejnym etapem, który wpływa na jakość, jest etap ugruntowania (grounding stage), w którym model LLM jest wspomagany poprzez Retrieval Augmented Generation (RAG). Zapytanie kierowane do LLM najpierw pobiera zweryfikowane i autorytatywne dane spoza modelu, zanim wykorzysta te informacje do poprawy przewidywalności, dokładności, kontekstu oraz aktualności generowanych przez AI wyników. Etap ugruntowania jest całkowicie kontrolowany przez osobę lub organizację korzystającą ze sztucznej inteligencji, dlatego właśnie tutaj jakość ma kluczowe znaczenie. Wykorzystywanie wiarygodnych źródeł danych pomaga ograniczyć tzw. halucynacje (fałszywe odpowiedzi) i zwiększa precyzję odpowiedzi AI o co najmniej 46%, zgodnie z najnowszymi badaniami. Na przykład EBSCO opiera funkcje AI na autorytatywnych treściach pochodzących z naszych baz danych. Nie jest to proces trenowania AI, lecz sposób na wzbogacenie jej działania o wiarygodne dane z naszych zasobów, a następnie połączenie tego z ludzką selekcją faktów i tematów, którą prowadzimy od zawsze.

Etap oceny przez użytkownika końcowego

Kolejnym etapem zapewniania jakości jest etap oceny przez użytkownika końcowego. Choć na tym etapie często pojawia się pewna forma pasywnej oceny jakości ze strony użytkowników (na przykład porzucone lub zmodyfikowane zapytania wyszukiwania), ocena jakości odpowiedzi AI jest przeprowadzana okresowo, aby upewnić się, że poziom jakości jest utrzymany i nie pogarsza się z czasem. EBSCO stosuje trzystopniowy proces przeglądu ludzkiego (human-in-the-loop) odpowiedzi AI, w ramach którego odpowiedzi są najpierw oceniane przez wewnętrznych ekspertów merytorycznych (SME – Subject Matter Experts), następnie przez testerów wersji beta, a na końcu przez użytkowników końcowych. Poniżej przedstawiono przykładową rubrykę, którą EBSCO wykorzystuje do oceny jakości odpowiedzi AI:

  • Aktualność: Czy informacje przedstawione w podsumowaniu (Insight) są aktualne i nie zawierają przestarzałych danych?
  • Ton: Czy ton informacji w podsumowaniu odpowiada tonowi oryginalnego artykułu?
  • Terminologia: Czy terminologia użyta w podsumowaniu jest zgodna z tą zastosowaną w artykule?
  • Dokładność: Czy informacje zawarte w podsumowaniu są poprawne w odniesieniu do treści artykułu?
  • Tematyka: Czy główne tematy poruszane w artykule są odzwierciedlone w podsumowaniu?
  • Przydatność: Czy podsumowanie okazało się użyteczne jako materiał uzupełniający streszczenie lub badania?

Dodatkowo ocenie podlegają aspekty systemowe, takie jak: opóźnienie (latency — czyli jak długo AI potrzebowała, by zakończyć zadanie), czas dostępności systemu (up/down time — jego niezawodność w momencie potrzeby), koszty i efektywność środowiskowa (odpowiedzialność wobec zasobów i planety), przegląd wzajemny w inżynierii promptów (peer review — pomagający ograniczać uprzedzenia), kontrola temperatury (czyli próg pewności odpowiedzi AI) oraz wiele innych czynników. Wszystkie te elementy wpływają na to, jak dobrze AI będzie wykonywać powierzone jej zadania. 

Na każdym etapie działania systemu AI można mierzyć jakość i podejmować kroki w celu jej poprawy. Kluczowe jest ocenianie jakości na każdym z etapów — oprócz takich aspektów jak uprzedzenia (bias), koszty, wpływ na środowisko, równość i inne czynniki. Omówimy te zasady w kolejnych publikacjach. 

EBSCO od zawsze przykłada ogromną wagę do jakości i wiarygodności danych — i nie inaczej jest w przypadku jakości sztucznej inteligencji. Nie tylko mierzymy jakość na każdym etapie, ale również angażujemy ekspertów merytorycznych (SME), którzy regularnie analizują reprezentatywne próbki odpowiedzi i wyników AI, aby upewnić się, że jakość pozostaje na najwyższym poziomie.

Jeśli jesteś zainteresowany wypróbowaniem jednej z naszych funkcji opartych na sztucznej inteligencji, zapoznaj się z nowo uruchomionymi rozwiązaniami: AI Insights i wyszukiwaniem w języku naturalnym (Natural Language Search).