• Home
  • About Us
  • Contact Us
  • DMCA
  • Sitemap
  • Privacy Policy
Monday, May 29, 2023
Insta Citizen
No Result
View All Result
  • Home
  • Technology
  • Computers
  • Gadgets
  • Software
  • Solar Energy
  • Artificial Intelligence
  • Home
  • Technology
  • Computers
  • Gadgets
  • Software
  • Solar Energy
  • Artificial Intelligence
No Result
View All Result
Insta Citizen
No Result
View All Result
Home Artificial Intelligence

Interpretowalność modeli klasy AI/ML na platformie SAS Viya

Insta Citizen by Insta Citizen
March 31, 2023
in Artificial Intelligence
0
Interpretowalność modeli klasy AI/ML na platformie SAS Viya
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter


Platforma SAS® Viya® oferuje wiele algorytmów klasy uczenia maszynowego (machine studying, ML) czy sztucznej inteligencji (synthetic intelligence, AI) do trenowania modeli predykcyjnych (klasyfikacyjnych itp.), takich jak lasy losowe (random forest) czy wzmocnienia gradientowe (gradient boosting), jak również modele uczenia głębokiego (deep studying). Choć wielokrotnie potwierdziły one swoją przydatność w praktyce, wewnętrzna architektura tych modeli i sposób odzwierciedlania modelowanych zależności są zbyt złożone, by można było w prosty sposób zinterpretować ich wskazania, na podobnej zasadzie jak ma to miejsce chociażby w przypadku modelu regresji. Charakter „czarnej skrzynki” (black field) istotnie ogranicza możliwości zastosowania tych modeli w ściśle regulowanych branżach, takich jak ubezpieczenia czy bankowość, gdzie w wielu przypadkach niezbędna jest prawidłowa interpretacja wskazań modelu (chociażby w celu upewnienia się, że mannequin nie dokonuje prawnie niedopuszczalnej dyskryminacji).

Dlaczego należy interpretować „czarne skrzynki”

W tym kontekście kluczowego znaczenia nabiera możliwość udzielenia odpowiedzi na dwa podstawowe pytania: jak rozumieć samo pojęcie interpretowalności modelu i czy na pewno właściwie rozumiemy to, dlaczego powinniśmy zadbać o prawidłową interpretację wskazań modeli klasy AI/ML. Niniejszy artykuł stanowi pierwszy z serii dwóch artykułów poświęconych kwestii interpretowalności modeli. W części pierwszej zarysujemy drawback interpretowalności modeli, zaś w części drugiej (o bardziej technicznym charakterze) omówimy w szczegółach metody interpretowalności modeli dostępne na platformie SAS® Viya®.

Zasadność tego typu rozważań starali się wykazać autorzy, pionierskiego w pewnym sensie, artykułu z 2016 roku (Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin, “Why Ought to I Belief You?”: Explaining the Predictions of Any Classifier), którzy sformułowali – być może w nieco prowokacyjnym stylu – pytanie postawione w tytule ich pracy: dlaczego właściwie powinienem tobie ufać – gdzie zaimek „ty” wskazuje na pewien mannequin, który w artykule pełni rolę klasyfikatora.

Autorzy zauważają m.in.: „Pomimo szerokiej akceptacji, modele uczenia maszynowego pozostają w większości czarnymi skrzynkami. Gdy tymczasem zrozumienie przesłanek kryjących się za takimi a nie innymi prognozami jest jednak bardzo ważne dla oceny tego, na ile możemy ufać naszemu modelowi. To zaufanie ma bowiem fundamentalne znaczenie, jeśli prognoza uzyskana z modelu ma służyć podejmowaniu decyzji”. (Lekarstwem, które miało przyczynić się do zwiększenia zaufania do wskazań modelu, miał stać się algorytm LIME (Native Interpretable Mannequin-agnostic Explanations), który zaprezentujemy w drugim artykule z serii.)

Przykładowy drawback

W jakim sensie interpretowalność buduje zaufanie do modeli? Posłużmy się przykładem zbliżonym do omówionego we wspomnianym artykule. Załóżmy, że jestem analitykiem danych i stworzyłem mannequin o dość dobrych zdolnościach rozpoznawania obrazów – dobrych w rozumieniu pewnych miar jakości modelu (miar zdolności klasyfikacyjnej czy dyskryminacyjnej). Wydaje mi się więc, że jestem gotów rozpocząć wykorzystywać mannequin w docelowym zastosowaniu. Ściśle rzecz biorąc, stworzyłem sieć neuronową, która ma za zadanie dokonywać klasyfikacji zwierząt, uwidocznionych na przedstawianych jej zdjęciach, do dwóch klas: wilka bądź – o podobnego do niego – psa husky.

Niestety okazuje się, że mannequin dokonuje częściowo błędnych klasyfikacji, choć przyczyny tego stanu rzeczy nie są mi znane. Nie dysponując narzędziami, które pozwoliłyby mi mannequin zinterpretować, nie będzie mi łatwo te przyczyny znaleźć, a tym bardziej je usunąć – sieć neuronowa to mannequin, w którym trudno powiązać wektor danych wejściowych z odpowiedzią modelu.

Jednakże po zaimplementowaniu algorytmu pozwalającego zinterpretować mój mannequin dowiedziałem się, że brał on pod uwagę fragmenty zdjęcia, na których znajdował się śnieg, a nie obiekty pierwszoplanowe, czyli wizerunki zwierząt poddawanych klasyfikacji. Można by w zasadzie powiedzieć, że mannequin był bardzo skuteczny w rozpoznawaniu śniegu, a nie wilka czy psa rasy husky. W pewnym sensie mieliśmy więc do czynienia z przypadkiem korelacji pozornej (spurious correlation) – przy czym bez możliwości sięgnięcia głębiej w strukturę modelu trudno byłoby nam ten fakt odkryć.

Jak więc możemy zadbać o to, by nasz mannequin nie był uznany w pełni za „czarną skrzynkę”?

„Białe skrzynki”

Zacznijmy od najbardziej oczywistych przypadków, czyli modeli, które co do zasady nie wymagają pogłębionej interpretacji, bo zapewniają warunki „dobrego objaśnienia” modelu identical z siebie (choć jak dotąd nie zaproponowano chyba formalnej definicji pojęcia interpretowalności modelu, opublikowano szereg artykułów poświęconych temu zagadnieniu, w tym pracę stanowiącą przekrojowe studium semantyczne, która zawiera wyliczenie cech, jakimi powinien odznaczać się dobry algorytm interpretujący mannequin: Tim Miller, Rationalization in Synthetic Intelligence: Insights from the Social Sciences).

Mamy tu na myśli modele zwane niekiedy, dla kontrastu, „białymi skrzynkami” (white field), do których możemy zaliczyć regresję logistyczną czy np. niezbyt rozbudowany przypadek drzewa decyzyjnego. Modele tej klasy charakteryzują się tym, że – mówiąc umownie – ścieżka dochodzenia do odpowiedzi modelu jest na tyle prosta, że jej powiązanie ze zmiennymi wejściowymi jest niemalże bezpośrednie. W przypadku regresji liniowej mamy prostą postać funkcyjną oraz wagi (współczynniki modelu), które są wprost powiązane z wartością prognozowanej zmiennej celu (zmiennej objaśnianej). Interpretacja takiej wagi odbywa się jednak z reguły na zasadzie ceteris paribus, czyli przy założeniu, że wartości pozostałych zmiennych pozostają niezmienione.

Z kolei samą istotność danej zmiennej możemy ocenić (w klasycznym modelu regresji liniowej, gdzie zakładamy, iż składnik losowy ma rozkład normalny i jest IID, a więc np. nie występuje autokorelacja czy heteroskedastyczność) przy pomocy statystyki t o rozkładzie Studenta. Mannequin w postaci drzewa można uznać za nieco bardziej skomplikowany, ponieważ przez drzewo decyzyjne rozumiemy – w dużym uproszczeniu – listę cech, wartości progowych oraz przepis na rozrost drzewa (np. metoda CART), a ogólną istotność zmiennej możemy analizować np. poprzez monitoring spadku wartości indeksu Giniego dla każdej zmiennej użytej do budowy drzewa. Jednak dopóki drzewo nie jest nadmiernie rozbudowane, nadal jesteśmy w stanie stosunkowo łatwo je zinterpretować.

Interpretowalność ex ante

Sytuacja komplikuje się jednak wtedy, kiedy chcemy wykorzystać bardziej zaawansowane modele klasy AI/ML, takie jak sieci neuronowe, wspomniane lasy losowe czy wzmocnienia gradientowe. „Droga” jaką pokonuje obserwacja od wejścia do modelu sieci poprzez wszystkie możliwe warstwy ukryte zbudowane z potencjalnie bardzo dużej liczby neuronów, z uwzględnieniem takich cech, jak wagi czy funkcje aktywacji, jest na tyle skomplikowana, że nie daje się wytłumaczyć w postaci prostych zależności. Sieć neuronowa to typowy przypadek „czarnej skrzynki”, czyli modelu, w którym jesteśmy w stanie wyestymować (czy skalibrować) poszczególne komponenty modelu (takie jak wagi), jednak nie rozumiemy wewnętrznych mechanizmów, które prowadzą do określonej odpowiedzi modelu. Nie jesteśmy w stanie w prosty sposób stwierdzić, dlaczego mannequin dał taką a nie inną odpowiedź na konkretny sygnał wejściowy. W szczególności przypisanie istotności poszczególnym zmiennym wejściowym w ogólnym przypadku nie jest możliwe bez dodatkowych zabiegów.

O jakich zabiegach mowa, tzn. jakie podejścia możemy zastosować, aby być w stanie objaśnić działanie „czarnej skrzynki”? Możemy zdecydować się np. na zastosowanie metod zastępczych (proxy), czyli metod, których myślą przewodnią jest doprowadzenie do zastąpienia właściwego modelu AI/ML innym modelem, który byłby łatwiejszy w interpretacji. Nie są to więc metody interpretacji modeli w ścisłym rozumieniu tego pojęcia (co sugeruje samo użycie słowa proxy). Do metod tej klasy zaliczamy m.in.:

  • Metodę modelu zastępczego (surrogate mannequin method) – w pierwszym rzędzie trenujemy czarną skrzynkę na zbiorze uczącym, a następnie podstawiamy wyjście z tego modelu w charakterze zmiennej celu w modelu, który czarną skrzynką nie jest.
  • Druga metoda to specyficzny przypadek podejścia champion-challenger, w którym czarna skrzynka służy za benchmark dla modelu, który czarną skrzynką nie jest. W tym podejściu wykorzystujemy mannequin klasy AI/ML na potrzeby „ustawienia odpowiednio wysoko poprzeczki” dla możliwych do uzyskania w danych warunkach (np. na konkretnym zbiorze testowym) miar jakości modelu, które służą za punkt odniesienia dla modeli typu „biała skrzynka”. Domyślnie są one challengerami, które mają dorównać championowi w postaci modelu AI/ML.
  • Wreszcie podejście trzecie, które zakłada, że modele klasy AI/ML wykorzystujemy jedynie do wstępnej selekcji zmiennych, by następnie te właśnie zmienne wykorzystać w modelach poddających się bezpośredniej interpretacji („białych skrzynkach”).

Wszystkie trzy omówione podejścia można łatwo zrealizować na platformie SAS® Viya®, która natywnie wspiera m.in. podejście champion-challenger, umożliwiając budowę konkurujących modeli i wybór najlepszego według zadanych kryteriów.

Interpretowalność ex publish

Najczęściej nie chodzi nam jednak o to, by budować pełne modele proxy dla modelu klasy AI/ML, ponieważ wiąże się to z dodatkowymi kosztami i potencjalną utratą zalet modeli tej klasy. Jeżeli zależy nam na wszystkich zaletach złożonych modeli klasy AI/ML, pozostaje nam wykorzystanie dedykowanych algorytmów służących interpretacji odpowiedzi modelu, który już zbudowaliśmy i uznaliśmy wstępnie za „optymalny” (w rozumieniu zadanych kryteriów oceny jakości modelu). Na platformie SAS® Viya® zaimplementowano natywnie kilka metod służących diagnostyce ex publish (a więc bez stosowania metod zastępczych, bezpośrednio na docelowym modelu „czarnej skrzynki”):

  • Variable Significance (VI) oraz Relative Variable Significance, które przede wszystkim pozwalają nam uszeregować zmienne pod względem istotności.
  • Partial Dependence (PD) oraz Particular person Conditional Expectation (ICE), które, podobnie, pomagają nam odpowiedzieć na pytanie o to, z jaką siłą (w jaki sposób) konkretne zmienne wpływają na odpowiedź modelu.
  • A także wspomniany już wcześniej algorytm LIME czy HyperSHAP, które przede wszystkim pomagają nam wyjaśnić odpowiedź modelu dla konkretnych obserwacji.

Wymienione algorytmy możemy podzielić na dwie grupy pod względem tego, czy dany algorytm pozwala nam na ogólną interpretację działania modelu jako całości, czy też raczej pozwala przyjrzeć się bliżej wyłącznie odpowiedzi modelu dla konkretnego sygnału podanego na wejściu. Według tego kryterium dzielimy algorytmy na interpretujące mannequin globalnie lub lokalnie.

Globalna interpretacja modelu jest pewnym ideałem, do którego dążymy, ale nie zawsze łatwo osiągalnym. Dlatego w praktyce duże znaczenie mają algorytmy pozwalające objaśnić mannequin lokalnie. Na poziomie pojedynczej obserwacji, zależność pomiędzy wejściem a wyjściem może być znacznie prostsza w opisie. Np. może zależeć liniowo od pewnego zestawu cech, a nie – jak ogólnie w modelu – kształtować się wg znacznie bardziej skomplikowanego przepisu.

Szczegóły wymienionych wyżej metod przedstawimy w kolejnym artykule z serii.



Source_link

READ ALSO

Expertise Innovation Institute Open-Sourced Falcon LLMs: A New AI Mannequin That Makes use of Solely 75 % of GPT-3’s Coaching Compute, 40 % of Chinchilla’s, and 80 % of PaLM-62B’s

Probabilistic AI that is aware of how nicely it’s working | MIT Information

Related Posts

Expertise Innovation Institute Open-Sourced Falcon LLMs: A New AI Mannequin That Makes use of Solely 75 % of GPT-3’s Coaching Compute, 40 % of Chinchilla’s, and 80 % of PaLM-62B’s
Artificial Intelligence

Expertise Innovation Institute Open-Sourced Falcon LLMs: A New AI Mannequin That Makes use of Solely 75 % of GPT-3’s Coaching Compute, 40 % of Chinchilla’s, and 80 % of PaLM-62B’s

May 29, 2023
Probabilistic AI that is aware of how nicely it’s working | MIT Information
Artificial Intelligence

Probabilistic AI that is aware of how nicely it’s working | MIT Information

May 29, 2023
Construct a robust query answering bot with Amazon SageMaker, Amazon OpenSearch Service, Streamlit, and LangChain
Artificial Intelligence

Construct a robust query answering bot with Amazon SageMaker, Amazon OpenSearch Service, Streamlit, and LangChain

May 28, 2023
De la creatividad a la innovación
Artificial Intelligence

De la creatividad a la innovación

May 28, 2023
How deep-network fashions take probably harmful ‘shortcuts’ in fixing complicated recognition duties — ScienceDaily
Artificial Intelligence

The three-fingered robotic gripper can ‘really feel’ with nice sensitivity alongside the complete size of every finger — not simply on the ideas — ScienceDaily

May 28, 2023
Neural Transducer Coaching: Diminished Reminiscence Consumption with Pattern-wise Computation
Artificial Intelligence

PointConvFormer: Revenge of the Level-based Convolution

May 28, 2023
Next Post
Making a Operate App in Azure to supply a Howdy message together with your title.

Making a Operate App in Azure to supply a Howdy message together with your title.

POPULAR NEWS

AMD Zen 4 Ryzen 7000 Specs, Launch Date, Benchmarks, Value Listings

October 1, 2022
Benks Infinity Professional Magnetic iPad Stand overview

Benks Infinity Professional Magnetic iPad Stand overview

December 20, 2022
Migrate from Magento 1 to Magento 2 for Improved Efficiency

Migrate from Magento 1 to Magento 2 for Improved Efficiency

February 6, 2023
Only5mins! – Europe’s hottest warmth pump markets – pv journal Worldwide

Only5mins! – Europe’s hottest warmth pump markets – pv journal Worldwide

February 10, 2023
Magento IOS App Builder – Webkul Weblog

Magento IOS App Builder – Webkul Weblog

September 29, 2022

EDITOR'S PICK

DALL·E Now Out there in Beta

DALL·E Now Out there in Beta

October 3, 2022
Flipboard’s new Notes function brings authentic content material and dialog to the app

Flipboard’s new Notes function brings authentic content material and dialog to the app

December 13, 2022
Introducing The HP Envy 17.3 Laptop computer: Quick Computing And A Smooth Design

Introducing The HP Envy 17.3 Laptop computer: Quick Computing And A Smooth Design

April 21, 2023
Forestall Screenshots from Cluttering Your Images Library

Forestall Screenshots from Cluttering Your Images Library

May 25, 2023

Insta Citizen

Welcome to Insta Citizen The goal of Insta Citizen is to give you the absolute best news sources for any topic! Our topics are carefully curated and constantly updated as we know the web moves fast so we try to as well.

Categories

  • Artificial Intelligence
  • Computers
  • Gadgets
  • Software
  • Solar Energy
  • Technology

Recent Posts

  • Expertise Innovation Institute Open-Sourced Falcon LLMs: A New AI Mannequin That Makes use of Solely 75 % of GPT-3’s Coaching Compute, 40 % of Chinchilla’s, and 80 % of PaLM-62B’s
  • The right way to Add WooCommerce Customized Product Filter on Store Web page
  • How one can Watch Nvidia’s Computex 2023 Keynote
  • Use Incognito Mode in ChatGPT
  • Home
  • About Us
  • Contact Us
  • DMCA
  • Sitemap
  • Privacy Policy

Copyright © 2022 Instacitizen.com | All Rights Reserved.

No Result
View All Result
  • Home
  • Technology
  • Computers
  • Gadgets
  • Software
  • Solar Energy
  • Artificial Intelligence

Copyright © 2022 Instacitizen.com | All Rights Reserved.

What Are Cookies
We use cookies on our website to give you the most relevant experience by remembering your preferences and repeat visits. By clicking “Accept All”, you consent to the use of ALL the cookies. However, you may visit "Cookie Settings" to provide a controlled consent.
Cookie SettingsAccept All
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. These cookies ensure basic functionalities and security features of the website, anonymously.
CookieDurationDescription
cookielawinfo-checkbox-analytics11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional11 monthsThe cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance11 monthsThis cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy11 monthsThe cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
Functional
Functional cookies help to perform certain functionalities like sharing the content of the website on social media platforms, collect feedbacks, and other third-party features.
Performance
Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.
Analytics
Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics the number of visitors, bounce rate, traffic source, etc.
Advertisement
Advertisement cookies are used to provide visitors with relevant ads and marketing campaigns. These cookies track visitors across websites and collect information to provide customized ads.
Others
Other uncategorized cookies are those that are being analyzed and have not been classified into a category as yet.
SAVE & ACCEPT