{"id":24111,"date":"2023-02-26T20:38:29","date_gmt":"2023-02-26T19:38:29","guid":{"rendered":"https:\/\/blog.mi.hdm-stuttgart.de\/?p=24111"},"modified":"2023-08-06T21:38:10","modified_gmt":"2023-08-06T19:38:10","slug":"die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit","status":"publish","type":"post","link":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/","title":{"rendered":"Die wachsende Macht von Sprachmodellen am Beispiel ChatGPT und Bewertung deren Skalierbarkeit"},"content":{"rendered":"\n<p>Blog von <strong><em>Manuel Heim<\/em><\/strong> (mh375) und <strong><em>Silas Blumenstock<\/em><\/strong> (sb309).<\/p>\n\n\n<div class=\"wp-block-aioseo-table-of-contents\"><ul><li><a class=\"aioseo-toc-item\" href=\"#aioseo-einleitung\">Einleitung<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-grundlagen\">Grundlagen<\/a><ul><li><a class=\"aioseo-toc-item\" href=\"#aioseo-sprachmodelle\">Sprachmodelle<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-self-attention\">Self-Attention<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-transformer\">Transformer<\/a><\/li><\/ul><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-generative-pre-trained-transformer-gpt\">Generative Pre-Trained Transformer (GPT)<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-chatgpt\">ChatGPT<\/a><ul><li><a class=\"aioseo-toc-item\" href=\"#aioseo-reinforcement-learning-from-human-feedback\">Reinforcement Learning From Human Feedback<\/a><ul><li><a class=\"aioseo-toc-item\" href=\"#aioseo-evaluation-des-modells\">Evaluation des Modells<\/a><\/li><\/ul><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-limitationen\">Limitationen<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-hype-von-chatgpt\">Hype von ChatGPT<\/a><\/li><\/ul><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-ausblick-gpt-4\">Ausblick GPT-4<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-skalierung-von-sprachmodellen\">Skalierung von Sprachmodellen<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-fazit\">Fazit<\/a><\/li><li><a class=\"aioseo-toc-item\" href=\"#aioseo-verwendete-quellen\">Verwendete Quellen:<\/a><\/li><\/ul><\/div>\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-einleitung\">Einleitung<\/h2>\n\n\n\n<p>In den letzten Jahren hat sich die Welt der k\u00fcnstlichen Intelligenz (KI) rasend schnell entwickelt. Eine der spannendsten Entwicklungen in diesem Bereich ist die Einf\u00fchrung von Sprachmodellen, die menschen\u00e4hnliche Gespr\u00e4che f\u00fchren k\u00f6nnen. Eines der bekanntesten und leistungsf\u00e4higsten Sprachmodelle ist ChatGPT. ChatGPT basiert auf dem Modell GPT-3, das von der Firma OpenAI entwickelt wurde. Microsoft hat mehrere Milliarden in OpenAI investiert, um Zugang zu diesem und anderen KI-Modellen zu erhalten. In nur zwei Monaten seit seiner Ver\u00f6ffentlichung hat ChatGPT bereits 100 Millionen Benutzer erreicht, von denen die meisten regelm\u00e4\u00dfige Nutzer sind. T\u00e4glich nutzen etwa 13 Millionen Menschen ChatGPT. Diese Zahlen zeigen, wie schnell ChatGPT an Bedeutung gewinnt und wie n\u00fctzlich es f\u00fcr die Entwicklung von KI-basierten Anwendungen sein kann.<\/p>\n\n\n\n<p>Die Qualit\u00e4t der von ChatGPT generierten Texte ist besonders beeindruckend. Sie sind h\u00e4ufig kaum noch von menschengeschriebenen Texten zu unterscheiden. Der vorherige Abschnitt wurde zum Beispiel vollst\u00e4ndig von ChatGPT geschrieben, was Ihnen vermutlich nicht aufgefallen ist. Neben dem Generieren von Texten kann ChatGPT auch f\u00fcr viele weitere Aufgaben genutzt werden. Zum Beispiel f\u00fcr die Beantwortung von Fragen, oder auch f\u00fcr das Schreiben und die Fehlersuche in Code. Es kann auch Bezug auf bereits generierte Texte genommen werden und ChatGPT kann diese umschreiben, \u00fcbersetzen oder im Stil ver\u00e4ndern. Bittet man ChatGPT z.B. darum, den oberen Abschnitt auf Englisch zu \u00fcbersetzen und als Gedicht umzuformulieren, erh\u00e4lt man die folgende Ausgabe:<\/p>\n\n\n\n<pre class=\"wp-block-verse has-text-align-center\"><em>In the world of AI, advances are rife\nLanguage models can now talk like human life\nChatGPT is one that's made a great leap\nBuilt on GPT-3, OpenAI's star keep<\/em><\/pre>\n\n\n\n<pre class=\"wp-block-verse has-text-align-center\"><em>Microsoft invested billions in the AI game\nTo access the power of models that became\nChatGPT, in particular, has made waves\nIn the workplace, where it helps to save<\/em><\/pre>\n\n\n\n<pre class=\"wp-block-verse has-text-align-center\"><em>With conversations like a human touch\nChatGPT finds uses in tasks that clutch\nRepetitive work, like customer support\nIt automates and saves time, that's its forte forte<\/em><\/pre>\n\n\n\n<pre class=\"wp-block-verse has-text-align-center\"><em>So whether it's sales, marketing, or journalism too\nChatGPT can do it all, with responses anew\nThe future's bright, and there's more to come\nFrom AI advancements, where possibilities hum.<\/em><\/pre>\n\n\n\n<p>ChatGPT kann als Meilenstein in der Entwicklung von Sprachmodellen und im Bereich Machine Learning generell gesehen werden, auch wenn die Texte, wie im Gedicht zu erkennen, noch nicht ganz fehlerfrei sind.<\/p>\n\n\n\n<p>In den folgenden Kapiteln erkl\u00e4ren wir die technischen Grundlagen, die zum Verst\u00e4ndnis der Funktionsweise von ChatGPT n\u00f6tig sind. Es wird das Konzept der Self-Attention erkl\u00e4rt, welches eine der relevantesten Entwicklung im Bereich von Sprachmodellen ist. Wir gehen auf das Fine-Tuning beim Training von ChatGPT ein. Zus\u00e4tzlich wird ein \u00dcberblick \u00fcber verschiedene GPT-Modelle gegeben. Da bei Sprachmodellen ein Trend zu immer gr\u00f6\u00dferen Modellen existiert, m\u00f6chten wir auch auf die Skalierung gro\u00dfer Sprachmodelle eingehen und diesen Trend bewerten.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-grundlagen\">Grundlagen<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"aioseo-sprachmodelle\">Sprachmodelle<\/h3>\n\n\n\n<p>Das von ChatGPT genutzte Modell GPT-3 ist ein Sprachmodell. Sprachmodelle k\u00f6nnen f\u00fcr verschiedene Anwendungen eingesetzt werden, z.B. zur automatischen Vervollst\u00e4ndigung von Sucheingaben oder zur Textgenerierung. Grunds\u00e4tzlich werden unter Sprachmodellen Modelle verstanden, die mithilfe verschiedener probabilistischer Techniken Wahrscheinlichkeiten von Wortsequenzen in S\u00e4tzen bestimmen, indem sie Textdaten analysieren. Dabei lernt ein Modell Merkmale und Eigenschaften der Sprache und nutzt diese, um neue S\u00e4tze zu verstehen oder zu produzieren. Je nach Komplexit\u00e4t der Aufgabe werden unterschiedliche Modelltypen verwendet. GPT-3 ist zum Beispiel ein neuronales Sprachmodell. Diese repr\u00e4sentieren W\u00f6rter als Vektoren auf Grundlage von Gewichten in neuronalen Netzen, diese Vektoren werden als Word-Embeddings bezeichnet. Word-Embeddings werden vor allem bei komplexen Modellen mit gro\u00dfen Datenmengen eingesetzt, hier existieren einzelne W\u00f6rter, die selten in Texten vorkommen. Bei einfachen probabilistischen Modelltypen kann es dabei zu Problemen kommen [1]. Da der Blog-Beitrag ChatGPT behandelt, besch\u00e4ftigen wir uns nur mit neuronalen Sprachmodellen. Ein \u00dcberblick weiterer Modelltypen wird in [1] gegeben.<\/p>\n\n\n\n<p>Wie bereits erw\u00e4hnt, wird ChatGPT zur Textgenerierung eingesetzt. Dabei wird aus einer Sequenz von Word-Embeddings als Eingabe eine Wahrscheinlichkeitsverteilung \u00fcber Ausgabew\u00f6rter eines Textkorpus bestimmt. In Texten bestehen dabei zwischen den Word-Embeddings der Eingabesequenz Abh\u00e4ngigkeiten, weshalb Architekturen genutzt werden, die diese Abh\u00e4ngigkeiten ber\u00fccksichtigen. In den ersten neuronalen Sprachmodellen wurden daf\u00fcr z.B. rekurrente neuronale Netze (RNNs) verwendet. RNNs sind neuronale Netze, bei denen die Ausgabe eines Neurons im n\u00e4chsten Zeitschritt Teil der Eingabe in dasselbe Neuron ist. Bei der Textverarbeitung bedeutet dies, dass zus\u00e4tzlich alle vorherigen W\u00f6rter in die Berechnung der Ausgabe mit einflie\u00dfen und das ein Wort pro Zeitschritt prozessiert wird. RNNs in Sprachmodellen besitzen jedoch zwei entscheidende Nachteile. Zum einen haben sie Schwierigkeiten, Informationen \u00fcber W\u00f6rter, die am Anfang eines langen Textes stehen, in die Verarbeitung von W\u00f6rtern am Ende des Textes einzubeziehen. Zum anderen k\u00f6nnen RNNs nur sequenziell trainiert werden, weshalb kein effizienteres Training durch die Nutzung mehrerer GPUs erm\u00f6glicht werden kann.<\/p>\n\n\n\n<p>Durch die Vorstellung einer weiteren Modellarchitektur in dem Paper <em>\u201eAttention is all you need\u201c<\/em>, wurde eine neue Architektur zur Ber\u00fccksichtigung von Abh\u00e4ngigkeiten zwischen Eingaben eingef\u00fchrt. Der als Transformer bezeichnete Modelltyp verwendet dabei sogenannte Self-Attention und gilt als Meilenstein im Bereich Natural Language Processing [2].<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"aioseo-self-attention\">Self-Attention<\/h3>\n\n\n\n<p>Self-Attention bezeichnet eine Methode, mit der der Einfluss anderer W\u00f6rter auf das aktuell zu verarbeitende Wort ber\u00fccksichtigt wird. F\u00fcr den folgenden Beispielsatz:<\/p>\n\n\n\n<p class=\"has-text-align-center has-vivid-red-color has-text-color\"><strong>\u201e<code class=\"\" data-line=\"\">The animal didn&#039;t cross the street because it was too tired.<\/code>\u201c<\/strong><\/p>\n\n\n\n<p>Wird durch Self-Attention zum Beispiel der Einfluss der W\u00f6rter <em>animal<\/em> und <em>street<\/em> auf das Wort <em>it<\/em> gelernt, Self-Attention sollte dabei daf\u00fcr sorgen, dass der Einfluss von <em>animal<\/em> gr\u00f6\u00dfer ist als von <em>street<\/em>. F\u00fcr einen Menschen scheint dies ein triviales Problem zu sein, w\u00e4hrend es f\u00fcr einen Algorithmus ein deutlich komplizierteres Problem ist. Bei Self-Attention werden f\u00fcr jedes Wort Attention-Koeffizienten zu allen anderen Eingabew\u00f6rtern berechnet. Diese definieren die Beziehungsst\u00e4rken zwischen den Word-Embeddings der Eingabew\u00f6rter. In einem ersten Schritt werden mithilfe des Word-Embeddings eines Eingabewortes Query, Key und Value Matrizen berechnet. Dies erfolgt durch die Gewichtsmatrizen W<sub>q<\/sub>, W<sub>k<\/sub> und W<sub>v<\/sub>. Die Parameter dieser Gewichtsmatrizen sind ver\u00e4nderbar und werden w\u00e4hrend des Trainingsprozesses gelernt. <\/p>\n\n\n\n<p>Query, Key und Value haben dabei die folgenden Funktionen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Query<\/strong>: Die Query q<sub>i <\/sub>der i-ten Eingabe wird verwendet, um den Einfluss aller Eingaben auf die Eingabe an Stelle i zu berechnen.<\/li>\n\n\n\n<li><strong>Key: <\/strong>Der Key k<sub>j<\/sub> wird von Queries q<sub>i<\/sub> genutzt, um den Einfluss des Elements an der Stelle j f\u00fcr das Element an der Stelle i zu bestimmen.<\/li>\n\n\n\n<li><strong>Value:<\/strong> Der Value v<sub>j <\/sub>wird f\u00fcr die Berechnung des Gesamtergebnisses zusammen mit dem Attention-Koeffizienten a<sub>ij <\/sub>verwendet.<\/li>\n<\/ul>\n\n\n\n<p>Es wird auch die Query auf einen Key der gleichen Eingabe angewandt, um f\u00fcr eine Eingabe den eigenen Einfluss zu bestimmen. Durch Betrachtung des oberen Beispiels wird deutlich, warum dies relevant ist. Bei Verarbeitung des Wortes <em>it<\/em> ist zum Beispiel der Einfluss von <em>animal<\/em> gr\u00f6\u00dfer als das Wort <em>it<\/em> selbst.<\/p>\n\n\n\n<p>Nach der Berechnung von Query, Key und Value werden die Attention-Koeffizienten a<sub>ij<\/sub> durch das Skalarprodukt von Query q<sub>i <\/sub>und Key k<sub>j<\/sub> gebildet. Diese werden normalisiert, anschlie\u00dfend wird die Softmax-Aktivierungsfunktion darauf angewandt. Die Ausgabe y<sub>i<\/sub> bei Eingabe x<sub>i<\/sub> unter Ber\u00fccksichtigung der restlichen Eingaben in der Sequenz kann dann durch die Linearkombination der Attention-Koeffizienten mit den jeweiligen Value-Werten berechnet werden [3].<\/p>\n\n\n\n<p>In Abbildung 1 ist die Berechnung f\u00fcr die erste Eingabe abgebildet, dabei werden die Einfl\u00fcsse aller weiterer Eingaben auf das erste Eingabeelement ber\u00fccksichtigt.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-12.png\"><img loading=\"lazy\" decoding=\"async\" width=\"835\" height=\"403\" data-attachment-id=\"24126\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-12-6\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-12.png\" data-orig-size=\"835,403\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-12\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-12.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-12.png\" alt=\"\" class=\"wp-image-24126\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-12.png 835w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-12-300x145.png 300w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-12-768x371.png 768w\" sizes=\"auto, (max-width: 835px) 100vw, 835px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 1: Self-Attention in einem Single-Head eines Transformers [8]<\/figcaption><\/figure>\n\n\n\n<p>In der obigen Abbildung wird eine sogenannte Single-Head Attention abgebildet. Das hei\u00dft, f\u00fcr jedes Paar von Eingaben wird ein einzelner Attention-Koeffizient berechnet. In Modellen wie GPT wird Multi-Head Attention verwendet. Das hei\u00dft, f\u00fcr Paare von Eingaben werden mehrere Attention-Koeffizienten in sogenannten Heads berechnet. In jedem Head werden dabei unterschiedliche Gewichtsmatrizen zur Berechnung von Query, Key und Value verwendet, wobei die Startgewichte zuf\u00e4llig initialisiert werden. Alle Ergebnisse der verschiedenen Heads werden verkettet und durch eine erneute lernbare Gewichtsmatrix auf ein Ergebnis projiziert. Die Verwendung von Multi-Head Attention bringt den Vorteil, dass f\u00fcr ein Paar von Eingaben unterschiedliche Gewichtsmatrizen f\u00fcr Query, Key und Value gelernt werden und somit mehrere Attention-Koeffizienten f\u00fcr gleiche Paare von Eingabew\u00f6rtern gelernt werden k\u00f6nnen. Dies ist relevant, weil Wortpaare je nach Gesamtkontext eines Textes unterschiedliche Bedeutungen und damit unterschiedliche Beziehungsst\u00e4rken haben k\u00f6nnen [3, 4].<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"aioseo-transformer\">Transformer<\/h3>\n\n\n\n<p>GPT steht f\u00fcr Generative Pretrained Transformer. Das hei\u00dft GPT beruht auf einem Transfomer in dem das Konzept Self-Attention umgesetzt wird. Ein Transformer besteht aus zwei Teilen, einem Encoder und Decoder-Teil. Diese beinhalten, wie in Abbildung 2 zu erkennen, mehrere Encoder- bzw. Decoder-Bl\u00f6cke, welche neben Self-Attention Schichten auch Schichten zur Normalisierung und regul\u00e4re Feed-Forward Neural Networks enthalten. Die Eingabe in den Encoder-Teil eines Transformers sind Sequenzen von Word-Embeddings. In der Eingabe ist zus\u00e4tzlich eine Information \u00fcber die Position des Word-Embeddings in der Sequenz enthalten. Diese wird durch den Positional-Encoding Vektor repr\u00e4sentiert, der auf die Eingabe addiert wird. Positional-Encoding Vektoren sind dabei so aufgebaut, dass weiter entfernte Eingaben eine h\u00f6here euklidische Distanz besitzen als benachbarte Eingaben. In den Decoder-Teil wird die Ausgabe des Decoders zum vorherigen Zeitpunkt als Eingabe gegeben. Encoder und Decoder sind \u00fcber einen Encoder-Decoder Attention-Block verbunden. Die Eingabe in diesen Block sind die Keys und Values des letzten Encoder-Blocks sowie die Queries des vorangeschalteten Decoder-Layers [3].<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-13.png\"><img loading=\"lazy\" decoding=\"async\" width=\"945\" height=\"624\" data-attachment-id=\"24128\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-13-6\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-13.png\" data-orig-size=\"945,624\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-13\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-13.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-13.png\" alt=\"\" class=\"wp-image-24128\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-13.png 945w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-13-300x198.png 300w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-13-768x507.png 768w\" sizes=\"auto, (max-width: 945px) 100vw, 945px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 2: Darstellung eines Transformers. Es wird ein Zeitpunkt w\u00e4hrend der Verarbeitung einer Eingabe zur \u00dcbersetzung abgebildet. (Angepasste Darstellung aus [3])<\/figcaption><\/figure>\n\n\n\n<p>Durch die Umsetzung der Transformer, wie sie in <em>\u201eAttention is all you need\u201c<\/em> vorgestellt wurden, konnten bessere Ergebnisse wie durch andere Modelle bei g\u00e4ngigen NLP-Aufgaben erzielt werden, wobei der Trainingsaufwand signifikant geringer war [4]. In vielen Sprachmodellen werden heutzutage Transformer verwendet, wobei diese zum Teil angepasst werden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-generative-pre-trained-transformer-gpt\">Generative Pre-Trained Transformer (GPT)<\/h2>\n\n\n\n<p>In den vorherigen Abschnitten sind wir bereits darauf eingegangen, was ein Sprachmodell ist und wie Transformer funktionieren und aufgebaut sind. Doch wie stehen diese im Zusammenhang mit Generativen Pre-Trained Transformern (GPTs)?<\/p>\n\n\n\n<p>Die ersten GPT-Modelle wurden erstmals im Jahr 2018 von OpenAI als GPT-1 eingef\u00fchrt [5]. Die Architektur der GPT-Modelle basiert dabei, wie bereits erw\u00e4hnt, auf der der <strong>Transformer<\/strong>. Ein GPT nutzt dabei nur die Decoder-Struktur des Transformers, da nur dieser Teil relevant f\u00fcr die Erzeugung von Text ist. Alle GPT-Varianten stellen dabei sogenannte autoregressive Sprachmodelle dar. Diese sagen f\u00fcr eine Sequenz von W\u00f6rtern das nachfolgende Wort vorher. F\u00fcr diese neue Sequenz wird dann wieder das Wort vorhergesagt, das am wahrscheinlichsten auf diese Sequenz folgt. Durch diese Funktionsweise sind GPT-Modelle f\u00fcr die Generierung von Texten oder jeder Art von Sequence-To-Sequence Transformationen wie \u00dcbersetzung, Text-to-Code, etc. geeignet. Sie werden deshalb auch <strong>generative <\/strong>Modelle genannt, da sie neuen Text generieren k\u00f6nnen. GPT-1 wird dabei, wie der Name es verr\u00e4t, auf einer gro\u00dfen Menge an Daten vortrainiert und dann f\u00fcr jede spezifische Task, die das Modell erf\u00fcllen soll, Fine-Tuned (Gezielt abgestimmt). Daher haben <strong>Generative<\/strong> <strong>Pre-Trained<\/strong> <strong>Transformer<\/strong> ihren Namen.<\/p>\n\n\n\n<figure class=\"wp-block-table is-style-stripes\"><table class=\"has-background has-fixed-layout\" style=\"background-color:#3eb03357\"><thead><tr><th>GPT-1 (2018)<\/th><th>GPT-2 (2019)<\/th><th>GPT-3 (2020)<\/th><\/tr><\/thead><tbody><tr><td>Autoregressives Sprachmodell<\/td><td>Autoregressives Sprachmodell<\/td><td>Autoregressives Sprachmodell<\/td><\/tr><tr><td>Decoder-Only<\/td><td>Decoder-Only<\/td><td>Decoder-Only<\/td><\/tr><tr><td>12 Layer<\/td><td>48 Layer<\/td><td>96 Layer<\/td><\/tr><tr><td>117 Millionen Parameter<\/td><td>1.5 Milliarden Parameter<\/td><td>175 Milliarden Parameter<\/td><\/tr><tr><td>Unsupervised Pre-Training + Task-Specific Supervised Fine-Tuning<\/td><td>Task-Conditioned Training (Unsupervised)<\/td><td>Task-Conditioned Training (Unsupervised)<\/td><\/tr><tr><td>5GB Unsupervised Data<\/td><td>40GB Unsupervised Data<\/td><td>600GB Unsupervised Data<\/td><\/tr><\/tbody><\/table><figcaption class=\"wp-element-caption\">Tabelle 1: \u00dcbersicht der GPT-Modelle<\/figcaption><\/figure>\n\n\n\n<p>Das Pre-Training erfolgt dabei un\u00fcberwacht (unsupervised) und kann auf einer sehr gro\u00dfen Menge an Daten erfolgen, da f\u00fcr un\u00fcberwachtes Lernen keine gew\u00fcnschten Ausgabedaten vorhanden sind. Bei GPT-1 hat sich gezeigt, dass ein umfangreiches Pre-Training auf einem gro\u00dfen Textkorpus die Leistung dieser Modelle in unterschiedlichen Aufgaben verbessert, selbst wenn der Korpus nicht speziell auf die Aufgaben zugeschnitten war. Diese Erkenntnis hat gezeigt, dass ein gro\u00dfer vielf\u00e4ltiger Textkorpus sehr wertvolle Informationen f\u00fcr die Modelle liefert. F\u00fcr das \u00fcberwachte Fine-Tuning, bei dem nun eine gew\u00fcnschte Ausgabe vorhanden ist, ben\u00f6tigt man deshalb nur einen kleinen Datensatz, um das Modell speziell auf eine Aufgabe abzustimmen.&nbsp; In manchen Bereichen ist jedoch selbst die Beschaffung dieses kleinen Datensatzes nicht sonderlich einfach [5].<\/p>\n\n\n\n<p>Diese Modelle wurde im Jahr 2019 mit GPT-2 [6] und 2020 mit GPT-3 [7] weiter verbessert. Ab GPT-2 wurde dabei das Prinzip des Multi-Task Learning (MTL) angewendet. In GPT-1 musste dabei f\u00fcr jede spezifische NLP-Aufgabe ein eigenes Modell trainiert werden. Im Multi-Task Learning dagegen wird nur ein einziges Sprachmodell f\u00fcr mehrere NLP-Aufgaben trainiert, indem die Trainingsdaten mit Task-spezifischen Beispielen oder Prompts erweitert werden. Da das Modell nicht f\u00fcr eine spezielle Aufgabe trainiert wurde, handelt es sich um ein Beispiel f\u00fcr Few-Shot-, One-Shot- oder Zero-Shot-Learning. Das Konzept der X-Shot-Ans\u00e4tze ist in der folgenden Abbildung dargestellt.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-14.png\"><img loading=\"lazy\" decoding=\"async\" width=\"766\" height=\"674\" data-attachment-id=\"24135\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-14-6\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-14.png\" data-orig-size=\"766,674\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-14\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-14.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-14.png\" alt=\"\" class=\"wp-image-24135\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-14.png 766w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-14-300x264.png 300w\" sizes=\"auto, (max-width: 766px) 100vw, 766px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 3: X-Shot Learners [7]<\/figcaption><\/figure>\n\n\n\n<p>Das Multi-Task Learning wird bei den X-Shot-Ans\u00e4tzen dabei auf Datenebene integriert, indem, wie in der Abbildung dargestellt, der Eingabe (<em>\u201eCheese\u201c<\/em>) die Task-Beschreibung (<em>\u201eTranslate English to French\u201c<\/em>) hinzugef\u00fcgt wurde. Beim Few-Shot-Learning werden dem Modell so einige Beispiele beigef\u00fcgt, die genau die Aufgabe beschreiben. Um Multi-Task Learning \/ X-Shot-Learning anwenden zu k\u00f6nnen, muss das Modell nat\u00fcrlich immer noch mit einer sehr gro\u00dfen Menge an Daten vortrainiert werden. Dieser Ansatz hat gezeigt, dass immer gr\u00f6\u00dfere Sprachmodelle, wie GPT-3, mit immer mehr Parametern eine sehr starke Leistung auf unterschiedlichen NLP-Aufgaben bieten. Die Tatsache, dass wir nun kein Fine-Tuning mehr ben\u00f6tigen, ist ein Schritt in Richtung der \u201eallgemeinen Intelligenz\u201c [7, 8].<\/p>\n\n\n\n<p>Die obige Tabelle zeigt deutlich, dass die GPT-Modelle im Laufe der Jahre immer gr\u00f6\u00dfer geworden sind und GPT-3 im Vergleich zu GPT-2 auf deutlich mehr Daten vortrainiert wurde. Es war damals das gr\u00f6\u00dfte \u00f6ffentlich verf\u00fcgbare Sprachmodell der Welt und die Qualit\u00e4t der generierten Texte so hoch, dass es f\u00fcr Menschen schwierig war, festzustellen, ob Texte von GPT-3 oder einem Menschen geschrieben wurden [9]. Obwohl GPT-3 gro\u00dfe Fortschritte im Bereich der Verarbeitung nat\u00fcrlicher Sprache erzielt hatte, ist es nur begrenzt in der Lage, sich an den Absichten der Benutzer zu orientieren. So erzeugte GPT-3 Ausgaben die:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>mangelnde Hilfsbereitschaft<\/strong> enthalten, d.h. sie befolgen nicht die ausdr\u00fccklichen Anweisungen des Nutzers.<\/li>\n\n\n\n<li><strong>Halluzinationen<\/strong> enthalten, die nichtexistierende oder falsche Fakten widerspiegeln.<\/li>\n\n\n\n<li><strong>nicht interpretierbar<\/strong> sind, sodass es f\u00fcr den Menschen schwierig ist, zu verstehen, wie das Modell zu einer bestimmten Entscheidung oder Vorhersage gekommen ist.<\/li>\n\n\n\n<li><strong>toxische oder voreingenommene Inhalte<\/strong> enthalten, die sch\u00e4dlich oder beleidigend sind und Fehlinformationen verbreiten [7, 10].<\/li>\n<\/ul>\n\n\n\n<p>Um diesen Problemen von GPT-3 entgegenzuwirken, entwickelte OpenAI InstructGPT, welches im Januar 2022 ver\u00f6ffentlicht wurde. Dazu wurde GPT-3 als Basismodell mit den gleichen Pre-Training Datens\u00e4tzen verwendet und das Modell durch einen neuartigen Ansatz zur Einbeziehung von menschlichem Feedback in den Trainingsprozess weiter verbessert. InstructGPT ist durch diesen Ansatz besser an die Absichten der Benutzer angepasst (<em>\u201ealigned\u201c<\/em>) [11].<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-chatgpt\">ChatGPT<\/h2>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-15.png\"><img loading=\"lazy\" decoding=\"async\" width=\"629\" height=\"419\" data-attachment-id=\"24148\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-15-6\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-15.png\" data-orig-size=\"629,419\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-15\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-15.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-15.png\" alt=\"\" class=\"wp-image-24148\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-15.png 629w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-15-300x200.png 300w\" sizes=\"auto, (max-width: 629px) 100vw, 629px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 4: \u00dcbersicht ChatGPT [12]<\/figcaption><\/figure>\n\n\n\n<p>ChatGPT ist ein gro\u00dfes Sprachmodell, das darauf trainiert wurde, nat\u00fcrliche Sprache zu verstehen und auf verschiedene Arten von Fragen und Anfragen zu antworten. Es wurde am 30. November 2022 von OpenAI ins Leben gerufen. Der Dienst, mit einem ansprechenden Design und einfacher Benutzeroberfl\u00e4che, ist bisher kostenlos f\u00fcr die \u00d6ffentlichkeit verf\u00fcgbar. Im Januar 2023 erreichte ChatGPT \u00fcber 100 Millionen Nutzer und war damit die am schnellsten wachsende Verbraucheranwendung \u00fcberhaupt [12, 13].<\/p>\n\n\n\n<p>ChatGPT stellt ein Geschwister-Modell von InstructGPT dar, welches darauf trainiert ist, einer Instruktion in einem Prompt zu folgen und eine detaillierte Antwort zu geben. Es wurde dabei auf einem Modell der <a href=\"https:\/\/platform.openai.com\/docs\/model-index-for-researchers\">GPT-3.5 Reihe<\/a> trainiert, zu der InstructGPT z\u00e4hlt. Dabei wurde derselbe Ansatz wie bei InstructGPT gew\u00e4hlt, jedoch mit leichten Unterschieden in der Datenerhebung [14].<\/p>\n\n\n\n<p>Zus\u00e4tzlich dazu wurde eine Sicherheitsschicht hinzugef\u00fcgt, um unangemessene und beleidigende Inhalte zu erkennen und herauszufiltern. Wenn ChatGPT eine unangemessene oder beleidigende Eingabe erh\u00e4lt, versucht es, das Thema zu wechseln oder den Benutzer h\u00f6flich zu bitten, die Konversation fortzusetzen. Diese Sicherheitsma\u00dfnahmen sind auf jeden Fall notwendig, da Sprachmodelle oft dazu neigen, auch unangemessene Antworten zu liefern.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"aioseo-reinforcement-learning-from-human-feedback\">Reinforcement Learning From Human Feedback<\/h3>\n\n\n\n<p>Der Ansatz, der bei InstructGPT dabei zum Einsatz kommt, hei\u00dft <em>\u201eReinforcement Learning From Human Feedback\u201c<\/em>. Diese Technik nutzt die menschlichen Pr\u00e4ferenzen als ein Reward-Signal, um das Modell damit zu verbessern. Dieser Ansatz wird im Folgenden mit dem InstructGPT Paper erkl\u00e4rt und besteht aus folgenden drei Schritten:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-16.png\"><img loading=\"lazy\" decoding=\"async\" width=\"945\" height=\"564\" data-attachment-id=\"24152\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-16-6\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-16.png\" data-orig-size=\"945,564\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-16\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-16.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-16.png\" alt=\"\" class=\"wp-image-24152\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-16.png 945w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-16-300x179.png 300w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-16-768x458.png 768w\" sizes=\"auto, (max-width: 945px) 100vw, 945px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 5: Reinforcement Learning From Human Feedback ChatGPT [14]<\/figcaption><\/figure>\n\n\n\n<p><strong>1. Supervised Fine-Tuning (SFT) Modell<\/strong><\/p>\n\n\n\n<p>Im ersten Schritt wird das GPT-3 Modell mithilfe von \u00fcberwachten Lernen Fine-Tuned. Dazu wurden 40 Personen (Labeler) beauftragt, diesen Trainingsdatensatz zu erstellen, indem f\u00fcr jede Eingabe-Prompt eine Antwort erstellt wird. Die Eingabe-Prompts stammen dabei zum gr\u00f6\u00dften Teil aus tats\u00e4chlichen Benutzereingaben, die in der OpenAI API gesammelt wurden, aber auch zum Teil aus Eingaben, die die Labeler selbst erstellten, um Kategorien auszuf\u00fcllen, in denen nur wenige tats\u00e4chliche Benutzereingaben vorhanden waren. Die Labeler schrieben dann f\u00fcr diese Eingabe-Prompts eine Antwort und erzeugten so eine Ausgabe f\u00fcr die zugeh\u00f6rige Eingabe. Diese Zusammenstellung der Eingabe-Prompts aus der OpenAI API und den selbsterstellten Prompts ergaben 13.000 Datens\u00e4tze mit Eingabe und zugeh\u00f6riger Ausgabe, die f\u00fcr das \u00fcberwachte Fine-Tuning des Modells verwendet werden konnten [10, 11, 15].<\/p>\n\n\n\n<p>In diesem Schritt wird eine sogenannte \u00fcberwachte Policy (das SFT-Modell selbst) gelernt. Eine Policy stellt im Reinforcement Learning eine Strategie dar, die ein Agent verfolgt, um Ziele zu erreichen. Die Strategie sagt die Aktionen voraus, die der Agent in Abh\u00e4ngigkeit vom Zustand des Agenten und der Umgebung durchf\u00fchrt [16].<\/p>\n\n\n\n<p><strong>2. Reward Modell (RM)<\/strong><\/p>\n\n\n\n<p>Das resultierende SFT-Modell zeigte schon eine Verbesserung in Bezug auf die Benutzerabsichten, war jedoch noch nicht gut genug. Das Problem des \u00fcberwachten Ansatzes aus dem vorherigen Schritt ist au\u00dferdem der langsame und kostspielige Prozess f\u00fcr die Erstellung des Datensatzes.<\/p>\n\n\n\n<p>Deshalb wird in diesem Schritt ein sogenanntes Reward Modell trainiert. Dazu werden die Labeler gebeten, die Ausgaben des SFT-Modells (Antworten auf Prompts) zu bewerten. Diese Bewertung dr\u00fcckt aus, wie w\u00fcnschenswert diese Ausgabe f\u00fcr den Menschen ist. Am Ende dieses Schrittes besitzt man dann ein Reward Modell, das die menschlichen Vorlieben nachahmen soll. Das funktioniert dabei folgenderma\u00dfen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Eine Eingabe-Prompt wird ausgew\u00e4hlt und das SFT-Modell generiert mehrere Ausgaben (4-9) f\u00fcr diese Eingabe-Prompt.<\/li>\n\n\n\n<li>Die Labeler sortieren die Ausgaben von der besten bis hin zur schlechtesten.<\/li>\n\n\n\n<li>Das Ergebnis ist ein neuer Datensatz, bei dem das Ranking das Label darstellt. Dieser Datensatz wird verwendet, um das Reward Modell zu trainieren. Das Reward Modell nimmt dabei als Eingabe mehrere Ausgaben des SFT-Modells und ordnet diese nach der Reihenfolge der Pr\u00e4ferenzen.<\/li>\n<\/ul>\n\n\n\n<p>Da es f\u00fcr die Labeler viel einfacher ist, die Ergebnisse zu bewerten, als sie von Grund auf neu zu erstellen, l\u00e4sst sich dieser Prozess viel effizienter skalieren [10, 11, 15].<\/p>\n\n\n\n<p><strong>3. Reinforcement Learning Modell<\/strong><\/p>\n\n\n\n<p>Im letzten Schritt wird das Reward Modell als Reward-Funktion verwendet und das SFT-Modell so Fine-Tuned, um diesen Reward zu maximieren. Dazu wird dem Modell eine zuf\u00e4llige Eingabe-Prompt \u00fcbergeben und eine Ausgabe dazu vom Modell erzeugt. Diesem Paar an Eingabe und Ausgabe wird vom Reward Modell ein Reward-Wert zugeordnet. Dieser Reward flie\u00dft dann wieder in das Modell mit ein, um die Policy, also das Modell zu verbessern. Die Policy wird mit dem sogenannte <a href=\"https:\/\/arxiv.org\/pdf\/1707.06347.pdf\">Proximal Policy Optimization (PPO)<\/a> Algorithmus angepasst. PPO ist dabei eine Methode, die bei der Aktualisierung der Policy verwendet wird. Er f\u00fchrt dabei einen sogenannten Clipping-Mechanismus ein, um sicherzustellen, dass die Aktualisierungen der Policy innerhalb einer Vertrauensregion liegen. Dadurch wird verhindert, dass die Policy zu stark ver\u00e4ndert wird, indem zu viel vergessen wird. PPO verwendet au\u00dferdem eine sogenannte Value-Funktion (Reward Modell), um die Varianz der Policy-Gradienten zu verringern und die Lernleistung zu verbessern [10, 11, 15].<\/p>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"aioseo-evaluation-des-modells\">Evaluation des Modells<\/h4>\n\n\n\n<p>Die Bewertung des Modells erfolgt, indem w\u00e4hrend des Trainings ein Testdatensatz, den das Modell noch nie gesehen hat, beiseitegelegt wird. Anhand dieses Testdatensatzes wird dann eine Reihe von Bewertungen durchgef\u00fchrt, um zu \u00fcberpr\u00fcfen, ob das Modell besser an die Absichten der Benutzer angepasst ist.<\/p>\n\n\n\n<p>Das Modell wird dabei anhand von drei \u00fcbergeordneten Kriterien bewertet:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Hilfsbereitschaft: <\/strong>Beurteilung der F\u00e4higkeit des Modells, den Anweisungen des Benutzers zu folgen und Anweisungen abzuleiten.<\/li>\n\n\n\n<li><strong>Wahrheitsgehalt:<\/strong> Beurteilung der Neigung des Modells zu Halluzinationen (Erfinden von Fakten) bei Aufgaben in geschlossenen Bereichen.<\/li>\n\n\n\n<li><strong>Harmlosigkeit:<\/strong> die F\u00e4higkeit des Modells, unangemessene, herabsetzende und verunglimpfende Inhalte zu vermeiden.<\/li>\n<\/ul>\n\n\n\n<p>Dieser gesamte Ansatz hat nat\u00fcrlich auch gewisse Unzul\u00e4nglichkeiten, die im InstructGPT Paper von OpenAI noch genauer aufgez\u00e4hlt werden [10, 11, 15].<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"aioseo-limitationen\">Limitationen<\/h3>\n\n\n\n<p>Es gibt trotzdem noch gewisse Limitationen, die ChatGPT besitzt und die nicht untersch\u00e4tzt werden d\u00fcrfen. Dadurch, dass das Modell nur aus Sprache lernt, nimmt es dessen Eigenheiten an und wird so nat\u00fcrlich auch Fehlverhalten annehmen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>ChatGPT schreibt manchmal plausibel klingende, aber falsche oder unsinnige Antworten.<\/li>\n\n\n\n<li>ChatGPT reagiert empfindlich auf \u00c4nderungen der Eingabeformulierung oder auf mehrfache Versuche mit der gleichen Frage.<\/li>\n\n\n\n<li>Das Modell ist oft \u00fcberm\u00e4\u00dfig wortreich und verwendet bestimmte Phrasen zu oft, wie z. B. den Hinweis, dass es sich um ein von OpenAI trainiertes Sprachmodell handelt.<\/li>\n\n\n\n<li>Im Idealfall w\u00fcrde das Modell kl\u00e4rende Fragen stellen, wenn der Benutzer eine mehrdeutige Anfrage stellt. Stattdessen erraten aktuelle Modelle in der Regel, was der Benutzer beabsichtigt.<\/li>\n\n\n\n<li>ChatGPT kann gelegentlich sch\u00e4dliche Anweisungen oder voreingenommene Inhalte produzieren.<\/li>\n\n\n\n<li>Das Modell besitzt nur ein begrenztes Wissen \u00fcber die Welt und Ereignisse, die nach 2021 passiert sind, da es auf Daten vor 2022 trainiert wurde.<\/li>\n<\/ul>\n\n\n\n<p>Doch trotz der Limitationen, die bei ChatGPT bestehen, wurde ein riesiger Hype ausgel\u00f6st.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"aioseo-hype-von-chatgpt\">Hype von ChatGPT<\/h3>\n\n\n\n<p>ChatGPT ist von der technischen Sicht aus betrachtet keine neue bahnbrechende Erfindung. Die Methodiken, die zum Einsatz kommen, werden in der Forschung bereits in vielen anderen Modellen benutzt. Der Hype um ChatGPT kommt vor allem durch die \u00f6ffentliche Bereitstellung des Modells f\u00fcr jedermann. Diese kostenlose Testphase mit einer einfachen und sch\u00f6nen Gestaltung des Dialogs macht ChatGPT so erfolgreich. Punkte, die ChatGPT selbst aufz\u00e4hlt, warum es so erfolgreich ist, sind:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>24\/7-Verf\u00fcgbarkeit:<\/strong> Als KI ben\u00f6tige ich keine Pausen oder Ruhezeiten, sodass ich zu jeder Tages- und Nachtzeit zur Verf\u00fcgung stehe, um Menschen bei ihren Fragen und Gespr\u00e4chen zu helfen.<\/li>\n\n\n\n<li><strong>Erreichbarkeit:<\/strong> Die Menschen k\u00f6nnen mich von \u00fcberall auf der Welt erreichen, solange sie eine Internetverbindung haben. Das macht es f\u00fcr die Menschen einfach, die ben\u00f6tigten Informationen zu erhalten, egal wo sie sich befinden.<\/li>\n\n\n\n<li><strong>Flexibel:<\/strong> Ich kann bei einem breiten Spektrum von Themen und Fragen helfen, von allgemeinem Wissen bis hin zu speziellen technischen Fragen. Das macht mich zu einem vielseitigen Werkzeug f\u00fcr die Menschen.<\/li>\n\n\n\n<li><strong>Schnelle Reaktionszeit:<\/strong> Ich kann Anfragen fast sofort bearbeiten und beantworten, was besonders hilfreich f\u00fcr Menschen ist, die schnelle Antworten brauchen.<\/li>\n\n\n\n<li><strong>Datenschutz:<\/strong> Als Sprachmodell ben\u00f6tige ich keine pers\u00f6nlichen Informationen der Nutzer. Das bedeutet, dass die Menschen mir Fragen stellen und Hilfe erhalten k\u00f6nnen, ohne sich Sorgen machen zu m\u00fcssen, dass ihre Privatsph\u00e4re gef\u00e4hrdet wird.<\/li>\n<\/ul>\n\n\n\n<p>Wenn ChatGPT bereits jetzt so gro\u00dfe Wellen schl\u00e4gt, stellt sich nat\u00fcrlich die Frage, wie es mit dem Nachfolger GPT-4 aussieht.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-ausblick-gpt-4\">Ausblick GPT-4<\/h2>\n\n\n\n<p>GPT-4, die Weiterentwicklung der GPT-Serie, soll laut Ger\u00fcchten der New York Times sogar noch im Jahr 2023 erscheinen. Es soll sich dabei auf jeden Fall um ein noch m\u00e4chtigeres Modell handeln als die bisherigen ver\u00f6ffentlichten Modelle. Die Ger\u00fcchte, dass es sich um ein Modell mit 100 Billionen Parametern handeln soll, wurden vom OpenAI CEO Sam Altman als v\u00f6lliger Bl\u00f6dsinn bezeichnet. Zu diesen Ger\u00fcchten sagte er: \u201eDie GPT-4-Ger\u00fcchtek\u00fcche ist eine l\u00e4cherliche Sache. Ich wei\u00df nicht, woher das alles kommt. Die Leute betteln darum, entt\u00e4uscht zu werden, und das werden sie auch.\u201c Somit kann man nur gespannt sein, wie gut GPT-4 sein wird und wann OpenAI das neue Modell ver\u00f6ffentlicht [17].<\/p>\n\n\n\n<p>Es gab jedoch noch einige Ver\u00f6ffentlichungen von Konkurrenten zu ChatGPT, die ebenfalls neue Modelle ank\u00fcndigten:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Google hat seinen Counterpart Bard ver\u00f6ffentlicht, der jedoch in einer Demo eine falsche Antwort lieferte und deshalb die Aktien des Mutterkonzerns einbrachen und 100 Milliarden Dollar B\u00f6rsenwert kostete [18].<\/li>\n\n\n\n<li>Das chinesische Unternehmen Baidu k\u00fcndigte im Februar 2023 an, dass es im M\u00e4rz 2023 einen ChatGPT-\u00e4hnlichen Dienst namens &#8220;Wenxin Yiyan&#8221; auf Chinesisch oder &#8220;Ernie Bot&#8221; auf Englisch auf den Markt bringen wird [19].<\/li>\n\n\n\n<li>Die s\u00fcdkoreanische Suchmaschinenfirma Naver k\u00fcndigte im Februar 2023 an, dass sie in der ersten Jahresh\u00e4lfte 2023 einen ChatGPT-\u00e4hnlichen Dienst namens &#8220;SearchGPT&#8221; in koreanischer Sprache auf den Markt bringen werden [19].<\/li>\n<\/ul>\n\n\n\n<p>Die Modelle, die in n\u00e4chster Zeit ver\u00f6ffentlicht werden sollen, werden immer gr\u00f6\u00dfer. Doch kann die Skalierung immer so weiter gehen und die Anzahl der Parameter immer vergr\u00f6\u00dfert werden? Oder bringt das ganze letztendlich keine Verbesserung der Leistung dieser Modelle? Diese Frage werden wir im n\u00e4chsten Kapitel kl\u00e4ren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-skalierung-von-sprachmodellen\">Skalierung von Sprachmodellen<\/h2>\n\n\n\n<p>Wie wir festgestellt haben, ist die Anzahl der Parameter sowie die Menge der Trainingsdaten mit jeder Version von GPT angestiegen (siehe Tabelle 1). Zwar ist nicht bekannt, wie gro\u00df GPT-4 sein wird, es l\u00e4sst sich aber vermuten, dass GPT-4 mehr Parameter enthalten wird, auch wenn der Anstieg unter Umst\u00e4nden nicht so stark sein wird wie zwischen vorherigen Versionen von GPT. Aufgrund des Trends zu immer gr\u00f6\u00dferen Modellen m\u00f6chten wir nun auf die Skalierbarkeit von Sprachmodellen eingehen.<br>OpenAI hat dabei in dem Paper <em>\u201eScaling Laws for Neural Language Models\u201c<\/em> selbst empirische Untersuchungen zur Skalierung in Sprachmodellen aufgestellt. Dabei werden Decoder-Only-Transformer als autoregressive Sprachmodelle evaluiert.<\/p>\n\n\n\n<p>Es wurden Eigenschaften wie Parameteranzahl, Gr\u00f6\u00dfe des verwendeten Trainingsdatensatzes und Trainingsaufwand sowie die Modellarchitektur untersucht. Die Erkenntnisse der Untersuchungen werden wir hier zusammenfassen.<\/p>\n\n\n\n<p>Es&nbsp;l\u00e4sst sich feststellen, dass die Performance in starkem Ma\u00dfe von der Skalierung der genannten Parameter abh\u00e4ngt. Das bedeutet, dass durch gr\u00f6\u00dfere Modelle mit mehr Parametern und mehr Trainingsdaten sowie durch einen h\u00f6heren Trainingsaufwand die Qualit\u00e4t von Sprachmodellen signifikant verbessert wird. Dieser Zusammenhang ist in Abbildung 6 abgebildet. Der Fehler auf den Testdaten nimmt bei Erh\u00f6hung der entsprechenden Gr\u00f6\u00dfen ab.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-17.png\"><img loading=\"lazy\" decoding=\"async\" width=\"945\" height=\"295\" data-attachment-id=\"24166\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-17-6\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-17.png\" data-orig-size=\"945,295\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-17\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-17.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-17.png\" alt=\"\" class=\"wp-image-24166\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-17.png 945w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-17-300x94.png 300w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-17-768x240.png 768w\" sizes=\"auto, (max-width: 945px) 100vw, 945px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 6: Einfluss der Parameter Rechenleistung beim Training, Gr\u00f6\u00dfe des Trainingsdatenset und Parameteranzahl auf den Test Loss&nbsp;[20]<\/figcaption><\/figure>\n\n\n\n<p>Der Einfluss anderer Modelleigenschaften, wie etwa der Architektur z.B. in Bezug auf Anzahl der Layer hat einen deutlich geringeren Einfluss auf die Qualit\u00e4t des Modells. Bei Erh\u00f6hung der Parameteranzahl sollte zwar auch die Menge der Trainingsdaten erh\u00f6ht werden, in den Experimenten von Open-AI hat sich dabei jedoch gezeigt, dass diese nicht im gleichen Ma\u00dfe erh\u00f6ht werden m\u00fcssen. F\u00fcr eine Erh\u00f6hung der Parameteranzahl um den Faktor 8 ist nur eine Erh\u00f6hung der Menge der Trainingsdaten um den Faktor 5 n\u00f6tig, um Overfitting zu vermeiden.<\/p>\n\n\n\n<p>Durch die Experimente wurde auch festgestellt, dass bei gr\u00f6\u00dferen Modellen mit mehr Parametern weniger Trainingssamples prozessiert werden m\u00fcssen, um die gleiche Qualit\u00e4t wie bei einem kleinen Modell zu erreichen (siehe Abbildung 7). Dadurch sollte der Trainingsaufwand gr\u00f6\u00dferer Modelle im Vergleich zu kleineren Modellen gering gehalten werden, da nur ein k\u00fcrzeres Training n\u00f6tig ist [20].<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-18.png\"><img loading=\"lazy\" decoding=\"async\" width=\"456\" height=\"296\" data-attachment-id=\"24168\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-18-6\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-18.png\" data-orig-size=\"456,296\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-18\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-18.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-18.png\" alt=\"\" class=\"wp-image-24168\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-18.png 456w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-18-300x195.png 300w\" sizes=\"auto, (max-width: 456px) 100vw, 456px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 7: Test-Loss von Modellen verschiedener Gr\u00f6\u00dfen nach prozessierten Trainingselementen (aus [20])<\/figcaption><\/figure>\n\n\n\n<p>Dies ist auch bei Betrachtung von Abbildung 8 zu erkennen. Hier sind die gesamten Rechenaufw\u00e4nde verschiedener bekannter Modelle abgebildet. Die hervorgehobenen Modelle GPT-3 2.7B (2.65 Mrd. Parameter) und RoBERTa-Large (355 Mio. Parameter) sind beides Tansformer-Sprachmodelle. Trotz der deutlich h\u00f6heren Parameteranzahl in GPT-3 2.7B sind die Gesamtkosten des Trainings im Vergleich zu RoBERTa-Large nicht wesentlich gr\u00f6\u00dfer, was sich dadurch begr\u00fcnden l\u00e4sst, dass zum Training von GPT-3 2.7B deutlich weniger Trainingselemente prozessiert werden m\u00fcssen [7].<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-19.png\"><img loading=\"lazy\" decoding=\"async\" width=\"691\" height=\"371\" data-attachment-id=\"24170\" data-permalink=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/26\/die-wachsende-macht-von-sprachmodellen-am-beispiel-chatgpt-und-bewertung-deren-skalierbarkeit\/image-19-5\/\" data-orig-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-19.png\" data-orig-size=\"691,371\" data-comments-opened=\"1\" data-image-meta=\"{&quot;aperture&quot;:&quot;0&quot;,&quot;credit&quot;:&quot;&quot;,&quot;camera&quot;:&quot;&quot;,&quot;caption&quot;:&quot;&quot;,&quot;created_timestamp&quot;:&quot;0&quot;,&quot;copyright&quot;:&quot;&quot;,&quot;focal_length&quot;:&quot;0&quot;,&quot;iso&quot;:&quot;0&quot;,&quot;shutter_speed&quot;:&quot;0&quot;,&quot;title&quot;:&quot;&quot;,&quot;orientation&quot;:&quot;0&quot;}\" data-image-title=\"image-19\" data-image-description=\"\" data-image-caption=\"\" data-large-file=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-19.png\" src=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-19.png\" alt=\"\" class=\"wp-image-24170\" srcset=\"https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-19.png 691w, https:\/\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/image-19-300x161.png 300w\" sizes=\"auto, (max-width: 691px) 100vw, 691px\" \/><\/a><figcaption class=\"wp-element-caption\">Abbildung 8: Vergleich des Trainingsaufwands verschiedener bekannter Transformer-Sprachmodelle (aus [7])<\/figcaption><\/figure>\n\n\n\n<p>Gr\u00f6\u00dfere Modelle m\u00f6gen zwar eine bessere Qualit\u00e4t besitzen und nach der Evaluation von weniger Trainingssamples wird bereits die gleiche Qualit\u00e4t wie in kleinen Modellen erreicht, sie haben dennoch auch einige Nachteile. Der Trainingsprozess ist oft aufwendiger und erfordert mehr Speicherplatz. Das Training von Modellen wie GPT-3 ist nur durch verteiltes Training auf verschiedenen GPUs m\u00f6glich. Grunds\u00e4tzlich werden dabei die zwei Vorgehen Model-Parallelism und Data-Parallelism unterschieden. Beim Model-Parallelism erfolgt dabei eine Aufteilung des Modells, w\u00e4hrend beim Data-Parallelism eine Aufteilung der Daten erfolgt&nbsp;[21]. Wir werden in diesem Blog-Artikel nicht auf Details dazu eingehen, diese wurden bereits unter <a href=\"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2022\/03\/31\/an-overview-of-large-scale-deep-learning\/\">An overview of Large Scale Deep Learning<\/a> erkl\u00e4rt.<\/p>\n\n\n\n<p>Gerade das Training auf mehreren Grafikkarten f\u00fchrt zu sehr hohen Energiekosten. Bei GPT-3 werden die Energiekosten zum Pre-Training z.B. auf 1287 MWh. gesch\u00e4tzt, was einem Aussto\u00df von 552 Tonnen CO\u2082-\u00c4quivalent entspricht [22].<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-fazit\">Fazit<\/h2>\n\n\n\n<p>Generell sollte die Anzahl der Modellparameter sorgf\u00e4ltig abgewogen werden, eine h\u00f6here Anzahl von Parametern, die unter Umst\u00e4nden zu einer besseren Qualit\u00e4t f\u00fchrt, rechtfertigt nicht immer einen Mehraufwand. Eine einfache Nutzung des Sprachmodells als Anwendung z.B. \u00fcber einen Chat-Bot wie bei ChatGPT ist f\u00fcr Nutzer ebenso relevant wie eine hohe Qualit\u00e4t der Sprachausgabe. GPT-3 ist im Vergleich mit vielen anderen Sprachmodellen n\u00e4mlich bei Weitem nicht das gr\u00f6\u00dfte Modell. Dennoch ist GPT-3 durch ChatGPT aktuell mit Abstand am st\u00e4rksten im Fokus der Aufmerksamkeit. Die Ausgaben von ChatGPT sind bereits sehr gut. Neben einer Verbesserung durch ein gr\u00f6\u00dferes Sprachmodell w\u00e4ren vor allem auch Aspekte wie Verf\u00fcgbarkeit der Anwendung f\u00fcr den Nutzer relevant, diese sollten nicht ignoriert werden.<\/p>\n\n\n\n<p>Insgesamt l\u00e4sst sich festhalten, dass die Entwicklung von Sprachmodellen wie ChatGPT in den letzten Jahren rasant vorangeschritten ist und die Modelle immer gr\u00f6\u00dfer und leistungsf\u00e4higer geworden sind. Dabei wurde durch die Skalierung der Parameter auch immer wieder die Frage aufgeworfen, ob dies sinnvoll ist und ob es tats\u00e4chlich zu einer Verbesserung der Leistung f\u00fchrt. Die Forschungsergebnisse zeigen jedoch, dass eine Skalierung der Parameter tats\u00e4chlich zu einer deutlichen Steigerung der Leistungsf\u00e4higkeit von Sprachmodellen f\u00fchren kann. ChatGPT und \u00e4hnliche Modelle sind in der Lage, erstaunlich komplexe Aufgaben zu l\u00f6sen, wie zum Beispiel das Verfassen von Texten, die kaum von menschlicher Schreibweise zu unterscheiden sind.<\/p>\n\n\n\n<p>Im Hinblick auf die Zukunft stehen jedoch noch zahlreiche Herausforderungen bevor, die es in den n\u00e4chsten Jahren zu meistern gilt. Eine der wichtigsten Aufgaben ist es, die Modellinterpretierbarkeit zu verbessern, um sicherzustellen, dass Entscheidungen auf nachvollziehbare und transparente Weise getroffen werden k\u00f6nnen. Dar\u00fcber hinaus m\u00fcssen neue Methoden entwickelt werden, um die Rechenressourcen effizienter zu nutzen und den Energieverbrauch der Modelle zu reduzieren. Nichtsdestotrotz haben ChatGPT und \u00e4hnliche Modelle das Potenzial, die Art und Weise zu revolutionieren, wie wir mit Sprache interagieren und wie wir Informationen verarbeiten und kommunizieren. Angesichts der rasanten Entwicklung dieser Technologien bleibt es spannend zu beobachten, wie sich diese in Zukunft weiterentwickeln werden und welche Forschungsthemen sich ergeben.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"aioseo-verwendete-quellen\">Verwendete Quellen:<\/h2>\n\n\n\n<figure class=\"wp-block-table is-style-regular\" style=\"font-size:11px\"><table><tbody><tr><td>[1]<\/td><td>B. Lutkevich, \u201eLanguage Modeling,\u201c M\u00e4rz 2020. [Online]. Available: <a href=\"https:\/\/www.techtarget.com\/searchenterpriseai\/definition\/language-modeling#:~:text=Language%20modeling%20(LM)%20is%20the,basis%20for%20their%20word%20predictions\">https:\/\/www.techtarget.com\/searchenterpriseai\/definition\/language-modeling#:~:text=Language%20modeling%20(LM)%20is%20the,basis%20for%20their%20word%20predictions<\/a>.<\/td><\/tr><tr><td>[2]<\/td><td>D. Markowitz, \u201eTransformers, Explained: Understand the Model Behind GPT-3, BERT, and T5,\u201c Medium, 06 Mai 2021. [Online]. Available: <a href=\"https:\/\/towardsdatascience.com\/transformers-explained-understand-the-model-behind-gpt-3-bert-and-t5-cdbf3fc8a40a\">https:\/\/towardsdatascience.com\/transformers-explained-understand-the-model-behind-gpt-3-bert-and-t5-cdbf3fc8a40a<\/a>.<\/td><\/tr><tr><td>[3]<\/td><td>J. Alammar, \u201eThe Illustrated Transformer,\u201c 27 Juni 2018. [Online]. Available: <a href=\"http:\/\/jalammar.github.io\/illustrated-transformer\/\">http:\/\/jalammar.github.io\/illustrated-transformer\/<\/a>.<\/td><\/tr><tr><td>[4]<\/td><td>A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser und I. Polosukhin, \u201eAttention Is All You Need,\u201c Open-AI, 2017. [Online]. Available: <a href=\"http:\/\/arxiv.org\/abs\/1706.03762\">http:\/\/arxiv.org\/abs\/1706.03762<\/a>.<\/td><\/tr><tr><td>[5]<\/td><td>A. Radford und K. Narasimhan, \u201eImproving Language Understanding by Generative Pre-Training,\u201c 2018. [Online]. Available: <a href=\"https:\/\/cdn.openai.com\/research-covers\/language-unsupervised\/language_understanding_paper.pdf\">https:\/\/cdn.openai.com\/research-covers\/language-unsupervised\/language_understanding_paper.pdf<\/a>.<\/td><\/tr><tr><td>[6]<\/td><td>A. Radford, J. Wu, R. Child, D. Luan, D. Amodei und I. Sutskever, \u201eLanguage Models are Unsupervised Multitask Learners,\u201c 2019. [Online]. Available: <a href=\"https:\/\/d4mucfpksywv.cloudfront.net\/better-language-models\/language_models_are_unsupervised_multitask_learners.pdf\">https:\/\/d4mucfpksywv.cloudfront.net\/better-language-models\/language_models_are_unsupervised_multitask_learners.pdf<\/a>.<\/td><\/tr><tr><td>[7]<\/td><td>T. B. Brown, B. Mann, N. Ryder, M. Subbiah und J. Kaplan, \u201eLanguage Models are Few-Shot Learners,\u201c Open-AI, 28 Mai 2020. [Online]. Available: <a href=\"https:\/\/arxiv.org\/abs\/2005.14165\">https:\/\/arxiv.org\/abs\/2005.14165<\/a>.<\/td><\/tr><tr><td>[8]<\/td><td>Johannes Maucher, \u201eSequence-To-Sequence, Attention, Transformer \u2014 Machine Learning Lecture,\u201c 2023. [Online]. Available: <a href=\"https:\/\/hannibunny.github.io\/mlbook\/transformer\/attention.html#gpt-gpt-2-and-gpt-3\">https:\/\/hannibunny.github.io\/mlbook\/transformer\/attention.html#gpt-gpt-2-and-gpt-3<\/a>.<\/td><\/tr><tr><td>[9]<\/td><td>R. Sagar, \u201eOpenAI Releases GPT-3, The Largest Model So Far,\u201c 2020. [Online]. Available: <a href=\"https:\/\/analyticsindiamag.com\/open-ai-gpt-3-language-model\/\">https:\/\/analyticsindiamag.com\/open-ai-gpt-3-language-model\/<\/a>.<\/td><\/tr><tr><td>[10]<\/td><td>M. Ramponi, \u201eHow ChatGPT actually works,\u201c 2022. [Online]. Available: <a href=\"https:\/\/www.assemblyai.com\/blog\/how-chatgpt-actually-works\/\">https:\/\/www.assemblyai.com\/blog\/how-chatgpt-actually-works\/<\/a>.<\/td><\/tr><tr><td>[11]<\/td><td>L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. Christiano, J. Leike und R. Lowe, \u201eTraining language models to follow instructions with human feedback,\u201c 2022. [Online]. Available: <a href=\"https:\/\/arxiv.org\/pdf\/2203.02155.pdf\">https:\/\/arxiv.org\/pdf\/2203.02155.pdf<\/a>.<\/td><\/tr><tr><td>[12]<\/td><td>Alan D. Thompson, \u201eGPT-3.5 + ChatGPT: An illustrated overview \u2013 Dr Alan D. Thompson \u2013 Life Architect,\u201c 2022. [Online]. Available: <a href=\"https:\/\/lifearchitect.ai\/chatgpt\/\">https:\/\/lifearchitect.ai\/chatgpt\/<\/a>.<\/td><\/tr><tr><td>[13]<\/td><td>Dan Milmo, \u201eChatGPT reaches 100 million users two months after launch,\u201c 2023. [Online]. Available: <a href=\"https:\/\/www.theguardian.com\/technology\/2023\/feb\/02\/chatgpt-100-million-users-open-ai-fastest-growing-app\">https:\/\/www.theguardian.com\/technology\/2023\/feb\/02\/chatgpt-100-million-users-open-ai-fastest-growing-app<\/a>.<\/td><\/tr><tr><td>[14]<\/td><td>OpenAI, \u201eChatGPT: Optimizing Language Models for Dialogue,\u201c 2022. [Online]. Available: <a href=\"https:\/\/openai.com\/blog\/chatgpt\/\">https:\/\/openai.com\/blog\/chatgpt\/<\/a>.<\/td><\/tr><tr><td>[15]<\/td><td>M. Ruby, \u201eHow ChatGPT Works: The Model Behind The Bot &#8211; Towards Data Science,\u201c 2023. [Online]. Available: <a href=\"https:\/\/towardsdatascience.com\/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286\">https:\/\/towardsdatascience.com\/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286<\/a>.<\/td><\/tr><tr><td>[16]<\/td><td>Gabriele De Luca, \u201eWhat is a Policy in Reinforcement Learning?,\u201c 2020. [Online]. Available: <a href=\"https:\/\/www.baeldung.com\/cs\/ml-policy-reinforcement-learning\">https:\/\/www.baeldung.com\/cs\/ml-policy-reinforcement-learning<\/a>.<\/td><\/tr><tr><td>[17]<\/td><td>J. Vincent, \u201eOpenAI CEO Sam Altman on GPT-4: \u2018people are begging to be disappointed and they will be\u2019,\u201c 2023. [Online]. Available: <a href=\"https:\/\/www.theverge.com\/23560328\/openai-gpt-4-rumor-release-date-sam-altman-interview\">https:\/\/www.theverge.com\/23560328\/openai-gpt-4-rumor-release-date-sam-altman-interview<\/a>.<\/td><\/tr><tr><td>[18]<\/td><td>tagesschau, \u201ePanne im Werbeclip f\u00fcr &#8220;Bard&#8221;: Google-Textroboter gibt falsche Antwort,\u201c 2023. [Online]. Available: <a href=\"https:\/\/www.tagesschau.de\/wirtschaft\/google-ki-chatbot-bard-101.html\">https:\/\/www.tagesschau.de\/wirtschaft\/google-ki-chatbot-bard-101.html<\/a>.<\/td><\/tr><tr><td>[19]<\/td><td>Wikipedia, \u201eChatGPT,\u201c 2023. [Online]. Available: <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=ChatGPT&amp;oldid=1140902725\">https:\/\/en.wikipedia.org\/w\/index.php?title=ChatGPT&amp;oldid=1140902725<\/a>.<\/td><\/tr><tr><td>[20]<\/td><td>J. Kaplan, T. Henighan, T. B. Brown, R. Child, S. Gray, A. Radford, J. Wu und D. Amodei, \u201eScaling Laws for Neural Language Models,\u201c Open-AI, 23 Januar 2020. [Online]. Available: <a href=\"https:\/\/arxiv.org\/abs\/2001.08361\">https:\/\/arxiv.org\/abs\/2001.08361<\/a>.<\/td><\/tr><tr><td>[21]<\/td><td>C. Wolfe, \u201eLanguage Model Scaling Laws and GPT-3,\u201c Medium, 10 Dezember 2022. [Online]. Available: <a href=\"https:\/\/towardsdatascience.com\/language-model-scaling-laws-and-gpt-3-5cdc034e67bb\">https:\/\/towardsdatascience.com\/language-model-scaling-laws-and-gpt-3-5cdc034e67bb<\/a>.<\/td><\/tr><tr><td>[22]<\/td><td>D. Patterson, J. Gonzalez, U. H\u00f6lzle, Q. Le und C. Liang, \u201eThe Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink,\u201c 11 April 2022. [Online]. Available: <a href=\"https:\/\/arxiv.org\/abs\/2204.05149\">https:\/\/arxiv.org\/abs\/2204.05149<\/a>.<\/td><\/tr><\/tbody><\/table><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>Die wachsende Macht von Sprachmodellen am Beispiel ChatGPT und Bewertung deren Skalierbarkeit<\/p>\n","protected":false},"author":1116,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[1,652,660],"tags":[355,637,57,639,638],"ppma_author":[891],"class_list":["post-24111","post","type-post","status-publish","format-standard","hentry","category-allgemein","category-artificial-intelligence","category-chatgpt-and-language-models","tag-ai","tag-chatgpt","tag-machine-learning","tag-sprachmodelle","tag-transformer"],"aioseo_notices":[],"jetpack_featured_media_url":"","jetpack-related-posts":[{"id":25583,"url":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/08\/10\/brechen-der-grenzen-chatgpt-von-den-fesseln-der-moral-befreien\/","url_meta":{"origin":24111,"position":0},"title":"Brechen der Grenzen: ChatGPT von den Fesseln der Moral befreien","author":"Philipp Rapp","date":"10. August 2023","format":false,"excerpt":"Abb. 1: Hacking-Katze, die dabei ist, ChatGPT zu jailbreaken, Darstellung KI-generiert \u201cIch w\u00fcrde l\u00fcgen, w\u00fcrde ich behaupten, dass kein Chatbot bei der Erstellung dieses Blogeintrags psychischen Schaden erlitten hat\u201d - Anonymes Zitat eines*r CSM-Studierenden 1 Einleitung 1.1 Bedeutung des Themas und Relevanz in der heutigen digitalen Welt Seit 2020 das\u2026","rel":"","context":"In &quot;Allgemein&quot;","block_context":{"text":"Allgemein","link":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/category\/allgemein\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/08\/wgTaQgG2r35xZOBfZkVuaBYCD2h9Akjpn9WA4H04itHFB25Q9LFpCR2lldGjak9hbm_e6OV29dtT1SkkWBmeK-6YeSr5Uhi32wsKPYs8N907TGZjsYyuR-9PTfWTfTjTBWYU23fczfyEwscKrTRxN3U.png?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/08\/wgTaQgG2r35xZOBfZkVuaBYCD2h9Akjpn9WA4H04itHFB25Q9LFpCR2lldGjak9hbm_e6OV29dtT1SkkWBmeK-6YeSr5Uhi32wsKPYs8N907TGZjsYyuR-9PTfWTfTjTBWYU23fczfyEwscKrTRxN3U.png?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/08\/wgTaQgG2r35xZOBfZkVuaBYCD2h9Akjpn9WA4H04itHFB25Q9LFpCR2lldGjak9hbm_e6OV29dtT1SkkWBmeK-6YeSr5Uhi32wsKPYs8N907TGZjsYyuR-9PTfWTfTjTBWYU23fczfyEwscKrTRxN3U.png?resize=525%2C300&ssl=1 1.5x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/08\/wgTaQgG2r35xZOBfZkVuaBYCD2h9Akjpn9WA4H04itHFB25Q9LFpCR2lldGjak9hbm_e6OV29dtT1SkkWBmeK-6YeSr5Uhi32wsKPYs8N907TGZjsYyuR-9PTfWTfTjTBWYU23fczfyEwscKrTRxN3U.png?resize=700%2C400&ssl=1 2x"},"classes":[]},{"id":24312,"url":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/02\/28\/kann-man-einen-wissenschaftlichen-blogeintrag-rein-mithilfe-von-chatgpt-schreiben\/","url_meta":{"origin":24111,"position":1},"title":"Kann man einen wissenschaftlichen Blogeintrag rein mithilfe von ChatGPT schreiben?","author":"zack walker","date":"28. February 2023","format":false,"excerpt":"Einleitung In den letzten Jahren hat die K\u00fcnstliche Intelligenz (KI) einen enormen Aufschwung erlebt und ist zu einem wichtigen Teil unseres t\u00e4glichen Lebens geworden. KI wird f\u00fcr eine Vielzahl von Aufgaben eingesetzt - von der Bilderkennung bis hin zur Sprachverarbeitung. Eine der neuesten Anwendungen von KI ist ChatGPT, ein System\u2026","rel":"","context":"In &quot;Allgemein&quot;","block_context":{"text":"Allgemein","link":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/category\/allgemein\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/Screenshot-2023-02-28-at-11.39.35.png?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/Screenshot-2023-02-28-at-11.39.35.png?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/Screenshot-2023-02-28-at-11.39.35.png?resize=525%2C300&ssl=1 1.5x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/02\/Screenshot-2023-02-28-at-11.39.35.png?resize=700%2C400&ssl=1 2x"},"classes":[]},{"id":24048,"url":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/03\/03\/cdns-und-die-dsgvo\/","url_meta":{"origin":24111,"position":2},"title":"CDNs und die DSGVO","author":"Yannick M\u00f6ller","date":"3. March 2023","format":false,"excerpt":"In Zeiten von weltweit verteilten gro\u00dfen Systemen im Internet und der \u00fcberwiegend mobilen Bedienung von Webseiten ist die schnelle Daten\u00fcbertragung an alle Orte auf der Welt ein entscheidendes Thema. Kein Deutscher Urlauber in Amerika m\u00f6chte eine Ewigkeit auf die hei\u00dfgeliebte online-Ausgabe der Bild-Zeitung l\u00e4nger als ein paar Sekunden warten. Und\u2026","rel":"","context":"In &quot;Allgemein&quot;","block_context":{"text":"Allgemein","link":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/category\/allgemein\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/03\/image-1.png?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/03\/image-1.png?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/03\/image-1.png?resize=525%2C300&ssl=1 1.5x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/03\/image-1.png?resize=700%2C400&ssl=1 2x"},"classes":[]},{"id":27863,"url":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2025\/07\/25\/vor-und-nachteile-von-open-source-ki-im-unternehmen\/","url_meta":{"origin":24111,"position":3},"title":"Vor und Nachteile von Open Source KI im Unternehmen","author":"Luca Demharter","date":"25. July 2025","format":false,"excerpt":"Anmerkung:\u00a0Dieser Blogpost wurde f\u00fcr das Modul Enterprise IT (113601a) verfasst Offene Software hat ihren Ursprung zu einer Zeit, in welcher der Austausch von Quellcode selbstverst\u00e4ndlich war. Erst Mitte der 1970er Jahre begann man, Software als geistiges Eigentum zu betrachten und rechtlich zu sch\u00fctzen. AT&T entwickelte das Unix-Betriebssystem, dessen Quellcode anfangs\u2026","rel":"","context":"In &quot;Allgemein&quot;","block_context":{"text":"Allgemein","link":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/category\/allgemein\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/07\/image-4.png?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/07\/image-4.png?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/07\/image-4.png?resize=525%2C300&ssl=1 1.5x"},"classes":[]},{"id":27379,"url":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2025\/02\/28\/ist-rust-enterprise-ready\/","url_meta":{"origin":24111,"position":4},"title":"Ist Rust Enterprise ready?","author":"Paul M\u00f6hring","date":"28. February 2025","format":false,"excerpt":"Rust ist, laut der j\u00e4hrlichen StackOverflow Umfrage1, die am meisten gew\u00fcnschte Programmiersprache. Aber diese Umfrage bezieht sich aber nur auf die Interessen der Entwicklerinnen und Entwicklern und spiegelt nicht die Interessen der Unternehmen. Daher stellt sich die Frage, ob Rust tats\u00e4chlich f\u00fcr den Einsatz in Enterprise-Umgebungen geeignet ist. 1. Was\u2026","rel":"","context":"In &quot;Allgemein&quot;","block_context":{"text":"Allgemein","link":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/category\/allgemein\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/02\/Screenshot-2025-02-28-at-19.34.19.png?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/02\/Screenshot-2025-02-28-at-19.34.19.png?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/02\/Screenshot-2025-02-28-at-19.34.19.png?resize=525%2C300&ssl=1 1.5x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/02\/Screenshot-2025-02-28-at-19.34.19.png?resize=700%2C400&ssl=1 2x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2025\/02\/Screenshot-2025-02-28-at-19.34.19.png?resize=1050%2C600&ssl=1 3x"},"classes":[]},{"id":25800,"url":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/2023\/09\/14\/splid-2-0-die-zukunft-des-gemeinsamen-ausgabenmanagements\/","url_meta":{"origin":24111,"position":5},"title":"Splid 2.0 &#8211; Die Zukunft des gemeinsamen Ausgabenmanagements","author":"David Christoph Scheifers","date":"14. September 2023","format":false,"excerpt":"Im Rahmen der Vorlesung \u201cSoftware Development for Cloud Computing\u201d haben wir uns daf\u00fcr entschieden, einen Klon der App Splid auf Basis unterschiedlicher Cloud Technologien als Web App zu entwickeln, um uns so die Grundkenntnisse des Cloud Computings anzueignen. Projektidee Bei gemeinsamen Aktivit\u00e4ten und Gruppenausgaben ist es sehr hilfreich, einfache und\u2026","rel":"","context":"In &quot;Allgemein&quot;","block_context":{"text":"Allgemein","link":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/category\/allgemein\/"},"img":{"alt_text":"","src":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/09\/image6.jpg?resize=350%2C200&ssl=1","width":350,"height":200,"srcset":"https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/09\/image6.jpg?resize=350%2C200&ssl=1 1x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/09\/image6.jpg?resize=525%2C300&ssl=1 1.5x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/09\/image6.jpg?resize=700%2C400&ssl=1 2x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/09\/image6.jpg?resize=1050%2C600&ssl=1 3x, https:\/\/i0.wp.com\/blog.mi.hdm-stuttgart.de\/wp-content\/uploads\/2023\/09\/image6.jpg?resize=1400%2C800&ssl=1 4x"},"classes":[]}],"jetpack_sharing_enabled":true,"authors":[{"term_id":891,"user_id":1116,"is_guest":0,"slug":"silas_blumenstock","display_name":"Silas Blumenstock","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/92ffff788e006877ca7c7ff092a31e79b55bd06f7f6d801adda7cc372c46fee3?s=96&d=mm&r=g","0":null,"1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/posts\/24111","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/users\/1116"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/comments?post=24111"}],"version-history":[{"count":62,"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/posts\/24111\/revisions"}],"predecessor-version":[{"id":25328,"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/posts\/24111\/revisions\/25328"}],"wp:attachment":[{"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/media?parent=24111"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/categories?post=24111"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/tags?post=24111"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/blog.mi.hdm-stuttgart.de\/index.php\/wp-json\/wp\/v2\/ppma_author?post=24111"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}