Data restructuring as formal preprocessing for machine learning with neural networks

Arnhold, Sven

Data Restructuring as Formal Preprocessing for Machine Learning with Neural Networks Künstliche neuronale Netze werden im Bereich des maschinellen Lernens zur Nachahmung von Expertenwissen eingesetzt. Sie können als feedforward Netze zwischen Daten mit fester Struktur abbilden, als rekurrente Netze auf Daten mit sequentiellem Charakter wie z.B. Zeitreihen und als rekursive Netze zum Lernen auf Datenstrukturen wie chemischen Strukturformeln verwendet werden. In der Praxis gestaltet sich das Training, also die Anpassung der freien Parameter, meistens schwierig. Ständiger Gegenstand der Forschung ist daher unter anderem, spezielle Netzarchitekturen zu entwickeln, die sich für einen praktischen Einsatz gut eignen. Die Netzarchitektur Long Short-Term Memory (LSTM) wurde z.B. gezielt konstruiert, um dem Effekt des „fading gradient" zu begegnen. Dieser Effekt verhindert das praktikable Training rekurrenter Netze mittels Gradientenabstieg. Die Netze verarbeiten die Daten in fester Durchlaufrichtung. Ist eine zu lernende Ausgabe an der konkreten Stelle aber von nachfolgenden Punkten abhängig, kann dieser Sachverhalt nicht gelernt werden. Der Kompromiss, ein Fenster statischer Größe aus Eingabedaten zu verwendet, lässt sich für rekursive Netze nur schwer einsetzen. Es gibt daher nicht-kausale Netzwerkarchitekturen, die den Kontext, also auch punktuelle Nachfolger, berücksichtigen. Weiterhin wurden bidirektionale rekurrente Netze (BRN) definiert, die eine bereits gegebene Netzarchitektur verwenden und die Sequenz in zwei Durchlaufrichtungen gleichzeitig verarbeiten. Kontextuelle Netze erfordern Einschränkungen an ihre interne Struktur. Beide Netzarchitekturen, kontextuelle und bidirektionale, lassen die Form der Eingabedaten unangetastet und erhalten den sequentiellen Charakter der Datenverarbeitung. In dieser Arbeit wird gezeigt, dass eine Sequenz derart in Baumstrukturen abgebildet werden kann, dass ein rekurrentes Elman-BRN auf der Sequenz dasselbe leistet wie ein rekursives Elman-Netz (auch: Simple Recurrent Network) auf den Baumstrukturen. Diese Sequenz-zu-Baum-Abbildung wird auf Baumstrukturen verallgemeinert, sodass auch sie bidirektional restrukturiert werden können. Diese Restrukturierung wird als Form-bezogene Vorverarbeitung der Eingabedaten interpretiert. Es werden neue Restrukturierungsverfahren definiert, also Algorithmen zur Abbildung sequentieller Daten in Baumstrukturen. Das Resultat ist unter anderem ein schnelles Verfahren zur Klassifikation translationsinvarianter Sequenzen. Weiterhin ergibt sich die Möglichkeit, eine nicht-kausale Sequenz-zu-Sequenz-Abbildung zu definieren, die unter gewissen Umständen invertierbar ist. Ein sehr einfach zu implementierendes Verfahren wird vorgestellt. Dieses verwirklicht das Konzept des „teile und herrsche" und wird zusätzlich mit der bidirektionalen Restrukturierung kombiniert. Alle vorgestellten Verfahren werden anhand verschiedener Klassifikationsprobleme mit dem rekurrenten Standard, basierend auf LSTM und Elman-Netzen, verglichen. Dazu werden Netze mit nur drei bis fünf Neuronen trainiert. Um ein breites Spektrum an Verwendungsszenarien abzudecken, werden synthetische und Real-world-Daten von diskreter und kontinuierlicher Natur als Eingabedaten verwendet. Die Güte des Trainings wird untereinander verglichen. Für Datensätze mit unausgewogenem Verhältnis zwischen positiven und negativen Mustern wird eine automatisch ausbalancierende Variante des Gradientenabstiegs vorgestellt. Weiterhin wird eine spezielle Initialisierung für das Trainingsverfahren Resilient Backpropagation angegeben. Es stellt sich heraus, dass die Restrukturierungsverfahren den rekurrenten Standard übertreffen und auch dort erfolgreich sein können, wo rekurrente Netze fehlschlagen, und sie daher unbedingt zwecks Optimierung in Betracht gezogen werden sollten.

Data Restructuring as formal Preprocessing for Machine Learning with Neural Networks Artificial neural networks are used in the field of machine learning to build functions that emulate expert knowledge. Feedforward networks can map between data with fixed structure, recurrent networks can emulate sequential data such as time series. Recursive networks are used for structural data such as chemical structural formulas. Training, that is adapting the free parameters, of those nets is mostly difficult in practise. Therefore, it is amongst other things a permanent subject of research to develop special network architectures that are well suited for practical use. The network architecture LSTM for example was designed specifically to face the fading gradient which effectively renders training of recurrent networks virtually impossible by gradient descent. The network processes the data in one fixed direction. But if a learning task requires the output for a specific point to depend on the following point, this task cannot be learned. The compromise of using an input window of static size is difficult to implement for recursive networks. Therefore non-causal network architectures exist that take the context into account, which means they include input from successors. Furthermore, bidirectional recurrent networks (BRN) were defined using an already given network architecture to process a sequence in two directions simultaneously. Contextual networks require constraints on their internal structure. Both network architectures, contextual and bidirectional, keep the form of the input data and maintain the sequential nature of the processing. In this work it is shown that a sequence can be mapped to tree structures such that a recurrent Elman-BRN on the sequence does the same job as a recursive Elman net (also: Simple Recurrent Network) on the tree structures. This sequence-to-tree mapping is generalised onto tree structures, so that they can be restructured bidirectionally. This restructuring is interpreted as a form-based preprocessing of the input data. Novel methods of restructuring are defined, i.e. algorithms for mapping sequences to trees. One result is a computationally efficient method for the classification of translation invariant sequences. Furthermore, the possibility to define a non-causal sequence-to-sequence mapping is concluded, which is invertible under certain conditions. One method is presented that is very easy to implement and realises the concept of Divide and Conquer. This is also combined with bidirectional restructuring. All presented methods are compared against the recurrent default method basing on LSTM and Elman networks by learning different classification problems. Networks with only three to five neurons are used. To cover a wide range of usage scenarios, synthetic and real-world data of symbolic and continuous nature are used as input data. The quality of training is compared amongst the methods. For pattern sets with an unbalanced ratio between positive and negative patterns an auto-balancing variant of gradient descent is presented. Furthermore, a special initialization for the training method Resilient Backpropagation is specified. It turns out that the restructuring methods outperform the recurrent default and can be successful even where recurrent networks fail, and they should therefore be considered essential for optimization.

Vorschau

Zitieren

Zitierform:

Arnhold, Sven: Data restructuring as formal preprocessing for machine learning with neural networks. 2015.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export