Big data: kloof tussen test- en IT-afdeling

Door Elektor Team | 22 september, 2016

De big data kloof National Instruments (NI) werkt veel samen met engineers en wetenschappers die geautomatiseerde testsystemen ontwikkelen en toepassen, waardoor het bedrijf inzicht kan geven in de huidige en toekomstige markttrends. Dit artikel gaat in op de veranderingen die noodzakelijk zijn binnen innovatieve technologische bedrijven om hun waardevolle testgegevens te integreren en om de opslag en het analyseren van die data te verbeteren.

De big data kloof
National Instruments (NI) werkt veel samen met engineers en wetenschappers die geautomatiseerde testsystemen ontwikkelen en toepassen, waardoor het bedrijf inzicht kan geven in de huidige en toekomstige markttrends. Dit artikel gaat in op de veranderingen die noodzakelijk zijn binnen innovatieve technologische bedrijven om hun waardevolle testgegevens te integreren en om de opslag en het analyseren van die data te verbeteren.
Geautomatiseerde testsystemen creëren enorme hoeveelheden data en met het toenemen van de complexiteit van deze apparaten en componenten zal de hoeveelheid alleen maar verder groeien. Het gebruik van deze informatie om de productiviteit te laten stijgen, zet extra druk op testengineers. Bovendien moeten testafdelingen ervoor zorgen dat zij voldoende opslag ter plekke hebben, enorme hoeveelheden data kunnen binnenhalen en analyseren, maar hoe kunnen ze dat in werkelijkheid realiseren?
In de meeste ondernemingen werken engineeringteams onafhankelijk van de IT-afdeling. Dit is één van de grootste ergernissen van een IT-beheerder die waarschijnlijk niet begrijpt waarom een engineeringsafdeling zo veel opslag nodig heeft voor haar testdata. De IT-afdelingen houden er vaak geen rekening mee dat de testgegevens van engineers en wetenschappers een onderdeel van hun rol binnen het bedrijf is. Het is echter van groot belang om te erkennen dat IT een rol speelt in het beheren van de enorme hoeveelheid informatie. De bijna eindeloze, door engineeringsafdelingen gecreëerde, datahoeveelheid veroorzaakt een kloof tussen IT- en engineeringteams. En deze kloof zal alleen maar breder worden op het moment dat de geautomatiseerde testsystemen complexer worden, tenzij deze groepen gaan samenwerken in het ontwikkelen van tools en methoden om deze data beter te gebruiken.

Data analyses
Het is voor een bedrijf dat op de markt concurrerend wil blijven van groot belang om in de productietestdata te duiken om belangrijke tendensen en correlaties te vinden. Kimberley Madia, IBM’s wereldwijde databeveiligingsstrateeg, zei recent: “De verschuiving naar een alsmaar flexibeler en dynamischer ontwikkelproces vereist een snelle toegang tot de overeenkomstige testdata.”
Er is overtuigend bewijs dat de bedrijfswaarde toeneemt als analyses en algoritmen worden toegepast en ingezet om de geproduceerde data te onderzoeken. Het in staat zijn om op lange termijn terugkerende datapieken te identificeren, die als een anomalie binnen een kort tijdbestek kunnen worden beschouwd, kan mogelijk voorkomen dat een defect product wordt geleverd. Het blootleggen van dergelijke problemen via data mining kan de productiedoorvoer en de algehele productiviteit helpen verbeteren.

Cross-functionele teams
Maar hoe zorgen wij ervoor dat de testafdelingen samenwerken met IT in het ontwikkelen van data-analyse oplossingen die helpen bij het definiëren van een datamanagement proces? Een mogelijke manier om nieuwe data-oplossingen effectief te evalueren is het vormen van een cross-functioneel team vanuit zowel IT- als de testafdelingen. Tevens door er een datawetenschapper en een manager, die op een hoger niveau de organisatie kent, er aan toe te voegen.
Deze overgang naar het integreren van beide afdelingen roept vragen op als:

Vindt meer dan de helft van uw analyses handmatig plaats?
Besteedt uw team meer dan 10% van haar wekelijkse werkzaamheden aan het zoeken naar data trends?
Analyseert u minder dan 80% van de verzamelde gegevens?
Maken teams gebruik van verschillende datamanagement tools?
Wordt uw datamanagement tool flexibel ingezet?
Werken de hulpmiddelen met verschillende dataformaten en snelheden?
Kan data op een eenvoudige wijze met collega’s worden gedeeld?
Is uw opslag flexibel genoeg om aan toekomstige behoeften te voldoen?

Afhankelijk hoe u bovenstaande vragen beantwoord, is het van belang om eens goed na te gaan hoe u met uw testgegevens werkt.
De traditionele analysemethode is een tijdrovende taak: het importeren van informatie in een spreadsheet, het toevoegen van formules voor de verwerking om vervolgens de resultaten weer te geven in een diagram of een grafiek. Als het testen geautomatiseerd is, is het dan niet interessant om de analyse eveneens te automatiseren? Wordt op een tijdrovende wijze gewerkt, dan betekent dat dat ook maar een klein deel van de beschikbare hoeveelheid data binnen een redelijke tijdspanne kan worden bekeken. Het kan betekenen dat belangrijke indicatoren die een trend weergeven kunnen worden gemist.

Data opslag proces
Één van de belangrijkste stappen bij het integreren van de genoemde afdelingen is het tot overeenstemming komen als het gaat om een standaard proces voor de gegevensopslag en de presentatie. Dit kan met name een uitdaging vormen als de testgegevens gebruikmaken van uiteenlopende meettypen afkomstig van verschillende bronnen en de taak om dergelijke analoge real-world metingen te digitaliseren. Dit wordt aangegeven met de term ‘Big Analog Data’ en net als bij de traditionele data wordt dit door de vijf V’s gekenmerkt:

Volume – systemen genereren grote hoeveelheden gegevens;
Variëteit – data die in structuur en formaat veranderen;
Velocity (snelheid) – data waarbij de bemonsteringssnelheid zeer hoog is;
Value (waarde) – significante waarde wordt afgeleid uit de analyse van de gegevens;
Visibility (zichtbaarheid) – informatie is toegankelijk of zichtbaar van uiteenlopende of meerdere geografische locaties.

Siemens – NI Diadem
Siemens werd geconfronteerd met de uitdaging om een ‘Big Analog Data’ managementsysteem te implementeren. De engineers zochten naar de oorzaak van een signaal met een hoge spanningspiek dat afkomstig was van de hoogspanningslijnen naar de stroomafnemer op één van hun light-rail transportvoertuigen.
Ryan Parkinson, Siemens engineer legde het als volgt uit: “Het opnemen van data met verschillende snelheden en formaten is slechts de helft van de uitdaging; het geven van een betekenis aan de data en het effectief analyseren vormt de andere helft.”
Het meetsysteem dat Siemens gebruikte creëert 16 Gbyte aan data per dag en meestal draait het meer dan drie maanden. Dit leidt tot meer dan 1440 Gbyte aan testdata. Dit exclusief de video-opnamen die gelijktijdig worden opgenomen. Siemens houdt rekening met, terwijl zij naar het datamanagementsysteem keken, factoren zoals synchronisatie via meerdere kanalen die wederom op verschillende bemonsteringsfrequenties kunnen plaatsvinden.
Het is noodzakelijk om software te gebruiken die geoptimaliseerd is voor datamanagement om dergelijke uitdagingen op te pakken. Siemens koos in dit geval voor NI DIAdem. “DIAdem maakt gebruik van automatisch opgeslagen metadata om extreem grote bestanden erg snel te openen, er doorheen te navigeren, te zoomen en voor het uitvoeren van berekeningen”, legt Parkinson uit.

Technische datamanagement streaming
Siemens realiseerde bij meer traditionele bestandstypen voordelen door gebruik te maken van de Technical Data Management Streaming (TDMS). Denk hierbij aan de mogelijkheid om veel datakanalen van uiteenlopende typen en snelheden zichtbaar te maken, deze kanalen met elkaar te synchroniseren en de gegevens te correleren. Na het verzamelen van deze data is de volgende uitdaging het automatiseren van de analyse. Parkinson was in staat om één van de belangrijkste functies van DIAdem in te zetten om deze uitdaging op te pakken en op te lossen: “DIAdem ondersteunt ook scripting. Omdat wij ons monitoringsysteem meer dan drie maanden achtereen draaien, genereren wij honderden gigabytes aan data en het is daarom niet haalbaar om ieder bestand handmatig te openen en handmatig te analyseren.”
Nadat de noodzakelijke data, die nodig is om de oorzaak van de pieken te achterhalen, is bepaald, creëerde het Siemens team een script dat elk bestand opent, kijkt naar de kritische gebeurtenissen en de bevindingen samenvat.

Ontwikkelen van de oplossing
De ontwikkeling van een brug tussen IT- en engineeringteams om daarmee een volledige data-analyse oplossing te realiseren kost tijd. Veel bedrijven maken de fout om een volledige data-analyse oplossing in een onredelijke tijdspanne te bewerkstellingen. Het ontwikkelen van een oplossing vereist een overeenkomstige planning waarmee wordt voorkomen dat teams antwoorden aandragen zonder dat er volledig inzicht is in de werkelijke data behoeften. Een benadering van het probleem, die succesvol is gebleken bij veel toonaangevende bedrijven, is het uitvoeren van een interne pilot om daarmee te bepalen welke eisen aan de data-analyse worden gesteld. Dergelijke interne pilots definiëren een proces vanaf de start tot aan het einde om data te analyseren, de testdata te integreren in de bestaande IT-infrastructuur en het uitproberen van de data-analyse softwarepakketten om te kijken welke programmatuur het beste voldoet. Een dergelijke proefperiode biedt IT de gelegenheid om het verschil te leren kennen tussen de traditionele big data en de testgegevens. En niet te vergeten de tijd om strategieën vast te leggen voor een bedrijfsbrede implementatie van een testdata-oplossing.
Een succesvolle uitrol van een bedrijfsbrede testdata-oplossing zorgt ervoor dat de knelpunten binnen de productie kunnen worden aangewezen, de kwaliteit verbeterd en de time-to-market reduceert. Dit alles als resultaat van het verkrijgen van een gedetailleerder beeld van de productprestaties. Deze voordelen verhogen de totale winstgevendheid – en wat meer wilt u van uw data?
Meer informatie is te vinden op
http://www.ni.com/big-analog-data/
Complete Guide to Building a Measurement System
James Willis, Technical Marketing Engineer, National Instruments