Set the Language

We weren't able to detect the audio language on your flashcards. Please select the correct language below.

Front

Back

Related Flashcards

Flashcards
»
Big Data

Big Data

by k0nsi, Jul. 2017

Favorite

Add to folder

Flag

Related Essays

Advantages And Disadvantages Of Storage Systems For Big Data
Then Bigtable returns the corresponding data where it behaves similar to distributed hash table. Bigtable maintains the data in lexicographic order by row st...
SQL Vs NOSQL
Not Only SQL (NOSQL) In this paper I will use comparisons to help distinguish what is NOSQL. We will talk about NOSQL vs SQL. Document, Graph, or Key-value...
The Importance Of Big Data Management
Presence of big data is a very common phenomenon now days, specially when talking about medium to large size corporation. The term Big Data is often describe...
Nt1330 Unit 1 Study Guide
Structured Query Language (SQL) – A language that allows client workstations to communicate with servers and mainframe computers. 14. Open Database C...
Mapreduce Rendezvous Hasing Based Virtual Hierarchies: The Cassandra Nosql Case Study
The gradual transformation in data quantity has resulted in emergence of the Big data and immense datasets that need to be stored. Traditional relational dat...
The Pros And Cons Of Big Data
In his article “What is Big Data” Edd Dumbill characterizes different aspects of Big Data as three V’s. Volume, Velocity and Variety. The volume itself is a ...
Big Data
Big data has transformed into an important element in establishing growth for any business. The term is used to describe a crucial and massive volume of data...
Sequenom Case Summary
Big data with Hadoop deployment recommended solution today only addresses part of the issue, and have done so by increasing knowledgeable IT staff for the te...
Nt1310 Unit 4 Assignment 4 Analysis
Abhinav Chittineni 1170709 Assignment 2-Usage of Map Reduce Governors State University Introduction: MapReduce is one of the main topic in t...
Digital Business Strategy Essay
Training can be completed in 3 - 4 weeks time and it is important that new team of developers and analyst is aware of Big data implementation. Let’s now look...

Shuffle
Toggle On

Toggle Off
Alphabetize
Toggle On

Toggle Off
Front First
Toggle On

Toggle Off
Both Sides
Toggle On

Toggle Off
Read
Toggle On

Toggle Off

Reading...

Front

Card Range To Study

through

Play button

Progress

1/74

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

74 Cards in this Set

Front
Back

	Die 5 V's von Big Data in aufsteigender Folge nach Bedeutung	Volume, Velocity, Variety, Veracity, Value
	Typen von Datenanalyse	Descriptive, Diagnostic, Predictive, Prescriptive
	Unterschied Data Scientist <-> Data Engineer
	Welche 5 Data-modelle und beschreiben.	Relationalmodell, Key-Value-stores, Wide-column-tables, Document Stores, Graph DB
	JDBC Treiber Typen und erklären	Typ 1: JDBC-ODBC Bridge Typ 2: Native API/Partly Java Typ 3: Net-protocol/All-java Treiber Typ 4: Native-protocol/All-java Treiber
	Vorkompilierte SQL-Anweisungen in JDBC, wie?	PreparedStatement, parametrisierbar mit "?" Idee: oft verwendete Anweisungen ein mal kompilieren.
	Was ist CLI?	Call Level Interface. Standard für Prozeduren & Funktionen zur Kommunikation mit DBMS. Definition und Ausführung von Anfragen. Verarbeitung von Ergebnissen.
	Was ist ODBC	CLI-konforme Windows Implementierung. Erweiterte Funktionalität. Dynamisches Laden von Treibern.
	Handlearten in ODBC?	Environmenthandle, Connection-handle, Statement Handle, Descriptor Handle
	HierachieStruktur der Handles	Environmenthandle->Connectionhandle>Statementhandle Connectionhandle->Descriptorhandle
	Vorteile der Anwedungslogik IN der DB?	Räumliche Nähe von Anwendungslogik und Daten. Reduzierter Netzwerkverkehr. Kapselung und Wiederverwendung. Höheres Optimierunspotential. Transaktionsschutz.
	Funktionsarten in DB2	Skalar-, Aggregations-, Zeilen- und Tabellenfunktionen
	Nutzerdefinierte Funktionsarten?	Sourced(Template), SQL Scalar/Table/Row, External Scalar/Table, OLE DB External Table
	Was sind Sourced Functions?	Basieren auf bestehenden Funktionen. Automatische Typkonvertierung. Vorhandene Funktionen mit nutzerdefinierten Typen.
	Was sind Stored Procedures?	In DB abgelegte Prozeduren. Parametriesiert. SQL oder extern. Aufruf mit 'CALL'.
	SP im Vergleich zu UDF?	SP können nicht in SQL-Stmts/Triggern/Funktionen verwendet werden. Bei SP beliebige Ausgabewerte möglich. SP bessere Fehlerverarbeitung.
	Was ist Compound SQL?	Zusammenfassen mehrerer SQL-Stmts. 3 Arten: "Integriert" (UDFs, Trigger, JDBC...), ehemals dynamisch "Kompiliert" (SP, UDFs, Trigger), ehemals prozedural.
	Externe UDFs und warum?	In höherer Programmiersprache geschrieben (java, C#...). Naheuzu beliebige Anwedungslogik implementierbar (kein schreibender DB-Zugriff). Zugriff auf bestehende externe Software-komponenten möglich.
	Fenced vs Unfenced UDFs?	Fenced (Standard): UDF läuft in eigenem Prozess. Kein Zugriff auf DB2-Internals. Sicher aber langsam. Unfenced: In DB2-Engine ausgeführt->schneller. Für bereits erprobte, vertrauenswürdige UDFs.
	Statisches SQL vs Dynamisches SQL	Feste SQL-Anweisungen, vorher bekannt. Parametrisierung durch Variablen zulässig. Vorkompiliert->kein Overhead. Aber: sensitiv zu Änderungen der Datenverteilung. vs Dynamisch generierte SQL Anweisungen Typischerweise langsamer. DB2-interne Cache
	Was ist NoSQL	Nicht-relational, Verteilt, Fehlertolerant, open-source horizonal skalierbare DBMS
	SQL vs NoSQL
	ACID vs BASE
	Scale-Up vs Scale-Out	Scale-up adds resources to a single node in a system. Scale-out (horizontally) adds more nodes to a system.
	Vorteile von Scale-out	Besserer Energieverbrauch aufgrund geringer CPU-Frequenzen. Leichtere Fehlerbehandlung. Erlaubt inkrementelle Kapazitätsanpassung und rolling updates.
	CAP Definition	Consistency, Availability, Partition-tolerance. Nur zwei davon gleichzeitig möglich.
	Was ist Redis?	Remote Dictionary Server. Open-source single-threaded, advanced key-value-data-store. Works with in-memory dataset.
	Welche Values in Redis möglich?	Strings, Containers of Strings: Hashes, Lists, Sets, Sorted sets
	Was ist HyperLogLog?	Probabilistische Datenstruktur. Schättz die Kardinalität eines Multisets. Braucht nicht Speichermenge proportional zur Menge der Items. Konstante Speichermenge 12kb.
	Was ist HBase?	Wide-column-NoSQL Store auf Basis von Apache Hadoop. Verteilte sortierte Map auf Basis von Google Big Table. Spaltenorientiertes Layout.
	Features von HBase?	Versionierung. In-Memory Tabellen, Kompression, Fehlertoleranz, Map-Reduce-Unterstützung.
	Aufbau von HBase Tabelle.	Eindeutiger Row key zur Identifizierung von Zeilen = Key-Value Container. Zeilen nach Column families gruppiert. Column families enthalten columns. Zelle ist Kombi aus row-key, column family und column. Zelle ist mit Zeitstempel versioniert.
	Optimierung von HBase Schema wie?	Bezeichner der Column families so klein wie möglich wählen. Spaltenbezeichner lesbar aber kurz. Hotspot durch Salting vermeiden.
	Was ist Salting?	In HBase: Zufälliges Einfügen von Präfixen an alle Row-keys. Dadurch mehr aufwand beim Lesen aber schnelleres Schreiben.
	Architektur von HBase	Master: Koordiniert HBase-Cluster, Zuweisung und Balancierung von Regionen. Behandelt Admin-Ops. Region Server: Enthält mehrere Regionen. Verantwortlich für Schreiben und Lesen. Region: Untermenge einer Tabelle. Basiseinheit zur Skalierung in HBase. Zusammenhängender geordneter Bereich von Zeilen.
	Wann sollte HBase genutzt werden?	Wahlfreies Lesen bzw. Schreiben oder beides notwendig. Tausende Operationen auf mehrere TB. Zugriffsmuster müssen bekannt und einfach sein.
	Was ist der Apache Zookeeper und wofür ist er verantwortlich?	Koordinationsdients für HDFS. Verwaltet Namensraum. Locking: Zugriffsverwaltung für geteilte Resourcen. Synchronisation: Start/Stop von Knoten, korrekte Ausführunsreihenfolge. Konfigurationsmanagement. Masterwahl: Bestimmt Masterknoten und handhabt Knotenausfall. Bietet Pub/Sub-Fähigkeiten.
	Einsatzszenarien von Document Stores?	Wenn Daten nur schwach vernetzt sind. Primär als Key-Value Store mit Sekundärindizes. Für Javascript (MongoDB). Bei großen Datenmengen. Z.B. CMS mit semi-strukturierten Daten e.g. Produktdaten.
	Was ist MongoDB?	Dokumentorientierte NoSQL-Datenbank in C++. Ziel: Performance und einfacher Datenzugriff.
	Features von MongoDB?	Dynamisches Schema. Dokumentbasiert. Sekundärindex. Anfragen per API. Master-Slave-Replikation mit automatischem Failover (replica sets). Map-Reduce-Unterstützung. KEINE Joins und Transaktionen.
	Datenmodell von MongoDB	Instanz->0-* Datenbanken->0-* Collections ->0-* Dokumente -> 1-* Felder Dokumente können andere Dokumente enthalten. Collections entsprechen Tabellen.
	Welches Format haben Dokumente in MongoDB?	JSON-ähnliche Struktur namens BSON (binary). Unterstützt mehr Datentypen. Max 16MB.
	Wie werden Dokumente in MongoDB untereinander referenziert?	Mit Object-ID nur innerhalb einer Collection. Mit DBref verweisen mehrere Dokumente auf ein Dok in einer anderen Collection. Mit EmbeddedDoc Einbettung von Dokumente in Andere möglich.
	Vergleich der Elemente in RDBMS vs MongoDB?	Datenbank=Datenbank Tabelle, Sicht -> Collection Zeile -> Dokument (BSON) Spalte -> Feld Index=Index Join->Eingebettetes Dokument Fremdschlüssel->Referenz (DBref) Partition->Shard
	Wie verarbeitet MongoDB anfragen?	MongoDB nutzt B-Baum Index zur Beschleuningung. Ohne Index -> Collection Scan über alle Dokumente einer Collection. Standarmäßig wird Index auf _id Feld angelegt.
	Welche Indexarten gibts in MongoDB?	Multi-Key-Index Geospatial Index (2dsphere) Hash-Index (hashed) Textsuche mit Textindex (1 Textindex pro Collection möglich)
	Nodes und Edges in Neo4J verglichen zu Elementen in ER	Nodes wie eine Entity in ER. Existieren alleine. Haben Objektidentität. Edges wie Beziehung in ER. Existieren nur zwischen Nodes. Identität hängt von verbundenen Knoten ab.
	Unterschied zwischen Path und Simple Path.	Simple Path hat keine Zyklen.
	Was ist eine Clique.	Fully edge connected set of vertices.
	Def. von Distanz zweiter Nodes in Neo4J	Anzahl der Edges im kürzestem verbundenen Pfad.
	Def. von Eccentricity in Neo4J	Längester verbundener Pfad zweier Nodes.
	Def. Radius in Neo4J	Minimale Eccentricity aller Nodes im Graphen.
	Was ist das Kernkonzept von Neo4J?	Pattern matching.
	Pattern Syntax in Neo4J	Vertex pattern mit () und Edge pattern mit -[]->
	Wie Daten aus Neo4J extrahieren und Filtern und erstellen?	Mit "MATCH", "WHERE", "RETURN" extrahieren. Mit "CREATE" erstellen.
	Unterschied Homomorphismus und Isomorphismus?	Homo: Abbildung von mehreren Knoten der Query auf <= der Resultquery. Iso: 1:1
	Vor- und Nachteile bei der Verwendung multipler DBMSs?	Pro: Kann multi-model Daten handlen. Einfache Skalierung. Con: Benötigt viele qualifizierte Leute zur Arbeit. Inter-model queries schwer verarbeitbar.
	Unterschied zwischen Multi-Model und Multi-Modal?	Model: Verschiedene DBMS Modal: Verschiedene Datentypen (video, bilder, eye tracking data...)
	Vor- und Nachteile einer Multi-Model DB?	Pro: Kann multi-model Daten verarbeiten. Ein System hat Fehlertoleranz. Garantiert inter-model Datenkonsistenz. Einheitliche query-Sprache für multi-model Daten. Con: Komplexes System. Unreif und in Entwicklung. Noch viele Herausforderungen.
	Beispiele für Relationale Multi-Model DBMSs?	PostGreSQL, IBM DB2, Microsoft SQL Server, Oracle DB, MySQL
	Beispiele für column multi-model DBMSs?	Cassandra, DynamoDB
	Unterstütze Models von ArangoDB?	Document, Key-Value, Graph
	Datenmodell von ArangoDB?	1-* Datenbanken halten Collections. Collection sind Typ Document oder Typ Edge. Edge Collection haben _from and _to Attribute.
	Document Eigenschaften in ArangoDB?	JSON Object. Beliebige Verschachtelung. Kann Listen enthalten. Unique key zur Identifizierung in Collection. Unique ID zur Identifizierung in DB. Beide unveränderlich. Verschiedene Dokumentrevisionen.
	Edge Document Eigenschaten in ArangoDB?	Normale Dokumente, die immer _from und _to Attribute enthalten. Einige spezielle Edge Funktionen z.B. edge-collection.edges(vertex).
	ArangoDB query Sprache mit Eigenschaften?	AQL - declarative query language. Unterstützt komplexe query patterns und alle Datenmodelle von Arango. Gibt entweder Result zurück oder führt Datenmodifikations-operation aus (INSERT, UPDATE, REPLACE...)
	Datentypen in ArangoDB?	Primitive: null, bool, number, string Compound types: bestehend aus multiplen Werten: Array (von Arrays) mit [] und Object/document mit {}
	Indexarten in ArangoDB?	Primary Index Hash Index Skiplist Index Persistent Index Geo Index Fulltext Index
	Eigenschaften des Primary Index in ArangoDB?	(default): _id, _key, _from, _to automatisch indexiert. Unsortierter Hash Index.
	Eigenschaften des Hash Index in ArangoDB?	Auf einem oder mehreren Attributen erstellt.
	Eigenschaften des Skiplist Index in ArangoDB?	Sortierte Indexstruktur. Für range queries und sortierte Rückgabewerte benutzt.
	Eigenschaften des Persistent Index in ArangoDB?	Sortierter Index mit Persistenz. Indexeinträge auf Platte mit DML Ops geschrieben.
	Eigenschaften des Geo Index in ArangoDB?	Speichert 2D Koordinaten (latitude und longitude) in zwei Attributen oder einem Array mit zwei Werten.
	Eigenschaften Fulltext in ArangoDB?	Auf einem Attribut erstellt. Indexiert alle Worte in Kleinform von Dokumenten die dieses Wort im Attribut enthalten. Unterstützt komplette Match queries, Präfixsuchen, logische operationen.

Share This Flashcard Set