ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Ι

ΠΑΝΤΕΛΗΣ ΜΠΑΓΚΟΣ

Περιγραφή

Σκοπός του μαθήματος είναι να παρουσιάσει τις βασικές έννοιες της Βιοπληροφορικής και της Υπολογιστική Βιολογίας. Η ύλη περιλαμβάνει τις κλασικές ενότητες τέτοιων μαθημάτων και αναφέρεται κυρίως στις βάσεις βιολογικών δεδομένων και τα εργαλεία αναζήτησης και ομοιότητας, αλλά και τις μεθόδους πρόγνωσης. Με την επιτυχή ολοκλήρωση του μαθήματος οι φοιτητές θα πρέπει να είναι ικανοί:

Να αναγνωρίζουν και να διακρίνουν τα βασικά βιολογικά φαινόμενα, στα οποία εμπλέκεται η βιοπληροφορική αλλά και της σημασία της ανάμεσα στις σύγχρονες βιολογικές επιστήμες
Να επιλύουν προβλήματα που έχουν να κάνουν με αναζητήσεις σε βάσεις βιολογικών δεδομένων διαφόρων τύπων
Να χρησιμοποιούν τα βασικά εργαλεία στοίχισης, πολλαπλής στοίχισης και πρόγνωσης δομής και λειτουργίας πρωτεϊνών

Υλη:

Εισαγωγή: ορισμός και Ιστορία της Βιοπληροφορικής. Υποδιαιρέσεις. Είδη των δεδομένων στη Βιοπληροφορική. Βάσεις δεδομένων: βάσεις δεδομένων βιβλιογραφίας, αλληλουχιών πρωτεϊνών και DNA, δομών, διπλωμάτων και οικογενειών, εξειδικευμένες βάσεις δεδομένων, εργαλεία ανάλυσης της πληροφορίας που είναι αποθηκευμένη στις βάσεις δεδομένων – Entrez, SRS. Στοίχιση ακολουθιών: Μέθοδοι εύρεσης ομοιοτήτων σε αλληλουχίες, ομολογία και ομοιότητα αλληλουχιών και η σημασία τους, αλγόριθμοι δυναμικού προγραμματισμού, ολική στοίχιση – Global Alignment – αλγόριθμος των Needleman και Wunch, τοπική στοίχιση – Local Alignment – αλγόριθμος των Smith και Waterman, υπολογισμός της στατιστικής σημαντικότητας της στοίχισης, πίνακες ομοιότητας και η σημασία τους, ποινές για τα κενά, ευριστικές μέθοδοι για αναζήτηση ομοιοτήτων σε βάσεις δεδομένων BLAST, FASTA. Πολλαπλή στοίχιση αλληλουχιών: Πολυδιάστατοι αλγόριθμοι δυναμικού προγραμματισμού, ευριστικές μέθοδοι πολλαπλής στοίχισης ακολουθιών – CLUSTAL, DIALIGN, T-Coffee, κλπ – φυλογενετικά δένδρα και πολλαπλές στοιχίσεις. Αλγόριθμοι πρόγνωσης στηριζόμενοι στην ακολουθία πρωτεϊνών και DNA: Πρόγνωση δευτεροταγούς δομής πρωτεϊνών και RNA, πρόγνωση διαμεμβρανικών τμημάτων πρωτεϊνών και προσανατολισμού τους, εύρεση πιθανών γονιδίων σε ακολουθίες DNA, Hidden Markov Models και Νευρωνικά Δίκτυα στη Βιοπληροφορική. Oι αλγόριθμοι forward και backward, αποκωδικοποίηση (αλγόριθμοι Viterbi, Nbest, Posterior, Posterior - Viterbi, OAPD), εκτίμηση παραμέτρων με τους αλγόριθμους Baum - Welch και Gradient Descent, ειδικές τροποποιήσεις του Hidden Markov Model για βιολογικά δεδομένα (Class HMM, αλγόριθμοι για σημασμένες ακολουθίες, αλγόριθμοι ενσωμάτωσης πειραματικής πληροφορίας, profile Hidden Markov Models)

Λιγότερα

Να αναγνωρίζουν και να διακρίνουν τα βασικά βιολογικά φαινόμενα, στα οποία εμπλέκεται η βιοπληροφορική αλλά και της σημασία της ανάμεσα στις σύγχρονες βιολογικές επιστήμες
Να επιλύουν προβλήματα που έχουν να κάνουν με αναζητήσεις σε βάσεις βιολογικών δεδομένων διαφόρων τύπων
Να χρησιμοποιούν τα βασικά εργαλεία στοίχισης, πολλαπλής στοίχισης και πρόγνωσης δομής και λειτουργίας πρωτεϊνών

Υλη:

Περισσότερα

Κωδικός: DIB160
Κατηγορία: Πληροφορικής με εφαρμογές στη Βιοϊατρική » Προπτυχιακό

CC - Αναφορά Δημιουργού

Θεματικές Ενότητες

Εισαγωγή στη Βιοπληροφορική

Η βιοπληροφορική είναι ένας ταχέα αναπτυσσόμενος διεπιστημονικός κλάδος. Παρόλο που ένας ακριβής ορισμός δεν μπορεί να δοθεί, και υπάρχουν μάλιστα και πολλές διαφωνίες ανάλογα με την οπτική και το υπόβαθρο του καθενός, είναι σαφές ότι πρόκειται για τον επιστημονικό κλάδο που βρίσκεται στην περιοχή επαφής της βιολογίας με τα μαθηματικά και την επιστήμη υπολογιστών. Στο κεφάλαιο αυτό, θα προσπαθήσουμε να εξετάσουμε τέτοια θέματα από όλες τις πλευρές. Θα δούμε το ιστορικό πλαίσιο ανάπτυξης της βιοπληροφορικής (ή καλύτερα, της υπολογιστικής βιολογίας), το διεπιστημονικό χαρακτήρα της, τους μύθους που τη συνοδεύουν, αλλά θα δούμε και τις τελευταίες εξελίξεις στη βιβλιογραφία της βιοπληροφορικής, τόσο διεθνώς όσο και στην Ελλάδα. Με τα περιεχόμενα αυτού το κεφαλαίου, ευελπιστούμε ότι οι αναγνώστες θα μπορέσουν να αποκτήσουν μια εποπτική εικόνα αυτού του σύνθετου ερευνητικού πεδίου η οποία θα τους βοηθήσει στην κατανόηση των επόμενων κεφαλαίων

Βάσεις Βιολογικών Δεδομένων

Στο κεφάλαιο αυτό, θα γίνει η απαραίτητη εισαγωγή στις βιολογικές βάσεις δεδομένων έτσι ώστε ο αναγνώστης να μπορεί, στα επόμενα κεφάλαια, να ανατρέχει στις πηγές που χρησιμοποιούνται για την ανάλυση των αντίστοιχων κάθε φορά δεδομένων (αλληλουχίες, δομές, οικογένειες πρωτεϊνών, δεδομένα έκφρασης, πολυμορφισμοί κ.ο.κ.). Ανάλογα με το είδος της πληροφορίας που περιέχουν, θα παρουσιαστούν οι κύριες βάσεις κάθε κατηγορίας και θα τονιστούν τα βασικά χαρακτηριστικά τους. Ειδικό κομμάτι στο τέλος του κεφαλαίου, θα αφιερωθεί στις εξειδικευμένες βάσεις (κυριώς πρωτεϊνικών) δεδομένων, οι οποίες καταλαμβάνουν σημαντικό μερίδιο στην έρευνα των μικρών και μεσαίου μεγέθους ερευνητικών εργαστηρίων και αποτελούν σημαντικό εργαλείο στη βιοπληροφορική μελέτη των πρωτεϊνών.

Κατά ζεύγη Στοίχιση Ακολουθιών

Στο κεφάλαιο αυτό θα παρουσιαστούν αρχικά, τα απαραίτητα μαθηματικά μοντέλα που περιγράφουν τις αλληλουχίες μακρομορίων και κάποια βασικά ασυμπτωτικά αποτελέσματα που αναφέρονται σε αυτές. Στη συνέχεια θα παρουσιαστούν τα βασικά θεωρητικά αποτελέσματα που αφορούν στη στοίχιση βιολογικών αλληλουχιών. Θα παρουσιαστούν οι τρόποι βαθμονόμησης της στοίχισης, οι τρόποι εύρεσης της στοίχισης, καθώς και τα διαφορετικά είδη αλγορίθμων στοίχισης, ενώ ιδιαίτερη έμφαση θα δοθεί στην αξιολόγηση της στατιστικής σημαντικότητας μιας στοίχισης. Τέλος, θα παρουσιαστούν οι βασικοί ευριστικοί αλγόριθμοι τοπικής στοίχισης (FASTA, BLAST), οι οποίοι χρησιμοποιούνται καθημερινά στη βιοπληροφορική

Πολλαπλή Στοίχιση Αλληλουχιών

Η πολλαπλή στοίχιση είναι μια διαδικασία με κεντρική σημασία στη σύγχρονη βιοπληροφορική. Πολλαπλές στοιχίσεις χρησιμοποιούνται για να εντοπιστούν τα συντηρημένα τμήματα σε μια ομάδα πρωτεϊνικών ακολουθιών και για να χαρακτηριστεί η αντίστοιχη οικογένεια, αλλά και για άλλες αναλύσεις, όπως η εκτίμηση φυλογενετικών σχέσεων και η υποβοήθηση της απόδοσης προγνωστικών αλγορίθμων. Το βασικό πρόβλημα της πολλαπλής στοίχισης είναι ότι δεν υπάρχει εύκολος τρόπος να βρεθεί μαθηματικά, η βέλτιστη λύση στο πρόβλημα, όπως έγινε στην περίπτωση της κατά ζεύγη στοίχισης. Στο κεφάλαιο αυτό θα μελετήσουμε τους κύριους αλγόριθμους πολλαπλής στοίχισης και τις αντίστοιχες υλοποιήσεις. Θα δούμε επίσης πώς αξιολογείται μια μέθοδος πολλαπλής στοίχισης, ποια εργαλεία υπάρχουν για την οπτικοποίηση και την επεξεργασία της, και τέλος, θα δούμε πρακτικές συμβουλές για μια καλή πολλαπλή στοίχιση

Αναζήτηση Προτύπων

Στο κεφάλαιο αυτό θα μελετήσουμε τα πρότυπα αλληλουχιών και θα εξετάσουμε τη χρησιμότητά τους. Θα δούμε τον τρόπο ορισμού των προτύπων της PROSITE και τη σχέση τους με τα πρότυπα κανονικών εκφράσεων και θα συζητήσουμε τα πλεονεκτήματα και τα μειονεκτήματά τους. Κατόπιν, θα αξιολογήσουμε πώς κάποια από αυτά τα μειονεκτήματα αντιμετωπίζονται με τους πίνακες του σκορ ειδικούς ανά θέση (PSSMs) και τα προφίλ αλληλουχιών (profiles), τα οποία είναι πιο ευέλικτες στατιστικές περιγραφές των συντηρημένων περιοχών σε μια πολλαπλή στοίχιση. Τέλος, θα μιλήσουμε και για τα πιο γνωστά εργαλεία λογισμικού που χρησιμοποιούνται για την κατασκευή αλλά και για την αναγνώριση τέτοιων προτύπων και προφίλ σε αλληλουχίες.

Hidden Markov Models (HMMs), Profile HMMs

Στο κεφάλαιο αυτό, θα γίνει η απαραίτητη εισαγωγή στα μαρκοβιανά μοντέλα εξάρτησης και κατόπιν, παρουσίαση των κρυπτομαρκοβιανών μοντέλων (Hidden Markov Models) τα οποία αποτελούν ένα σημαντικό εργαλείο στη σύγχρονη βιοπληροφορική. Θα αναφερθούμε στα βασικά χαρακτηριστικά των μοντέλων αυτών και στη μαθηματική τους θεμελίωση, ενώ θα παρουσιαστούν σε βάθος οι διάφοροι αλγόριθμοι που χρησιμοποιούνται για τον υπολογισμό της πιθανοφάνειας, για την αποκωδικοποίηση και για την εκτίμηση παραμέτρων στα μοντέλα αυτά. Θα παρουσιαστούν επίσης, τα μοντέλα για σημασμένες αλληλουχίες, τα οποία αποτελούν μια επέκταση του βασικού ΗΜΜ, η οποία βρίσκει πολλές εφαρμογές στην ανάλυση βιολογικών αλληλουχιών (πρόγνωση διαμεμβρανικών πρωτεϊνών, εύρεση γονιδίων κ.ο.κ.). Τέλος, θα γίνει ειδική αναφορά στο profile HMM το οποίο είναι άλλη μια παραλλαγή του βασικού μοντέλου, η οποία βρίσκει εφαρμογές στη μοντελοποίηση πρωτεϊνικών οικογενειών, στην εύρεση μακρινών ομολόγων και στην πολλαπλή στοίχιση.

Μέθοδοι Πρόγνωσης

Στο κεφάλαιο αυτό θα ασχοληθούμε με τις μεθόδους πρόγνωσης δομής και λειτουργίας μακρομορίων, τόσο των πρωτεϊνών όσο και του DNA και RNA. Οι μέθοδοι αυτές είναι ιδιαίτερα σημαντικές καθώς έρχονται να καλύψουν το κενό που προκύπτει σε περιπτώσεις που μια νεοανακαλυφθείσα αλληλουχία δεν εμφανίζει σημαντική ομοιότητα με κάποια άλλη γνωστής δομής ή λειτουργίας. Θα παρουσιάσουμε τις βασικές αρχές με τις οποίες μπορεί να κατασκευαστεί μια προγνωστική μέθοδος, καθώς και τα πιο σημαντικά παραδείγματα τέτοιων μεθόδων τα οποία παρουσιάζουν μεγάλο θεωρητικό και πρακτικό ενδιαφέρον. Έτσι, θα δούμε την πρόγνωση της δευτεροταγούς δομής πρωτεϊνών, την πρόγνωση των διαμεμβρανικών τμημάτων, την πρόγνωση των σηματοδοτικών αλληλουχιών αλλά και παραδείγματα πρόγνωσης μετα-μεταφραστικών τροποποιήσεων. Στην περίπτωση του DNA θα δούμε τις μεθόδους εύρεσης γονιδίων, αλλά και άλλα σχετιζόμενα προβλήματα (εύρεση σημείων αποκοπής εξωνίων/εσωνίων, πρόγνωση πολυαδενυλίωσης κ.ο.κ.), ενώ για RNA θα εστιάσουμε στις μεθόδους πρόγνωσης των micro RNA και των στόχων τους.

Φυλογενετική Ανάλυση

Στο κεφάλαιο αυτό εξετάζονται οι υπολογιστικές όψεις της φυλογενετικής ανάλυσης, δηλαδή, της διαδικασίας εκτίμησης των εξελικτικών σχέσεων των οργανισμών, μέσα από τη μελέτη των αντίστοιχων βιολογικών αλληλουχιών τους. Θα δούμε στην αρχή τους βασικούς ορισμούς για τα φυλογενετικά δέντρα και τα βασικά πιθανοθεωρητικά μοντέλα της εξέλιξης αλληλουχιών. Κατόπιν, θα παρουσιάσουμε τις βασικές κατηγορίες μεθόδων κατασκευής φυλογενετικών δέντρων, και θα σχολιάσουμε τις ομοιότητες και τις διαφορές τους. Τέλος, θα παρουσιάσουμε τα αντίστοιχα πακέτα λογισμικού που υπάρχουν διαθέσιμα για το σκοπό αυτό, θα σχολιάσουμε τα σχετικά πλεονεκτήματα και μειονεκτήματα τους, και θα δώσουμε πρακτικές συμβουλές.