Bonjour à tous et toutes.
Je viens vous voir car j'ai un problème. Je suis actuellement en présence d'un fichier texte de la forme suivante :
>P1;AQP1_BOVIN|Bos_taurus
-------------------------------------MASEFKKKLFWRA
VVAEFLAMILFIFISIGSALGFHYPIKSNQTT------------GAVQDN
--VKVSLAFGLSIATLAQSVGHISGAHLNPAVTLGLLLSCQISVLRAIMY
IIAQCVGAIVA------------------TAILSGITSSLPDN-SL-GLN
ALAPGVNSGQGLGIEI-IGTLQLVLCVLATTDRRRR-D---LGGSGPLAI
GFSVALGHLLAI----DYTGCGINPARSFGSSVITH-NFQDHWIFWVGPF
IGAALAVLIYDFILAPRSSDLT---DRVKVWTSGQVEEYDLDADDINSRV
EMKPK---------------------------------------------
--------------------------------------------------
------------------
*
>P1;AQP1_SHEEP|Ovis_aries
-------------------------------------MASEFKKKLFWRA
VVAEFLAMILFIFISIGSALGFHYPIKSNQTT------------GAVQDN
--VKVSLAFGLSIATLAQSVGHISGAHLNPAVTLGLLLSCQISILRAIMY
IIAQCVGAIVA------------------TVILSGITSSLPDN-SL-GLN
ALAPGVNSGQGLGIEI-IGTLQLVLCVLATTDRRRRRD---LGDSGPLAI
GFSVALGHLLAI----DYTGCGINPARSFGSSVITH-NFQDHWIFWVGPF
IGAALAVLIYDFILAPRSSDLT---DRVKVWTSGQVEEYDLDADDINSRV
EMKPK---------------------------------------------
--------------------------------------------------
------------------
*
etc
Il s'agit de séquences protéiques après alignement mais n'ayez pas peur ma question n'a rien à voir avec la bio ;p
Je souhaiterais pouvoir extraire de ce fichier (qui continue comme cela sur des centaines de séquences) uniquement les parties contenues entre le premier tiret et l'étoile (ce que j'ai souligné dans la 2ème séquence), sachant que ça ne commence pas toujours avec des tirets (on peut avoir des lettres à la place), mais par contre ça se termine toujours par une étoile et la longueur de la partie à extraire est constante.
Et comme indiqué dans le texte, si c'était possible de le faire en php ça m'arrangerais énormément...
D'avance merci

