RAIRO - Theoretical Informatics and Applications

Research Article

Learning deterministic regular grammars from stochastic samples in polynomial time

Rafael C. Carrascoa1 and Jose Oncinaa2

a1 Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, 03071 Alicante, Spain; (carrasco@dlsi.ua.es)

a2 Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, 03071 Alicante, Spain; (oncina@dlsi.ua.es)

Abstract

In this paper, the identification of stochastic regular languages is addressed. For this purpose, we propose a class of algorithms which allow for the identification of the structure of the minimal stochastic automaton generating the language. It is shown that the time needed grows only linearly with the size of the sample set and a measure of the complexity of the task is provided. Experimentally, our implementation proves very fast for application purposes.

Résumé

Dans cet article, on étudie l'identification de langages réguliers stochastiques. Dans ce but, nous proposons une classe d'algorithmes permettant l'identification de la structure de l'automate stochastique minimal qu'engendre le langage. On trouve que le temps nécessaire croît linéairement avec la taille de l'échantillon et on donne une mesure de la complexité de l'identification. Expérimentalement, notre mise en œuvre est très rapide, ce qui la rend très intéressante pour des applications.

(Received June 1997)

(Accepted May 1998)

(Online publication August 15 2002)

Metrics