por Legal Technology
273 Ventures , el estudio y consultoría de productos de tecnología legal cofundado en 2022 por Daniel Katz y Michael Bommarito, ha lanzado un conjunto de datos que contiene más de 150 mil millones de tokens de textos legales, regulatorios y financieros fundamentales que se pueden utilizar para crear o personalizar modelos de IA compatibles. , podemos revelar.
Las organizaciones pueden utilizar la combinación de fuentes de datos legales seleccionadas de Kelvin Legal DataPack para entrenar modelos de integración o como parte de la capacitación o el ajuste de modelos extractivos o generativos. Es el primer conjunto de datos legales a gran escala con procedencia clara y derechos de uso comercial. También incluye enriquecimiento y anotaciones para admitir una amplia variedad de casos de uso.
Bommarito y Katz, famosos por probar sucesivos modelos GPT en el examen de la abogacía , prevén que los bufetes de abogados podrán utilizar Kelvin y sus propios datos para construir sus propios modelos de lenguaje de gran tamaño.
El lanzamiento se produce en un momento en que grandes empresas de tecnología como OpenAI están bajo fuego por supuestamente violar las leyes de propiedad intelectual y derechos de autor al explorar Internet para capacitar a sus LLM. OpenAI se enfrenta a demandas de personas como la comediante Sarah Silverman, quien, como parte de una demanda colectiva, está demandando a OpenAI, alegando que violó las leyes de derechos de autor al ingerir su libro de 2010.
En declaraciones a Legal IT Insider, Bommarito, profesor de derecho en la Facultad de Derecho de la Universidad Estatal de Michigan y director ejecutivo de 273, dijo: “Una de las cosas que las empresas deben saber con certeza es que los datos de capacitación no van a Muérdelos. ¿Qué pasa si el caso de Sarah Silverman tiene éxito? Al crear este conjunto de datos, dijimos que no puede haber incumplimiento de contrato o propiedad intelectual al utilizar los datos”.
El conjunto de datos solo incluye material relevante de empresas como EDGAR y PACER y el CSO Katz de 273 Ventures, quien anteriormente cofundó LexPredict y es profesor de derecho en Illinois Tech – Chicago Kent College of Law, dijo: “Es mucho mejor y más enfocado y relevante que un conjunto de datos entrenado en sitios como Reddit”.
Katz y Bommarito han estado trabajando en el conjunto de datos de forma sigilosa durante un año. Llega al mercado cinco meses después del lanzamiento de BloombergGPT, un nuevo modelo de IA generativa a gran escala que ha sido entrenado en una amplia gama de datos financieros para respaldar las tareas de procesamiento del lenguaje natural (NLP) dentro de la industria financiera.
Katz dijo: “Kelvin no puede escribirte un soneto como GPT-4, pero ha tenido una dieta legal y pronto se acercará a la escala de algo como BloombergGPT”.
El Kelvin Legal DataPack también contiene varias colecciones disponibles por separado, incluido el Kelvin Contract DataPack con casi 20 mil millones de tokens. Este Contract DataPack está diseñado para admitir casos de uso comunes de los clientes, como el desarrollo de automatización de manuales de estrategias y análisis de comparación de mercados.
Una firma a la que ya se le ha ofrecido una demostración de Kelvin Legal DataPack es la firma de abogados Travers Smith, una de las 50 principales del Reino Unido, donde el director de tecnología, Oliver Bethell, dijo a Legal IT Insider: “Lo que Dan y Mike han hecho es muy emocionante y estamos interesados en ser uno de ellos”. de los primeros en tomar el paquete de datos y ajustar los modelos existentes o crear nuestro propio modelo desde cero”.
Para obtener más información, puede comunicarse con el equipo de 273 en hello@273ventures.com o kelvin.legal.